中文字幕乱在线伦视频乱在线伦视频,久久精品性爱视频,欧美日韩精品免费观看视一区二区

引用格式：郭玉峰, 楊宏博, 胡全力, 等. 國家中小學(xué)教師資格考試命題質(zhì)量評價研究[J]. 中國考試, 2025(12): 30-40.

作　者

郭玉峰，北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院教授。

楊宏博，教育部教育考試院副研究員（通信作者）。

摘　要：為客觀評價國家中小學(xué)教師資格考試命題質(zhì)量，促進(jìn)考試內(nèi)容改革，本文采用多維IRT模型對近五年數(shù)學(xué)學(xué)科試題樣本進(jìn)行了分析。研究結(jié)果發(fā)現(xiàn)，歷年試題質(zhì)量穩(wěn)定，難度中等適宜，區(qū)分度良好；試題對于能力中等偏下考生的測量精度更高，與中小學(xué)教師資格考試屬于合格性水平考試的定位相匹配；近年考生群體中能力水平在中等偏上者居多。本研究探索了考試試題質(zhì)量評價的新方法，診斷了命題中存在的問題，對未來考核內(nèi)容和試卷結(jié)構(gòu)調(diào)整提出了具體建議。

關(guān)鍵詞：教師資格考試；考試評價；項(xiàng)目反應(yīng)理論；數(shù)學(xué)考試

引言

1993年10月，《中華人民共和國教師法》頒布實(shí)施。2021年4月，《中華人民共和國教師法》第三次修訂，其中明確提出“國家實(shí)行教師資格制度。中國公民凡遵守憲法和法律，熱愛教育事業(yè)，具有良好的思想品德，具備本法規(guī)定的學(xué)歷或者經(jīng)國家教師資格考試合格，有教育教學(xué)能力，經(jīng)認(rèn)定合格，可以取得教師資格”^[1]。相關(guān)規(guī)定確立了教師資格考試的法律地位，成為開展中小學(xué)教師資格考試的政策依據(jù)。此項(xiàng)考試最初由各省（自治區(qū)、直轄市）自主命題，自2011年開始實(shí)施全國統(tǒng)一考試、統(tǒng)一命題，用十余年時間實(shí)現(xiàn)師范生高校考評和非師范生統(tǒng)一考評并行，逐步建立起中國特色教師資格考試制度^[2-3]。國家中小學(xué)教師資格考試（以下簡稱教師資格考試）作為我國基礎(chǔ)教育階段教師入職門檻的合格性水平考試，目前已發(fā)展成為與高考、研究生入學(xué)考試、自學(xué)考試等具有同等影響力的大規(guī)模國家教育考試^[4]，2023年報(bào)考人數(shù)達(dá)到955萬余人^[5]。隨著考試改革的不斷深入，相關(guān)研究日趨多元化、科學(xué)化，如對教師資格考試制度的歷史回顧^[2]、命題測評內(nèi)容的更新^[5]、情境化試題的命制^[6-10]、教師的數(shù)字素養(yǎng)^[11]、不同科目的考試現(xiàn)狀與改革^[12]等。這些研究有效促進(jìn)了教師資格考試制度及其試題命制的規(guī)范和完善。

其中，有關(guān)教師資格考試命題質(zhì)量評價的研究主要沿兩條思路展開：一類是采用經(jīng)典測量理論（Classical Testing Theory, CTT）對試卷進(jìn)行宏觀診斷，如對語文學(xué)科知識與教學(xué)能力科目試卷難度和區(qū)分度進(jìn)行研究^[13]；另一類則通過多元概化理論（Multivariate Generalization Theory, MGT）揭示不同內(nèi)容模塊對考試總方差貢獻(xiàn)度的差異，如研究發(fā)現(xiàn)數(shù)學(xué)學(xué)科知識與教學(xué)能力科目的學(xué)科知識模塊通常表現(xiàn)出最高的區(qū)分度和測量精度，是影響考試信度的關(guān)鍵因素^[14]。然而，CTT研究存在樣本依賴和測驗(yàn)依賴，其信度指標(biāo)對測驗(yàn)可靠性的估計(jì)也較粗略^[15]，而概化理論則較少關(guān)注微觀分析（如對項(xiàng)目質(zhì)量進(jìn)行分析等），對于具體試題的評價和改良難以提供有效參考^[16]。相較而言，項(xiàng)目反應(yīng)理論（Item Response Theory，IRT）可以建立考生能力水平與正確作答概率間的聯(lián)系，并引入信息函數(shù)對測量誤差進(jìn)行精確估計(jì)，從而更加有利于對命題質(zhì)量的反饋，進(jìn)而指導(dǎo)測驗(yàn)編制。傳統(tǒng)的單維項(xiàng)目反應(yīng)理論（Unidimensional Item Response Theory，UIRT）建立在嚴(yán)格的單維性假設(shè)基礎(chǔ)上，而教師資格考試綜合性較強(qiáng)，一套試卷中往往考查多個維度的能力，難以滿足單維性假設(shè)^[17]。多維項(xiàng)目反應(yīng)理論（Multidimensional Item Response Theory，MIRT）基于單維項(xiàng)目反應(yīng)理論和因子分析，但突破了單維假設(shè)的限制，可在多個維度上分析被試的作答表現(xiàn)，測量更全面、更精確，已經(jīng)應(yīng)用于大規(guī)模測驗(yàn)的試題質(zhì)量評價^[18-19]。本研究擬采用MIRT模型進(jìn)行數(shù)據(jù)分析，從試題命制角度對教師資格考試的命題質(zhì)量及考生能力水平進(jìn)行評價，反映試題命制情況、存在問題，并提出改進(jìn)建議，為命題改革提供參考。

一、研究設(shè)計(jì)

本研究采用MIRT，對近五年教師資格考試數(shù)學(xué)學(xué)科的數(shù)據(jù)進(jìn)行分析，從試題參數(shù)（難度、區(qū)分度）、試卷測量精度、考生能力評估三個方面開展命題質(zhì)量評價。

（一）研究工具

1.研究樣本

教師資格考試分別于每年上半年和下半年各舉行一次。本研究以2019年下半年至2024年上半年的考試數(shù)據(jù)為樣本來源，由于2020年上半年的考試調(diào)整至下半年合并舉行，因此該時段實(shí)際共包含九次考試。由于考生人數(shù)眾多，研究采用隨機(jī)抽樣方法，從數(shù)學(xué)學(xué)科知識與教學(xué)能力（高級中學(xué)）科目抽取20000名考生，最終共獲得180000份有效作答數(shù)據(jù)，符合MIRT對樣本量大于1000的要求^[20]。

2.試卷結(jié)構(gòu)

數(shù)學(xué)學(xué)科知識與教學(xué)能力（高級中學(xué)）是教師資格考試的重要科目，用于考查考生在高級中學(xué)數(shù)學(xué)學(xué)科領(lǐng)域的知識水平和教學(xué)能力。試卷由教育部教育考試院組織專家根據(jù)考試大綱統(tǒng)一命制，考查內(nèi)容涵蓋學(xué)科知識、課程知識、教學(xué)知識和教學(xué)技能四個模塊。2019—2024年試卷結(jié)構(gòu)見下表1，各知識模塊題型、題量、分值比例與考試大綱中的要求一致（該時段內(nèi)考試大綱的試卷結(jié)構(gòu)無變化）。

（二）研究方法

本研究借助項(xiàng)目反應(yīng)理論，使用R軟件中的mirt包對樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。首先，根據(jù)數(shù)學(xué)學(xué)科知識與教學(xué)能力（高中）試卷結(jié)構(gòu)并結(jié)合數(shù)據(jù)擬合指標(biāo)，確定測試的多維能力結(jié)構(gòu)；其次，根據(jù)試題的不同類型，確定試題分析所對應(yīng)的參數(shù)估計(jì)模型；最后，針對研究問題，估計(jì)題目的難度參數(shù)和區(qū)分度參數(shù)，利用信息函數(shù)衡量試題的測量精度，基于題目參數(shù)結(jié)果估計(jì)考生的多維能力參數(shù)。

1.多維能力結(jié)構(gòu)劃分

能否應(yīng)用MIRT模型進(jìn)行研究以及如何劃分模型維度結(jié)構(gòu)，需要同時參考試題的理論設(shè)計(jì)和數(shù)據(jù)擬合結(jié)果^[18]。數(shù)學(xué)學(xué)科知識與教學(xué)能力（高中）科目作為多維測驗(yàn)，同時考查學(xué)科知識與教學(xué)能力兩大維度，應(yīng)用MIRT模型分析數(shù)據(jù)可以減少測量誤差，更準(zhǔn)確地估計(jì)考生的能力水平。模型維度結(jié)構(gòu)的具體劃分以數(shù)學(xué)學(xué)科知識與教學(xué)能力（高中）考試大綱的四個知識模塊為基礎(chǔ)。在實(shí)際命題時，課程知識和教學(xué)知識模塊試題進(jìn)行統(tǒng)一設(shè)計(jì)，并未作嚴(yán)格區(qū)分，因此首先將這兩個模塊合并。依據(jù)《中學(xué)教師專業(yè)標(biāo)準(zhǔn)（試行）》^[22]和教師知識的相關(guān)理論，學(xué)科知識模塊考查考生的數(shù)學(xué)學(xué)科知識，課程知識、教學(xué)知識和教學(xué)技能三個模塊重點(diǎn)考查考生的數(shù)學(xué)教學(xué)知識和相關(guān)技能。同時，從測量角度來看，教學(xué)技能模塊的試題分值雖高，但僅有兩題，對考生的能力估計(jì)缺乏穩(wěn)定性。綜合上述考慮，進(jìn)一步將課程知識、教學(xué)知識、教學(xué)技能三個模塊合并為數(shù)學(xué)教學(xué)知識模塊，最終劃分為數(shù)學(xué)學(xué)科知識和數(shù)學(xué)教學(xué)知識兩個維度（見表2）。這一維度劃分結(jié)果也與Ball團(tuán)隊(duì)所提出的面向教學(xué)的數(shù)學(xué)知識框架（Mathematical Knowledge for Teaching，MKT）中學(xué)科內(nèi)容知識（Subject Matter Knowledge，SMK）和學(xué)科教學(xué)知識（Pedagogical Content Knowledge，PCK）的劃分相一致^[23]。

然后，通過模型的擬合結(jié)果驗(yàn)證MIRT模型的適用性和維度結(jié)構(gòu)劃分的合理性。以2024年上半年數(shù)據(jù)為例，分別使用UIRT模型和MIRT模型對數(shù)據(jù)進(jìn)行擬合，主要擬合指標(biāo)結(jié)果如表3所示。其中，模型擬合良好的絕對擬合指標(biāo)標(biāo)準(zhǔn)為：近似均方根誤差（RMSEA）和標(biāo)準(zhǔn)均方根殘差（SRMSR）小于0.08，比較擬合指數(shù)（CFI）和Tucker-Lewis系數(shù)（TLI）大于0.9。相對指標(biāo)AIC和BIC越小模型擬合越佳^[24]。結(jié)果表明，MIRT模型的擬合度優(yōu)于UIRT模型，因此本研究選用MIRT模型。同時，兩個維度結(jié)構(gòu)劃分下的MIRT模型的絕對擬合指標(biāo)達(dá)到良好標(biāo)準(zhǔn)，表明MIRT模型的維度結(jié)構(gòu)劃分合理。

2.試題參數(shù)估計(jì)

由于每次考試的試題結(jié)構(gòu)相同，以2024年上半年考試為例，說明不同類型試題參數(shù)估計(jì)所用模型。2024年上半年數(shù)學(xué)學(xué)科知識與教學(xué)能力（高中）試卷共包含17道試題，其中，選擇題采用二級計(jì)分，非選擇題采用多級計(jì)分。對于二級計(jì)分的選擇題，考慮到其主要測量目標(biāo)及后續(xù)多維能力結(jié)構(gòu)的分析，采用補(bǔ)償性多維雙參數(shù)Logistic模型（M2PLM）進(jìn)行項(xiàng)目參數(shù)（區(qū)分度向量a_i和難度相關(guān)參數(shù)d_i）的估計(jì)，其形式為：

由于一道多級計(jì)分題目包含多個項(xiàng)目參數(shù)，首先需要根據(jù)參考答案及評分標(biāo)準(zhǔn)進(jìn)行相應(yīng)等級劃分^[25]。例如，第9題滿分為7分，參考答案共包含4個得分點(diǎn)，分別對應(yīng)1分、3分、5分和7分。本研究將其轉(zhuǎn)化為5個有序的得分等級即0分（原始0分）、1分（原始1分）、2分（原始3分）、3分（原始5分）和4分（原始7分）。這樣，該項(xiàng)目就有4個得分等級的難度閾值參數(shù)(d_i1,d_i2,d_i3,d_i4 )，分別對應(yīng)原始得分從0到1、1到3、3到5、5到7分的難度跨越。等級劃分完成后，采用MGRM進(jìn)行項(xiàng)目參數(shù)估計(jì)，得到第i道多級計(jì)分試題的區(qū)分度參數(shù)a_i和第j個得分等級的難度閾值參數(shù)d_ij，取所有難度閾值參數(shù)d_ij的算術(shù)平均值即得到該題的平均難度d_i。

3.測試測量精度

在MIRT中，信息量用于衡量測驗(yàn)項(xiàng)目或整個測驗(yàn)對被試能力估計(jì)的精確程度。信息量平方根的倒數(shù)是考生能力估計(jì)值的測量標(biāo)準(zhǔn)誤，信息量越大，測量誤差越小，測量精度越高，對該水平考生的能力參數(shù)估計(jì)越精確^[26]。本研究使用項(xiàng)目信息曲面和測試信息曲面分別評估具體試題和整體測試的測量精度。其中，信息函數(shù)曲面中，水平面的θ₁軸表示數(shù)學(xué)學(xué)科知識能力，θ₂軸表示數(shù)學(xué)教學(xué)知識能力，縱軸為信息量I(θ)，單個試題的項(xiàng)目信息曲面代表了該試題在不同能力水平下所能提供的信息量^[27]，測試信息曲面則是測試所有試題的項(xiàng)目信息函數(shù)曲面的累加和^[28]。

4.考生能力估計(jì)

在項(xiàng)目參數(shù)已知或已估計(jì)的條件下，可以對每個考生的潛在能力θ_j（在MIRT中為能力向量）進(jìn)行估計(jì)。MIRT能夠同時估計(jì)考生在不同能力維度上的參數(shù)值，從而深入分析被試在每個能力維度上的掌握情況，提供比UIRT更豐富的信息。本研究采用R軟件mirt包中默認(rèn)的期望后驗(yàn)估計(jì)法（Expected A Posteriori, EAP）估計(jì)考生的多維能力值，θ₁代表數(shù)學(xué)學(xué)科知識能力，θ₂代表數(shù)學(xué)教學(xué)知識能力。EAP是一種貝葉斯點(diǎn)估計(jì)方法，它將能力的估計(jì)量定義為在給定考生作答反應(yīng)和項(xiàng)目參數(shù)的條件下能力后驗(yàn)分布的期望。使用EAP方法需要先設(shè)定一個能力θ的先驗(yàn)分布g(θ)（通常假定為標(biāo)準(zhǔn)正態(tài)分布或多維標(biāo)準(zhǔn)正態(tài)分布），然后根據(jù)貝葉斯公式計(jì)算θ的后驗(yàn)分布，最后求解條件期望得到能力估計(jì)值。進(jìn)一步基于多維能力值估計(jì)的結(jié)果繪制考生的能力密度分布圖，以直觀展示考生群體在這兩個能力維度上的整體表現(xiàn)和分布特征。

二、數(shù)據(jù)分析結(jié)果

（一）試題參數(shù)估計(jì)結(jié)果

分析最近五年數(shù)學(xué)學(xué)科知識與數(shù)學(xué)教學(xué)知識兩個模塊試題的難度與區(qū)分度，首先確定這兩個模塊中各題的難度與區(qū)分度參數(shù)估計(jì)結(jié)果，然后計(jì)算加權(quán)平均。以2024年上半年考試數(shù)據(jù)為例，表4和表5是該試卷中各試題的參數(shù)估計(jì)結(jié)果。

根據(jù)上述各試題的參數(shù)估計(jì)結(jié)果，進(jìn)一步得到反映試卷層面難度和區(qū)分度的指標(biāo)——平均難度和平均區(qū)分度。具體計(jì)算方法是：結(jié)合試題分值占所屬數(shù)學(xué)學(xué)科知識或數(shù)學(xué)教學(xué)知識模塊總分的比例，加權(quán)計(jì)算得到這兩個模塊的平均難度和平均區(qū)分度。近五年試題的加權(quán)平均參數(shù)計(jì)算結(jié)果如圖1所示。

（二）試題測量精度分析

僅憑難度和區(qū)分度兩個參數(shù)尚不能全面評估試題質(zhì)量，本研究使用測試信息曲面來量化試卷對考生能力水平的測量精度。測試信息曲面是各試題項(xiàng)目信息曲面的累加和，其構(gòu)建首先需要繪制單個試題的項(xiàng)目信息曲面。其中，數(shù)學(xué)學(xué)科知識題目（第1~6題、第9~11題和第14題）的項(xiàng)目信息曲面總體呈正態(tài)分布，除第3題和第14題外，其余題目的信息量峰值所對應(yīng)的考生能力值略低于 0，表明試題對于中等偏低能力水平的考生能夠提供更大的信息量，測驗(yàn)的誤差也相對更小，屬于標(biāo)準(zhǔn)型信息函數(shù)^[29]。具體示例如圖2，其中的a、b、c分別為第1、3、14題的項(xiàng)目信息曲面圖。數(shù)學(xué)教學(xué)知識題目（第7~8題、第12~13題、第15 題和第16~17題）項(xiàng)目信息曲面較為平坦，總體信息量相較于數(shù)學(xué)學(xué)科知識題目較小，試題對不同能力水平考生所提供的信息量相差不大，但對于學(xué)生能力估計(jì)誤差相對較大。圖2中，d、e、f 分別為第7題、第16題和第17題的項(xiàng)目信息曲面圖。

進(jìn)一步地，按照歷年每道試題在不同能力水平下的信息值，在相同的能力水平點(diǎn)上逐一相加，最終可得到該年的測試信息曲面。近五年試題的測試信息曲面如圖3所示。數(shù)據(jù)顯示，近五年的數(shù)據(jù)頂峰在水平面上的投影基本位于{(θ₁,θ₂)|θ₁∈(-2,0.5), θ₂∈(-1.5,-0.5)}內(nèi)，表明測試對于能力處于{(θ₁,θ₂)|θ₁∈(-1.5,-0.5), θ₂∈(-2,0.5)}區(qū)間的考生（即數(shù)學(xué)學(xué)科知識與數(shù)學(xué)教學(xué)知識能力中等偏下的群體）能力測量最為精確。同時，對于θ₁大于2或小于-2的考生，即對于數(shù)學(xué)學(xué)科知識能力較高或較低的考生，測試信息量均有明顯下降，表明對于這部分考生的測量精度較低，測試誤差增加；對于θ₂大于2或小于-2的考生，即對于數(shù)學(xué)教學(xué)知識能力較高或較低的考生，測試的信息量差異較小，測試對于這部分考生的區(qū)分度不大。可見，近五年試題對數(shù)學(xué)學(xué)科知識和數(shù)學(xué)教學(xué)知識中等偏下水平考生的能力測量更為精確，對于能力水平較高或較低的考生，數(shù)學(xué)學(xué)科知識的測評精度降低，測評誤差增加，而數(shù)學(xué)教學(xué)知識測試對這部分考生的區(qū)分度不高。

（三）考生能力參數(shù)估計(jì)

項(xiàng)目反應(yīng)理論中的考生能力參數(shù)與經(jīng)典測量理論中的考生測驗(yàn)分?jǐn)?shù)相對應(yīng)，是試卷對于考生能力水平的測量結(jié)果。考生能力的分布情況能夠直觀呈現(xiàn)考生群體的整體能力水平概況，也側(cè)面反映出試題的整體命制質(zhì)量，并為后續(xù)針對性地開展命題改進(jìn)工作提供參考。根據(jù)歷年數(shù)據(jù)，可估計(jì)考生在數(shù)學(xué)學(xué)科知識和數(shù)學(xué)教學(xué)知識兩個模塊的能力參數(shù)值，進(jìn)一步基于能力參數(shù)值結(jié)果繪制歷年考生能力密度分布圖，如圖4所示。數(shù)據(jù)顯示，考生能力主要分布在{(θ₁,θ₂)|θ₁∈(-1,1),θ₂∈(-1, 1)}的范圍之內(nèi)，當(dāng)θ₁和θ₂參數(shù)值均略高于0時，能力分布密度達(dá)到峰值，這表明數(shù)學(xué)學(xué)科知識和數(shù)學(xué)教學(xué)知識能力均處于中等偏上水平的考生人數(shù)最多。具體示例如圖4，其中的a、b、c、d分別對應(yīng)2024年上半年、2023年下半年、2022年上半年、2020年下半年的測試信息曲面。

三、討論與結(jié)論

基于2019年下半年至2024年上半年的數(shù)學(xué)學(xué)科知識與教學(xué)能力（高中）試題的數(shù)據(jù)，采用MIRT對命題質(zhì)量進(jìn)行分析，可以得到如下三個方面的結(jié)論。

第一，從難度和區(qū)分度看，歷年試題難度中等適宜，試題質(zhì)量穩(wěn)定，區(qū)分度良好。首先，根據(jù)已有研究可知，試題的難度參數(shù)值越高，其難度越大，一般試題的難度在[-3，3]的范圍內(nèi)。就試題的區(qū)分度而言，區(qū)分度參數(shù)值大于等于1.5為優(yōu)級試題，[1.0，1.5）為良級試題，[0.5，1.0）為中級試題，小于0.5為差級試題^[30]。依此標(biāo)準(zhǔn)，以2024年上半年試題的難度和區(qū)分度為例，所有試題的區(qū)分度均達(dá)到中級及以上標(biāo)準(zhǔn)，超過一半的試題區(qū)分度達(dá)到優(yōu)級或良級；絕大部分試題的平均難度處在[?3，3]的合理范圍之內(nèi)，非選擇題不同得分等級對應(yīng)的難度閾值參數(shù)呈階梯式遞增，表明試題難度設(shè)計(jì)科學(xué)合理，得分等級越高對應(yīng)的難度越大，可以有效區(qū)分學(xué)生的能力水平。其次，相較近五年試題難度和區(qū)分度的總體水平，數(shù)學(xué)學(xué)科知識和數(shù)學(xué)教學(xué)知識兩個模塊的整體難度呈現(xiàn)類似的變化趨勢。二者均在2021年后呈顯著下降，并分別在2022年下半年和2022年上半年達(dá)到最低點(diǎn)，此后略有回升但仍低于早期水平，可見近年該學(xué)科考試的整體難度有所下降。除2022年外，數(shù)學(xué)學(xué)科知識試題平均難度略高于數(shù)學(xué)教學(xué)知識試題。區(qū)分度方面，數(shù)學(xué)學(xué)科知識整體較為穩(wěn)定（0.84~1.25），而數(shù)學(xué)教學(xué)知識相對波動較大（0.73~1.58），尤其2023下半年試卷的數(shù)據(jù)結(jié)果呈現(xiàn)明顯低谷（0.73），但多數(shù)時段均保持在1.0以上，試題對不同能力考生的區(qū)分效果總體良好。

第二，從測量精度看，數(shù)學(xué)學(xué)科知識試題為中等偏低能力水平的考生提供了更大信息量，而數(shù)學(xué)教學(xué)知識試題對較高或較低能力考生提供的信息量差別不大。運(yùn)用測試信息曲面分析考生能力水平測量精度的數(shù)據(jù)結(jié)果表明，數(shù)學(xué)學(xué)科知識試題的項(xiàng)目信息曲面總體呈正態(tài)分布，曲面的峰值對應(yīng)的考生能力水平略小于0，峰值位于能力值變量的中等偏低水平，表明試題對于中低能力水平的考生能夠提供更大的信息量，測驗(yàn)的誤差也相對更小。數(shù)學(xué)教學(xué)知識試題的項(xiàng)目信息曲面較為平坦，總體信息量相較于數(shù)學(xué)學(xué)科知識試題較小，表明試題對較高或較低能力水平的考生所提供的信息量相差不大，但對于學(xué)生能力估計(jì)誤差相對較大。這些研究結(jié)果，與該考試屬于合格性水平考試而非選拔性考試的定位是匹配的^[31]。

第三，從考生能力水平看，中等偏上考生人數(shù)居多。從考生多維能力參數(shù)估計(jì)的結(jié)果看，能力分布居于中等偏上考生的占比最高，數(shù)據(jù)主要集中在{(θ₁,θ₂)|θ₁∈(-1,1), θ₂∈(-1,1)}的區(qū)間范圍內(nèi)。當(dāng)θ₁和θ₂參數(shù)值均略高于0時，能力處于中等偏上水平的考生占比最高，表明數(shù)學(xué)學(xué)科知識和數(shù)學(xué)教學(xué)知識能力均處于中等偏上的考生人數(shù)最多。前述研究結(jié)果顯示，試卷對能力處于中等偏下的考生具有更好的測量精度，今后試題命制需要更多考慮占據(jù)很大比例的中等偏上水平考生的區(qū)分度問題，以提高對這部分考生的測量精度。此外，考生在數(shù)學(xué)學(xué)科知識的能力分布范圍更廣，不同水平考生的數(shù)學(xué)學(xué)科知識能力差異更大；數(shù)學(xué)教學(xué)知識能力分布相對集中，不同考生在該能力上的差異相對較小。據(jù)此數(shù)據(jù)表明，近五年考生能力分布變化不大，數(shù)學(xué)學(xué)科知識和數(shù)學(xué)教學(xué)知識能力均處于中等偏上的考生人數(shù)最多。試卷對中等偏上能力考生的區(qū)分度有必要進(jìn)一步提高，尤其要提高針對數(shù)學(xué)教學(xué)知識考查的區(qū)分度，進(jìn)一步優(yōu)化數(shù)學(xué)教學(xué)知識模塊試題。

四、未來展望

本研究采用MIRT對最近五年教師資格考試數(shù)學(xué)學(xué)科知識與教學(xué)能力（高級中學(xué)）試題質(zhì)量進(jìn)行評估，提供了多維度的綜合信息，對未來試題研究及命制的參考價值主要體現(xiàn)在以下兩個方面。

第一，研究探索了全新的教師資格考試試題質(zhì)量評價的研究思路和方法。以往關(guān)于教師資格考試命題質(zhì)量的研究，在研究時段、研究方法、研究結(jié)果等方面有一定局限性。本研究采用MIRT討論了最近五年的試題命制，一定程度彌補(bǔ)了CTT、UIRT研究方法的不足，揭示了試題命制質(zhì)量的穩(wěn)定性、試題命制精確度的適應(yīng)考生群體，以及考生能力水平分布。研究方法、研究工具以及研究結(jié)論對教師資格考試其他學(xué)科的試題質(zhì)量評價有借鑒意義。

第二，本研究發(fā)現(xiàn)了目前數(shù)學(xué)學(xué)科命題中存在的問題，為改進(jìn)命題質(zhì)量提出了針對性策略。首先，應(yīng)繼續(xù)保持命題的穩(wěn)定性。近年統(tǒng)計(jì)數(shù)據(jù)表明，數(shù)學(xué)科目試題質(zhì)量穩(wěn)定，難度適宜，區(qū)分度良好，試題測量精度與合格性水平考試的定位相匹配。未來在堅(jiān)持合格性水平考試這一基本定位不變的前提下，應(yīng)進(jìn)一步結(jié)合考生實(shí)際能力水平，在試題難度、區(qū)分度、測量精度方面提升穩(wěn)定性。其次，提高試題的測評精度，尤其對高水平考生的測評精度，是未來提高命題質(zhì)量的關(guān)鍵。從現(xiàn)有數(shù)據(jù)看，試題未能很好區(qū)分高水平考生，尤其在數(shù)學(xué)教學(xué)知識模塊，對這部分考生的區(qū)分度不高，測試誤差相對較大。未來可考慮加強(qiáng)試題的難度梯度設(shè)計(jì)，設(shè)置問題層層遞進(jìn)、難度逐級加大的數(shù)學(xué)教學(xué)知識試題；還應(yīng)注重對基于數(shù)學(xué)學(xué)科知識理解基礎(chǔ)上的數(shù)學(xué)教學(xué)知識的考查，以及體現(xiàn)一線教學(xué)實(shí)踐的數(shù)學(xué)教學(xué)知識的考查。最后，適當(dāng)調(diào)整考核內(nèi)容和試卷結(jié)構(gòu)。盡管實(shí)測數(shù)據(jù)在試題難度和區(qū)分度上表現(xiàn)良好，但數(shù)學(xué)教學(xué)知識試題對不同能力水平考生的信息量差別并不大。這一數(shù)據(jù)結(jié)果與試題考核內(nèi)容的選擇以及試卷結(jié)構(gòu)有一定關(guān)系。因此，創(chuàng)新試題的命制形式，豐富不同模塊試題考核內(nèi)容的選擇、合理調(diào)整試卷結(jié)構(gòu)等，是改進(jìn)命題質(zhì)量需要重點(diǎn)考慮的問題。

總之，未來教師資格考試試題命制需要綜合考慮國家教育政策、社會發(fā)展和人才培養(yǎng)需求，開拓國際視野，在吸取以往命題經(jīng)驗(yàn)的基礎(chǔ)上，繼續(xù)開拓創(chuàng)新。命題人員應(yīng)打破試題考核內(nèi)容的單一和孤立、靜態(tài)和模式化，以及試卷結(jié)構(gòu)的機(jī)械和保守等弊端，進(jìn)一步提高命題質(zhì)量，提升考試的科學(xué)性、專業(yè)性，加強(qiáng)數(shù)字化引導(dǎo)，發(fā)揮考試的引領(lǐng)性作用，為建設(shè)高素質(zhì)專業(yè)化教師隊(duì)伍提供強(qiáng)有力支撐。

參考文獻(xiàn)略。