认知诊断理论在计算机自适应测试中的应用与启示

时间：2023-03-11

小编：

一、研究背景

随着计算机技术、通信设备和网络技术的迅速发展，教育信息化的发展面临着重大变革，由数据主导的大时代正在走入教育领域，进而渗透到教育发展与改革的战略中。复杂的、数据驱动的个性化教学一般需要提供非线性的教学輔导，以及能够满足学习者个别化、具有差异的认知水平和能力水平的诊断评估。因而，以认知诊断测验为代表的新一代测验理论应运而生，能够解释学生在推理和解决问题过程中所用到的知识和技能，并提供关于学生知识技能掌握情况的诊断信息，同时保证测验的公平性，为因材施教和个性化教学提供可能。

Mislevy等（1993）指出，统计测验理论的发展可以分为经典测验理论（Classical Test Theory， CTT）阶段、概化理论阶段和项目反应理论（Item Response Theory， IRT）阶段。CTT和IRT 都属于标准测验理论。标准测验理论视所测的心理特质为一个单纯的统计结构，目的在于从宏观上给个体一个整体的评估。随着心理测量学和认知心理学的进一步发展和现代教育技术水平的进步，学习者更加渴求获得更具体的、细微水平的测量与诊断评估。Frederiksen、Mislevy和Bejar（1993）编著的Test theory for a new generation of tests正式出版，标志着新一代测量理论的诞生。如图1所示，认知诊断评估逐步走入历史舞台，强调能力水平和认知水平维度能够被同时诊断，不再仅仅是单一的宏观维度的知识水平。计算机化自适应认知诊断测验（Computerized Adaptive Test for Cognitive Diagnosis， CD-CAT）是计算机化自适应测验理论和认知诊断理论相结合的产物，目的是达到因材施教量体裁衣式的自适应诊断，根据学习者当前状态，选取与之相适应的题目进行测试，进而诊断学习者能力水平和认知水平，以诊断报告的方式为学习者提供提升的建议和策略。

纵观计算机技术与统计测验的结合，其发展分为两个阶段：其一是以项目反应理论（IRT）为代表的标准计算机自适应测量阶段；其二指新一代测量理论的计算机自适应阶段（认知诊断是其核心内容）。项目反应理论的特点是以概率函数的形式来描述项目作答反映结果是如何受到被试能力水平和项目特征联合作用的影响。自适应测验起源于Alfred Binet（1904）开发的智力测验，根据被试的不同特质水平和题目的不同难度与区分度，对被试实测不同的测验题目，使这些题目与被试的实际水平尽可能相适应，这样使测验更具有针对性，从而每施测一道题就能获得最大的信息量。

当现代技术手段计算机引入到测量领域中，计算机化自适应测验（Computerized Adaptive Testing， CAT）由此诞生，由计算机自动从题库中选择合适的题目给学习者作答，一方面能够在学习者做完后自动评估其能力水平，给出适合学习者的下一道题目；另一方面能够自动设定终止规则，即当达到能够评估学习者能力的题目数后，测试会自动停止。之后，运用CAT思想与认知诊断理论结合，从题库中选择最适合学习者水平和最能区分水平能力的题目作答，对其知识状态达到最恰当的评估。CD-CAT更多关注被试掌握模式的自适应，根据可观察的行为和反应，推测潜在的知识结构和技能掌握情况。例如，获得相同分数的学生不能够体现个体差异，如果在测验中能够对学生作答反应、知识反应和能力诊断，从而能够进一步提出补救措施。CD-CAT的流程包括：开始测试初始题目选择估计被试当前状态选题策略认知诊断计量模型终止条件诊断报告。对于CD-CAT的研究目前处于探索开发阶段，组成CD-CAT各个阶段的问题仍需要摸索和实践应用，例如如何确定知识状态和表征能力属性、认知诊断模型的应用研究，如何选择初始题目，以及题库的开发、建设与维护等方面。

综上所述，为了从整体上把握CD-CAT在国内的发展脉络，厘清发展现状和研究聚焦，提出实施CD-CAT的科研建议和实施策略，分别从以下方面进行分析：一方面，以时间（2005-2015年）为轴，考察关于认知诊断自适应测试文献的研究情况，采用内容分析方法对已有百余篇中英文文献进行内容分析，并通过数据的可视化表征和社会网络分析工具，探讨其研究重心和内容；另一方面，通过分析国内外已有CD-CAT平台和项目的实践情况，总结和借鉴国外实施经验，为我国今后的CD-CAT研究提供发展策略。

二、研究过程

（一）研究方法与工具

本研究主要采用文献研究法、内容分析法和数据可视化的方法，通过对有效文献的各类属性进行分析和标识，从而获得不同维度的计量分析结果，即对本质内容进行不同方面、由浅入深、层层递进的非线性分析。研究主要借助软件管理软件NoteExpress、数据处理软件SPSS 20.0和词云生成平台Tagxedo。首先，界定研究内容和范围CD-CAT；然后，团队成员分别对2005-2015年的文章进行筛选，梳理成为研究样本；接着，根据已有文献确定分析维度，以理论概述、现状实践、研究方法等为分析内容，对样本进行统计和处理。

（二）数据收集

采用内容分析法对2005-2015年国内发表的关于自适应认知诊断的文献进行比较、分析、综合，对研究内容和现状进行梳理和总结。为了研究的严谨性和数据分析的准确性，将学术论文与毕业论文分开统计，中文数据库来源有中国知网和万方数据库，以认知诊断和认知诊断自适应测验为关键词进行搜索，与教育测量和教育技术领域相关的文献汇总如下：中文学术期刊检索到140篇，学位论文68篇；CSSCI期刊主要集中在《北京师范大学学报（社会科学版）》《教学学报》《心理科学》《心理科学进展》和《心理学探新》等。为了对比中英文文献关于结果分析中初步印象部分的差异，即关注焦点可视化部分，选取以Computerized Adaptive Test for Cognitive Diagnosis和Cognitive Diagnosis为关键词，在Computers Education、 Computers in Human Behavior和Journal of Computer Assisted Learning（数据库分别为ScienceDirect、SpringerLink、Wiley Online和ERIC）等教育技术专业相关期刊中搜集到论文66篇。

本研究进行了两轮文献搜索和文献筛选，共有5名团队成员参与，针对不同期刊进行分工。第一轮主要对目标期刊和目标关键词进行地毯式搜索，得到中文文献233篇，英文论文79篇，利用文献管理工具NoteExpress将其分类保存；第二轮采用内容分析法对自适应认知诊断文献的关键词、作者、研究主题进行分类，最终确定中文文献140篇，英文文献66篇。对作者进行分析的主要目的是对不同研究带头人和研究单位的分布进行研究，以辨识其影响力和规模。首先，主要对文献的研究主题进行分析。团队成员基于文献阅读和积累对计算机自适应测试、认知诊断、自适应认知诊断测试的过程进行分类，讨论之后达成一致，构建初步框架；其次，在上述框架基础上，根据文献的关键词进行记录。如《小学数学图形与几何认知诊断测验的编制》一文中，以认知诊断、多策略、多级评分和Q矩阵为关键词，对多策略的多级评分认知诊断算法（多级评分广义聚类判别法，GDD-P）进行改进与应用，并且介绍了测验蓝图编制、Q矩阵，与单策略认知诊断方法进行对比，是对算法和理论的深入研究。因此，该文章涉及的分析内容分别是：理论研究、Q矩阵、认知诊断模型。该文章分析的一致性（5位成员）达到93%；最后，确定分析框架，对所有文献进行阅读，完善文献分析内容。

（三）结果分析

1. 初步印象：有哪些研究关注点

本研究选取数据可视化词云的表达方式展示样本研究的核心内容。考虑到支持中文统计的功能，选择统计平台Tagxedo（http：//www.tagxedo.com/app.html），词云支持中文输入，对文字的输入内容、形状等可以个性化定义（如图2所示）。中文词云中认知诊断规则空间模型和属性等频

次最高，领衔关键词说明了研究领域的聚焦，其中研究问题主要关注于学业评估诊断、认知诊断模型验证与应用（如DINA模型）、纸笔考试与计算机自适应考试差异研究与效度研究。可以初步推断文献研究集中于CD-CAT的知识属性、认知诊断模型研究等初步应用阶段。

为了使中英文文献具有对照意义，同样选取统计平台Tagxedo进行词频统计和可视化处理（如图3所示）。英文词云中显示具体的应用方法（蒙特卡罗模拟法）、语言程序（R语言）知识评估和学习干预成为仅次于测试、自适应等的关键词。从宏观角度看，一方面，英文文献的关注点更加聚焦，能够对实际的认知模型进行测验和实践应用；另一方面，体现了自适应认知诊断测验的价值和意义所在，对学生的个性化学习进行指导和教学干预，利用技术促进测试诊断最大化的实现。

通过词云分析，对CD-CAT的研究热点有了初步了解。研究发现，国内的研究关键词集中在理论基础、算法改进层面，与教育、学习等过程关联较少；国外论文分析领域表示逐步通过技术方法作用于教育领域，与评估评价、反馈干预的实验与应用关联较多。如Sanja（2015）以C++面向对象编程课程为例，开发实现自适应测试平台，选取实验组与对照组，分别用自适应测试和笔纸测试进行比较，结合问卷、访谈的分析方法对自适应测试的过程、方法、优势、实验应用进行详细阐述；Triantafillou（2008）以计算机自适应测试理论为基础，开发依托移动设备的自适应测试工具，将专家的评价灵活地运用于教育评估过程之中。

2. 渐入佳境：局部剖析

样本分析单元分别从研究创新点、发表时间、单位、数量、研究方法和理论支撑等方面展开，具体统计维度涵盖认知诊断测验题库建立、初始题选择、选题策略、认知诊断计量模型、知识状态估计方法、终止规则、原始题参数在线估计和属性在线标定、理论研究和实践应用等。

（1） CD-CAT研究历程分析

借助NoteExpress 统计学术论文和学位论文发表情况，以图4表现发展历程。

作为量体裁衣式的测验，CAT始于20世纪七八十年代。随着网络与科技进步，自适应测试可谓发挥到了极致，如GRE、GMAT、美国注册管理会计师（CMA）等等。以认知诊断理论为基础的CD-CAT相比較于CAT，更加能够利用项目属性和认知模型优势，进行诊断性的测验编制和评测。从图4可以看出，我国的发展从2006年起步，2008年研究文献逐步增多，例如曾彦钧等人（2006）提出CD-CAT以认知结构为基础，在题库建设、起始规则、选题策略、被试知识状态估计、终止规则和曝光率等部分与传统的CAT有很大区别。2011年，是学术论文和学位论文发展的高峰，之后学位论文研究数量所有下滑，期刊论文数量变化不大。

（2）CD-CAT研究内容分析

参照认知诊断评估的主要步骤包括：①描述测量目的和确定属性；②创建认知模型；③设计测验Q矩阵；④开发或选择认知诊断模型（CDM）；⑤评估Q矩阵和CDM；⑥模型参数估计；⑦评估诊断与干预。其中有的步骤可能循环或者迭代。对文献的研究内容进行归类（如表1所示）。

研究团队详细阅读140篇学术文献，发现很多文献聚焦于诊断模型、Q矩阵，以及概况综述和自适应认知诊断流程描述的研究，缺少完整的实践应用的成功案例。统计数据表明：

①相比较于国外CD-CAT，国内相关研究进程较慢，并且研究内容集中在理论概述和小规模的实验证明上，缺乏大规模应用CD-CAT相关的文献支持。可见，国内自适应的教育评价方式应用还未大范围普及，通过技术诊断学习者的能力水平和知识水平，并且提供有效的教学干预的案例还不够成熟。

②基础理论研究占文献总数的74.2%。例如，唐小娟、丁树良和俞宗火（2012）提出计算机化自适应测验在认知中的应用，分别从认知诊断模型、题库建设、起始规则、选题策略、被试知识状态和终止规则等几部分进行了详细介绍。有64篇文献（45.7%）对认知诊断模型进行介绍。截至2007年，常见的认知诊断模型有补偿模型LLTM（线性逻辑斯蒂克测验模型）和MIRT-C等，非补偿模型RSM（规则空间模型）、DINA（确定性输入噪音与门模型）、HO-DINA（高阶DINA模型）、RUM（融合模型）和AHM（属性层级模型）。

③实验实践比例为30%，其中有10%的文献叙述了相应的教育干预措施，例如数学、物理、化学和英语。康春花等（2015）以小学数学与几何的知识点和问题解决能力作为认知属性的分类，定义了数学知识和认知过程，并采用口语报告法对认知模型进行质性验证，选取某校六年级1，128名学生进行了测验。

近几年，新模型的研究也为自适应认知诊断测试研究开拓了一片新天地，例如祝玉芳等（2009）的多级评分AHM模型，涂冬波等（2010）提出多级评分DINA模型。余娜（2009）提出诊断模型的评估问题由信度和效度决定，认知诊断评估中信度采用校正之后的模型产生两组平行的模拟考生，分布估计每组掌握情况，计算相同考生被划分到相同属性掌握状态的百分比。

3. 升华：合作关系追踪

科学领域的研究往往存在学术带头人，也往往会以学术带头人为核心形成研究领域的网络关系。本研究借鉴魏顺平等（2008）提出的新的n-派系定义，利用研究者合作关系网络研究，建立作者A-作者B关联关系。在社会网络分析中，派系（subgroup）是社群中的一小群人关系特别紧密。

首先，借助Excel统计研究者与文献之间的关联表（如表2所示），以作者-文献-单位的方式表现。

本研究中CD-CAT文献量大于5篇的作者见表3，通过论文作者和机构分析发现，大部分文献作者来源于高校和研究所，并且主要来源于江西师范大学的心理学院和计算机信息工程学院，以及北京师范大学心理学院。究其原因，计算机自适应认知诊断测验研究属于专业性较强、理论基础扎实的研究领域，高校师生是新理念和方法的发起者和倡导者。认知诊断测试的最终目的在于以K-12教育为代表的评估教育，能够实现学习者的自适应学习和诊断评价。文献分布说明研究内容处于高校实验室阶段，缺乏社会的广泛关注、实践和推广应用。

接下来，通过UCINET软件呈现51个节点，借助作者间的合作，观察图中度计算并排序，选出处于前列的若干位作者（假定中心作者为学术带头人），然后计算以丁树良为中心的合作关系网络图，如表4所示。

由于文章作者合作较多，本研究以文献篇数最多的丁树良派系作为研究范例，将上表的矩阵导入UCINET中，并绘图（DRAW）得到科研合作关系网络图（如图5）。

两个节点的连线表示这两个节点存在合作论文的关系，线条的粗细表示合作论文的篇数，线条越粗，则合作论文数量越多。

采用UCINET 社會网络分析软件将这些派系进行可视化处理。研究结果表明：

（1）目前教育技术研究领域的合作类型主要为师生合作，较少跨校、跨区域合作；也存在少数的跨区域合作，因此形成了星状辐射型。

（2） CD-CAT研究应走出团队、校门，甚至跨越国界，开展跨校、跨区域、跨学科的科研合作，优化研究团队构成，从而进一步提高研究质量，加快知识扩散。

三、CD-CAT研究项目现状

接下来对国内外认知诊断自适应测试的实验与应用进行详细介绍。从上述文献分析可知，国内实践案例较少，本研究团队经过大量内容采集和梳理，选取相对规模较大的实验案例分别进行阐述。而国外相对起步较早，2001年美国通过No Child Left Behind Act of 2001，表明有义务将施测结果告知学生和家长。因此，诊断测试的价值和意义不再仅仅是提供分数，而是需要提供补救措施等。本研究列举美国应用较为广泛的Smarter Balanced Assessment Consortium和最大的自适应系统平台Knewton，并分别阐释。

2009年，教育部基础教育司组织北京师范大学、江西师范大学和中央教育科学研究所（现中国教育科学研究院）等一大批研究学者，以数学和英语为考试切入点，考察学生的核心知识和能力水平，以此命题进行认知诊断完成353道题目的编订并且设定1套公共锚题，运用DINA模型进行诊断分析。

在北京师范大学心理学院刘红云教授、美国伊利诺伊香槟分校张华华教授共同合作的The development of computerized adaptive testing with cognitive diagnosis for an English achievement test in China一文中介绍的研究，以国家基础教育课程教材发展中心学生学业质量评价项目为依托，阐述了其在北京、大连等地进行计算机认知诊断的大规模测试的情况。由于软件和硬件以及专业技能的限制，将CD-CAT应用于学校项目是一个巨大的挑战，该项目克服传统C/S（Client/Server）框架，将B/S（Browser/Server）架构设计应用于国内的英语二级考试中。来自北京8所小学的584名学生首先参与了基于Web环境的测试，该测试有36道固定长度题目，规定40分钟内完成。该实验验证了CD-CAT应用于大规模考试的巨大潜力和高效性，同时参与测试的考生可以从中获取技能掌握情况的诊断报告，为后续进行学习干预和学习路径调整提供了可能。此后，2011年1月，大约3万名辽宁省大连市的五年级学生参加CD-CAT英语能力测试，该平台利用网络技术和自适应诊断技术，持续三天、同一时间承载2000人并发的测试。在此过程中，对题库的优化、采用香农熵方法选题算法，以及内容平衡和考试蓝图的限制的编制，都进行了较好的实验。一方面，为学生和教师提供作答情况评定和诊断报告；另一方面，为研究者提供对CD-CAT效度全面审视的实践机会，为认知诊断技术的大规模推广奠定了坚实的基础。

美国也有诸多公司关注和投入CAT的领域，如ASSESSMENT SYSTEMS的Smarter Balanced评估系统（http：//www.smarterbalanced.org/practice-test/）。在能力测验方面，主要应用于评估学生的英语和数学能力。2010年，美国针对K-12提出了全美教育标准（Common Core States Standards，简称CCSS），用于评估各个年级学生的数学能力和英语能力，并且已经在全美46个州和哥伦比亚区施行。Smarter Balanced 评估系统利用强制性的终结性评价和可选的中期评估来提升计算机自适应测试（CAT）的效率。在该评估系统中，计算机程序可以根据学生的响应来调整整个评估问题的难度。例如，一个学生如果回答正确，则会收到一个更具挑战性的题目，而一个不正确的答案产生一个更简单的问题。通过适应学生的能力水平，系统推荐了一系列量身定制的测验问题给每个学生，可以快速识别哪些技能学生已经掌握，哪些知识维度学生还没有掌握。Smarter Balanced Practice Tests包括评分指南，现可用于三年级到八年级的英语、艺术和数学的认知诊断，能够为学习者提供一份可预览的Smarter Balanced评估，清晰地反映每一位考生在当前学习中每一门学科中的强项和弱项，以及在未来学习中需要重点关注的领域。这种计算机评估能够方便家长、校长和老师在很短的时间内看到成效，并且通过这些诊断反馈，对学生因材施教，满足其个性化学习需求。

此外，熟知的Knewton公司基于项目反应理论，真实地测量出学生对知识点的掌握程度，避免因题目的难易程度不同造成测量误差。Knewton自适应系统利用学生的历史学习数据的网络效应来优化推荐，提高学生学习效率。建立学生学习档案，预设一些学习路径点（根据知识技能图谱），根据实际学生的使用数据（学习资源的使用效果和学习路径点的学习效果），为后来的学习者推送下一个学习路径点和学习资源。

综上所述，国外CD-CAT发展已经将智能学习系统、评估系统和教育测评融入其中。虽然从应用角度来说，自适应的成分居多，认知的成分较少，但是將诊断功能结合到计算机自适应测验中，已经成为研究热点之一，吸引了众多学者继续推进CD-CAT的实施应用。虽然国内很多研究者已经意识到CD-CAT的优势，也有研究者提出了中国教育进展评估基于CD-CAT的改进与展望，但是实践应用还处于研究或者起步阶段。例如实际教学过程中，对相同分数的学生还不能从能力和认知水平角度进行很好的诊断和评估，教师往往仅根据个人经验来判断学生的知识掌握状态和认知错误，其教学设计与教学干预不能满足学生的个性化需求。

四、对我国教育评价诊断的启示

新一代测验理论阶段在认知水平的研究范式下产生，强调测验应同时在宏观能力水平和微观认知水平下进行，认知水平的研究应深入到被试作答的认知加工过程，其目的在于诊断认知能力结构，亦在于揭示不同被试的认知加工特点，是能力水平研究的深入。认知诊断实现了传统教育考试无法企及的诊断功能，它在实践中的运用价值是不言而喻的：根据诊断结果，学生可以有针对性地学，教师可以有针对性地教；教育教学机构部门来说则可以了解当前教育情况，为教育规划及教育决策的制定提供依据。

计算机自适应认知诊断测试在教育评估中具有重要的发展意愿，目前混合式的学习环境中需要个性化的、实时的、及时的诊断和评估报告。随着网络技术的发展，MOOC等一大批在线课程蜂拥而至，但纵观众多网络课程和实践研究，其中缺少对学习者量体裁衣式的诊断评估。同时，在我国教育的测评中，纸笔考试仍旧保留重要地位，然而缺少有效甄别、准确评估和学习知识建议等内容。同时，随着高考改革的实施与推进，构建健全的教育评价体系显得尤为重要。通过针对学习过程、学习能力评价的综合诊断方法，可以提升学生综合素质。华南师范大学心理学院张敏强教授谈到如何运用认知诊断方法与技术来评价学生的认知能力，从而让学生知道自己优势在哪里、不足在哪里、有什么方法可以补救。

因此，本研究结合我国发展现状与需求和国外已有应用研究的优势，对国内教育评价如何走向CD-CAT提出以下建议：

（一）教育评估方面

相比经典测量理论和项目反应理论，认知诊断理论能把认知过程与测量手段结合起来，不仅能对考生的整体水平做出评价，还可以将考生的认知结构模式化，利用合适的测量模型对不同的认知结构模式进行诊断，从而定时考察学生的认知结构和个体差异。认知诊断方法可以应用于会考、能力水平考试；课堂上运用认知诊断功能，可以帮助教师分析学生的优势和不足，不仅能对学生的整体水平进行评价，还能将学生的认知结构模式化，通过数据定量地分析出学生的认知结构和个体差异，这样得到的信息量大且细，有助于个性化教学的实现。

1. 重视测量工具的研究和应用

实现个性化的测试平台和题库，不仅需要熟悉测量理论，还需要掌握测量模型和工具、计算机程序、统计程序等，因而需要有关教育部门与研究团队投入人力、物力，依托信息技术、网络技术和硬件设备开发有价值的题库和测试平台。

2. 对教师进行评测培训

认知诊断测试过程中，教师不仅能够依据经验和教学目标提供考试题目，而且需要对学生所需的认知水平和能力水平进行详细划分，与研究团队配合共同绘制测验蓝图，从而确定测试属性和知识点。因此，教育评测的培训是教学过程中必不可少的工具，对教师的专业培训尤其重要。

3. 题库和测试平台的地位

相比较纸笔考试，CD-CAT能够更快地获知考试成绩或者录取结果，测试能够不受时间和地点限制，考试环境更加舒适和个性化。通过搭建题库和测试平台，能够保障和实现认知诊断自适应测试：既快速获取诊断结果、报告，又可实施大规模题库，保障大部分学生的考试题目难度和区分度一致，为教育公平提供可能。

（二）科研创新方面

打造精锐团队，延伸研究深度。从文献数据分析说明，目前我国研究派系较为集中，能够拓展实践应用的驱动项目较少。因此，应当加强跨团队、跨区域甚至跨国界的学术交流和合作，共享资源与经验，共同丰富和深化CD-CAT。

（三）实践应用方面

1. 利用现有资源进行校际合作

将纸质阅卷向计算机阅卷转化，不仅要注意测验内容的平移，还要开发计算机自适应系统。根据国情，可以考虑具体个别学科先行的策略，借鉴国外经验从不同学科、学段探究学业水平发展趋势，对影响学生能力发展的各种因素进行调研，从认知模型中寻找能够与影响因素结合且能为学习者提供可选择的、具有层级关系的学习路径；联动家长、教师和学校管理者共同组建诊断评估生态圈，促进每一个学生的个性化和均衡发展。

2. 区域化合作，共同推进CD-CAT实验

开发具有大量试题测试的题库，操作环节具有保密性、安全性，机器性能的差异能够被云计算所克服，从而能够进行异地同时或同地异时的考试。通过云平台持续地将优质题目添加到题库，进而保证了陈题被淘汰，新题被涌出。云计算可以通过网络使储存在云上的教育服务与资源通过终端设备传递给每个有需要的人，这样共享优质的教育资源，有助于促进教育公平；而且把教育资源储存在云上也可以节省购买这些硬件资源所需要的成本，减少服务器及所需基础设施的更新维护、人工管理和能源消耗费用，降低教育成本。

认知诊断理论在计算机自适应测试中的应用与启示

小编：

相关推荐

热点推荐

相关搜索

最新排行