登录按钮 设为首页 | 加入收藏

考试的挑战与创新

2016-06-23 16:00:43 作者:朱海林 来源:中国会计报 字号T | T

   近日,国际考试行业协会(AssociationofTestPublishers,简称ATP)在美国佛罗里达州奥兰多市召开了第17届年会。

  本届年会共有来自全球20多个国家的1163名考试业同行的代表参会,他们分别来自考试主办方、技术服务商、测评机构和高等院校等,与会人士围绕考试创新的主题,以年会为平台,进行了学术、技术、商务的交流,分享了理论研究和实践成果。国内有6家考试和人才测评机构派员参加。

  年会关注的热点主要有考试安全与隐私、试题开发与运用、考试测评软件开发与运用、人才测评、考试的商业模式等。

  会议的组织颇有创新,与往年相比,增加了数字海报展览以及公开讨论环节,提供了分论坛的网络直播与录制视频。除开幕演讲、闭幕演讲外,该年会还举办了133场形式多种的演讲和36场展览,其中包括:88场专题演讲,由一名或一组多名演讲者进行主题演讲并接受提问;18场工作坊,演讲时间较长,演讲内容更为深入,安排有更多的互动;6场点火演讲和讨论,以较短演讲引出话题,吸引听众参与共同讨论;8场鱼缸讨论,是演讲间隙进行的多话题讨论;13场豆荚讨论,是今年首次推出的开放式的非正式交流,目的在于为参会者提供更多的交流;17场产品演示,由技术服务商运用计算机演示考试软件、题库软件等考试创新产品。

  考试挑战与创新,从自适应考试与适应大纲变化之视角成为我们此次更关注的的话题。

  视角之一:不断创新的自适应考试
  自适应考试的概念与优势自适应考试是一种根据被试能力水平自动选择试题,最终对被试能力做出估计的一种测验。与传统考试相比,自适应考试试题难度更贴近考生,更容易测试出考生的能力,对考生能力的评价也更准确,考试时间更短,题库试题的使用更可控。

  考试设计面临的挑战:自适应考试的两大难点一是如何选择相匹配的考题的问题,包括从哪道题开始测试,如何选择下面测试的试题,怎样保证测试内容相互关联,如何控制试题的曝光率等问题。

  二是如何评分的问题,包括如何解决评分机制、评分模式、测试适时性与可靠性等问题。

  两种自适应考试模式ca-MST模式(computerizedadaptivemulti-stagetesting),即计算机化自适应多级测验,属于相对稳定的考试形式。该模式的特点是,有各种设计方案,模块式开发比大规模题库的零散试题开发更容易,知识单元的管理更加直接,允许合理使用共同的试题材料,更便于对考试内容的直接控制。NCCPA(NationalCom鄄missiononCertificationofPhysicianAssis鄄tants,美国国家医师助理认证委员会)采取该模式。

  CAT模式(computerizedadaptivetesting),即计算机化自适应测验,属于完全自适应考试。该模式基于在一定的测试长度内尽可能测出能力的原理,设计了一套CAT运算程序,因而更接近完全自适应考试。该模式的特点是,在施测 前必须掌握试题属性参数;每场考试都是为单个考生“量体定做”,系统根据考生对先前试题答题情况和已知项目参数评估,自动选择下一道试题;能力高的考生分到极少的简单题,能力低的考生分到极少的难题,目标是让考试测评有用信息最大化。NCSBN(NationalCouncilofStateBoardsofNursing,美国国家护理委员会)采用该模式。

  自适应考试的实践研究ca-MST模式的研究ca-MST考试的动机研究。传统机考测试长度太长、机位成本过高、题库曝光和考试安全问题,以及越来越高的测试精度和效率(包括出于实现反复测试的可能性考虑)等原因,促使人们转向研究使用自适应考试。

  考试的设计与可行性研究。首先,要有考试设计,考试设计需要考虑测试模块与层级、评分、运行步骤等问题;其次,是进行可能性研究,要考虑题库问题、测试试题内部结构编排问题;另外,还考虑学习模仿等问题。

  ca-MST考试的选题特点。开始测试时,选择中等难度的试题,根据测试情况,选择确定下一道题是更难的还是更容易的,第3道、第4道题……以此类推。

  模拟研究如何降低对能力评价的误差。选用两种设计方案,即LFT方案和MST方案。LFT方案的特点是,采用1-2-2结构,准备252道试题,试题要提前预测,并需要设置最高的能力值,设置一个合格分数线,目标测验信息函数TIF的峰值与测验特征曲线一致,TIF最优点为通过点;MST方案的特点是,采用1-3-3结构,需要3个步骤,每个步骤有84道试题,共252道试题,最高能力值是变动的,合格线最后确定,目标测验信息函数TIF的峰值根据模块变化,TIF切点为通过点比较的结果,MST考试比LFT考试统计数据要稍好些,能提供更高的分类精度和较低的评估误差,但可改进的空间有限。

  下一步需要研究的问题是,一是弄清在保证理想精度的前提下,是否可以进一步缩短考试长度、减少测试试题,以及减少多少的问题,二是研究题库适应性问题,即需要多少个模块、题库建设如何支持自适应考试的理想设计、如果不能,对题库开发有什么迫切需要解决的问题等。

  CAT模式的实践 CAT考试的特点。每个项目的难度都是针对个人设计的,计算机根据每一个答案重估考生的能力,评估会更准确,是更接近完全自适应的考试,也是量体裁衣的考试。每一道试题对考生来说都是具有挑战性的,是根据一个个项目算法精选出来的。考试减少了高能力的考生得到容易试题的数量,因为做容易的题对高能力的考生而言没有意义,减少了低能力的考生得到难题的数量,因为这些考生做太难的试题会增加猜测成分,没有意义。

  考试设计。第一,要确保考试符合测试规范和项目选择的运算程序;第二,在测试规范许可的范围内划定内容区域的最大偏离边界,再从该内容区域中选择适当的难度级别来管理下一个测试项目;第三,经过对一道道试题的选择,考生的能力被大致锁定在一个幅度内,这样就能使考试评价的误差越来越小。研究案例,NCLEX题目选择算法:首先,为确保每场考试都能符合考试蓝图设计,其次,在选择试题时,确定哪个内容单元没有被考到,就从那个内容单元里选择适当难度的试题。

  关于考试长度。CAT考试的长度可固定,也可以是变化的,即考生试题数量由其能力大小决定,能力越接近通过标准,则考试越长,越偏离,则越短。在固定长度的CAT考试中,所有考生将获得同样多的试题;在变动长度的CAT考试中,考生做题要根据自己答题的情况而定。

  关于通过决策问题。CAT考试需要设置终止规则。以NCLEX为例,其停止规则是至少完成60道试题,考试试题覆盖超过规定的比例,具体规则是:①95%置信区间。如果计算判定考生在95%置信区间内通过考试,说明考生能力明显高于通过标准,则考试结束,该考生通过,如果判定在95%置信区间内不通过考试,则说明考生能力明显低于通过标准,考试结束,该考生不通过;②最大长度的运用。例如NCCPA考试最大长度为252道试题,考生答完最后一道题目总得分高于通过线,则通过考试,低于或等于通过线,则不通过考试;③最长时间的运用。在至少完成60道题的前提下,在最长考试时间内结束考试。

  实践研究表明,自适应考试能够提高考试精确性,减少对试题数量的要求。

  视角之二:适应大纲快速变化保持考试稳定的实践研究
  实现考试目标的新挑战如果考试要持续发展,应该以正确性为目标,考试追求有效性和公平性。由于考试内容很少稳定不变,如何在大纲变化的情况下保持考试的稳定性备受关注

  NCCPA适应大纲变化的实践从医师助理专业的发展历史可看出,考试的变化性及专业性变化的是内容,不变的是专业性。如何确定专业特性?目前,NCCPA考试中,Rotation涵盖7个指导性的临床实验,Packrat考核225道题。

  调整大纲的机制。NCCPA通过12种不同的会议来确定D&D,以及采取任务列表法,针对实践中专业内容的变动,对考试的内容做出调整。比如,之前细目表中1%至2%的内容是法律和道德问题,调整后,这部分的比重增加到

  5%。

  需要考虑的问题。考试内容的变更,需要考虑的问题很多,如测试目标如何变化,细目表如何编写,是否需要合并或拆分专业能力,如何对认知目标进行分类,在内容、目标基础上,如何建立分类能力的层次(如记忆、应用、分析、评价分类法)等问题。根据内容目标,确定应试者应当会什么。

  调整步骤。明确分类规则,对考试内容进行重新分类;确定试题难度;编写操作指南;重新审核题库中的试题。另外,随着新技术试题的应用(多媒体)、新题型的开发,伴随新的解决方法会产生的新的挑战。在实践中,往往还需要考虑各州的法律差异和现实的可行性。

  PAEA适应大纲变化的实践PAEA制定了4年产品时间表。即:2015年,完成考试形式和类型指南、方案和话题列表、分值报告指南、ADA指南;2016年,实现DSM5条执行承诺、样题重审、辅导教程、ADA指南;2017年,完成样题出品、试题和考试产品多方面审订环节、方案和话题列表、ADA指南;2018年,完成考试任务和目标、分值报告指南、ADA指南。

  关于PAEADSM5条标准的更新。

  首先,要做出决策,确定怎么转化,做出如何运行题库搜索和按序整理试题的规划;其次,是确定DSM5更新流程,由9名内容专家小组审核,题库搜索出833道试题,通过三步背靠背审核程序,293道试题被修订。

  在大纲更新的过程中,需要考虑的因素主要有方案(细目表)的稳定性、学生和教师的认知,以及更新的公平性和可行性等。既要保持考试稳定性(从某种意义上讲,其重要性要远远大于内容更新),同时又要考虑如何保证考试在工作领域的运用,随着实践的变化而变化。

  考试主办者要关注持续变动的目标,一是要持续评价试题质量,准备相关策略;二是要时刻做好变化的准备;三是在变化中不断完善和发展。

  体会与思考
  随着科技和技术的高速发展,各国考试业都面临前所未有的安全压力、知识更新与保持考试稳定性的矛盾。以美国为首的发达经济体人才测评市场化程度高、测评理念先进、技术发达,创造积累了许多有益的理论和经验,相比起来,我国的考试与人才测评理论研究和制度建设滞后、测评市场化程度较低,在测评理念、管理体制、新技术开发与运用上尚存在较大的差距。完善中国会计资格考试与人才评价工作任重道远,需要我们加倍努力,注意学习和借鉴国外考试测评的先进理念和经验,不断探索、创新突破。

  参加这次ATP年会,我们也有了更多的思考。

  一方面,提高对国内国际考试与人才评价市场敏感度,继续密切关注市场动态,适时进行分析整理和研究,提出应对策略,并使此项工作常态化。同时,利用相关平台,推介我国会计资格考试的经验和做法。

  另一方面,结合会计资格考试与评价“十三五”规划的制定,贯彻实施国家人才发展战略,向国际考试测评行业先进水准看齐,加快会计资格考试的改革步伐,适应市场需求,不断探索人才测评新方法和新路子,致力做强做大做优会计资格考试品牌。  (作者单位:财政部会计资格评价中心)

相关阅读

关于我们 广告服务 联系我们 工作机会 网站律师 网站地图 合作伙伴 服务条款