郭震 AI公众号:郭震AI

实时 AI 资讯

32,534份真实答卷:研究系统评估LLM在GCSE考试中的表现

新研究引入包含32,534份双评真实学生答卷的GCSE数据集,发现LLM与阅卷员的一致性接近阅卷员之间的一致性水平。

发布时间/阅读次数 0

arXiv发表了一项大规模LLM考试评测研究。研究团队引入了一个包含32,534份双评真实学生答卷的数据集,这些答卷来自英国GCSE模拟考试(英国16岁学生国家考试),涵盖五个学科的328道题目,包含手写答卷。

研究发现,主流大语言模型与阅卷员共识的一致性在多个学科上表现良好,顶级模型的表现接近两位阅卷员之间的一致性水平。这一结果对AI辅助教育评估的可行性具有重要意义。

该论文于2026年6月25日发布于arXiv cs.CL。随着教育领域对AI评分兴趣的增长,使用真实、双评的学生答卷数据进行评估,比实验室构造的例题更贴近实际应用场景。

为什么重要

基于大规模真实考试数据,为LLM在教育评估中的应用提供了有说服力的基准,展示了AI辅助评分的潜力。

arXivBenchmarkLLMEducation

来源