实时 AI 资讯

32,534份真实答卷：研究系统评估LLM在GCSE考试中的表现

新研究引入包含32,534份双评真实学生答卷的GCSE数据集，发现LLM与阅卷员的一致性接近阅卷员之间的一致性水平。

发布时间2026年6月25日 12:00（北京时间）/阅读次数 0

arXiv发表了一项大规模LLM考试评测研究。研究团队引入了一个包含32,534份双评真实学生答卷的数据集，这些答卷来自英国GCSE模拟考试（英国16岁学生国家考试），涵盖五个学科的328道题目，包含手写答卷。

研究发现，主流大语言模型与阅卷员共识的一致性在多个学科上表现良好，顶级模型的表现接近两位阅卷员之间的一致性水平。这一结果对AI辅助教育评估的可行性具有重要意义。

该论文于2026年6月25日发布于arXiv cs.CL。随着教育领域对AI评分兴趣的增长，使用真实、双评的学生答卷数据进行评估，比实验室构造的例题更贴近实际应用场景。

为什么重要

基于大规模真实考试数据，为LLM在教育评估中的应用提供了有说服力的基准，展示了AI辅助评分的潜力。

arXivBenchmarkLLMEducation

来源