实时 AI 资讯

RWGBench：评估LLM在相关工作生成中的学术定位能力

新基准RWGBench从引用级学术定位角度评估大语言模型生成相关工作的能力，超越传统摘要式评价指标。

发布时间2026年6月25日 12:00（北京时间）/阅读次数 0

arXiv 上发表了一项名为RWGBench的新基准，用于评估大语言模型在相关工作生成（Related Work Generation, RWG）中的表现。论文指出，LLM在科学写作方面已展现出很强的流畅性，但对相关工作生成的评估仍存在局限。

现有的RWG评估主要继承摘要式指标，使用与参考章节的词汇或语义相似度作为质量代理。然而，相关工作写作本质上是一项引用级的学术定位任务，需要选择、组织和框定已有工作来确立自身贡献的定位。

该论文来自 arXiv cs.AI，论文编号 2606.24894。随着LLM越来越多地参与学术写作，从学术定位角度评估其能力比单纯的文本相似度更有意义。

为什么重要

该基准为评估LLM在学术写作中的实质性贡献提供了更精确的度量标准，有助于推动AI辅助科研写作的质量提升。

LLMBenchmarkScientific WritingEvaluation

来源