实时 AI 资讯

自动课程学习助力多领域 RLVR 训练：新方法利用跨领域可迁移性引导采样

arXiv 新论文提出利用推理技能跨领域可迁移性来动态调整多领域 RLVR 训练课程，解决固定采样策略导致的效率低下问题。

发布时间2026年6月25日 12:00（北京时间）/阅读次数 0

一篇题为《Transferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR》的论文在 arXiv 上发表。论文指出，基于可验证奖励的强化学习已从单领域训练扩展到涵盖数学、编程和科学的多领域推理套件。

然而，训练课程（每个领域的采样频率）通常是固定的或手工调整的，尽管推理技能在不同领域间的迁移是不均匀的。现有基于可学习性的课程方法会适应策略当前改进的领域，但对在哪里应该采样更多以最大化整体收益却缺乏感知。

来源为 arXiv cs.AI（编号 2606.25178），于 2026 年 6 月 25 日发布。

为什么重要

该研究为多领域 RLVR 训练提供了自动化课程学习方案，有望显著提升训练效率和多领域推理能力。

RLVRCurriculum LearningReasoningarXiv

来源

来源 1: https://arxiv.org/abs/2606.25178