实时 AI 资讯
自动课程学习助力多领域 RLVR 训练:新方法利用跨领域可迁移性引导采样
arXiv 新论文提出利用推理技能跨领域可迁移性来动态调整多领域 RLVR 训练课程,解决固定采样策略导致的效率低下问题。
发布时间/阅读次数 0
一篇题为《Transferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR》的论文在 arXiv 上发表。论文指出,基于可验证奖励的强化学习已从单领域训练扩展到涵盖数学、编程和科学的多领域推理套件。
然而,训练课程(每个领域的采样频率)通常是固定的或手工调整的,尽管推理技能在不同领域间的迁移是不均匀的。现有基于可学习性的课程方法会适应策略当前改进的领域,但对在哪里应该采样更多以最大化整体收益却缺乏感知。
来源为 arXiv cs.AI(编号 2606.25178),于 2026 年 6 月 25 日发布。
为什么重要
该研究为多领域 RLVR 训练提供了自动化课程学习方案,有望显著提升训练效率和多领域推理能力。