实时 AI 消息
新研究Active-GRPO:用自适应模仿与自改进推理优化分子设计
研究人员提出Active-GRPO方法,将模仿学习与带验证奖励的强化学习结合,用于大语言模型的科学推理训练。该方法在分子优化任务上显示出比纯监督微调或纯RLVR更优的效果。
一篇发表于arXiv的新论文提出了Active-GRPO(Adaptive Imitation and Self-Improving Reasoning for Molecular Optimization),旨在解决大语言模型在科学推理训练中的核心难题。该研究聚焦于指令驱动的分子优化场景。
当前训练科学推理LLM面临两难困境:纯监督微调(SFT)仅关注最终答案,在多步推理中容易导致推理链崩塌;而带验证奖励的强化学习(RLVR)虽能引导推理过程,却面临反馈稀疏的问题,训练效率不高。
Active-GRPO的核心思路是将两者结合——在训练的早期阶段通过参考引导的策略优化进行模仿学习,让模型快速建立有效的推理模式;随后过渡到自我改进阶段,利用验证信号持续优化推理质量。

分子优化是药物发现和材料科学中的关键任务,要求模型具备多步化学推理能力,包括理解分子结构、预测性质并生成改进方案。这对LLM的推理链长度和准确性提出了高要求。
该研究选择分子优化作为实验场景具有代表性:SFT在这种任务中容易产生不稳定推理,而RLVR的稀疏奖励使得训练信号不足。Active-GRPO通过分阶段策略平衡了两者的优势。
这项工作的意义不仅限于分子设计。它将GRPO类方法(因DeepSeek-R1而广受关注)扩展到需要复杂推理的科学任务中,为LLM在科学研究中的应用提供了新的训练范式。
后续值得关注的方向包括:Active-GRPO是否能推广到其他科学推理任务(如数学证明、代码生成、实验设计),以及该方法在大规模模型上的扩展性表现。
为什么重要
Active-GRPO为LLM科学推理训练提供了结合模仿学习与强化学习的新范式,有望推动AI在药物发现和材料设计等科学领域的实际应用。