新研究Active-GRPO：用自适应模仿与自改进推理优化分子设计

一篇发表于arXiv的新论文提出了Active-GRPO（Adaptive Imitation and Self-Improving Reasoning for Molecular Optimization），旨在解决大语言模型在科学推理训练中的核心难题。该研究聚焦于指令驱动的分子优化场景。

当前训练科学推理LLM面临两难困境：纯监督微调（SFT）仅关注最终答案，在多步推理中容易导致推理链崩塌；而带验证奖励的强化学习（RLVR）虽能引导推理过程，却面临反馈稀疏的问题，训练效率不高。

Active-GRPO的核心思路是将两者结合——在训练的早期阶段通过参考引导的策略优化进行模仿学习，让模型快速建立有效的推理模式；随后过渡到自我改进阶段，利用验证信号持续优化推理质量。

分子优化是药物发现和材料科学中的关键任务，要求模型具备多步化学推理能力，包括理解分子结构、预测性质并生成改进方案。这对LLM的推理链长度和准确性提出了高要求。

该研究选择分子优化作为实验场景具有代表性：SFT在这种任务中容易产生不稳定推理，而RLVR的稀疏奖励使得训练信号不足。Active-GRPO通过分阶段策略平衡了两者的优势。

这项工作的意义不仅限于分子设计。它将GRPO类方法（因DeepSeek-R1而广受关注）扩展到需要复杂推理的科学任务中，为LLM在科学研究中的应用提供了新的训练范式。

后续值得关注的方向包括：Active-GRPO是否能推广到其他科学推理任务（如数学证明、代码生成、实验设计），以及该方法在大规模模型上的扩展性表现。