字节再送神助攻,强化微调来了,大模型继续狂飙
你好,我是郭震
今日AI技术再迎来突破,OpenAI发现一种微调技术,能让大模型o1-mini超越地表最强大模型o1
如下图所示,微调后的o1-mini竟然超越了o1:
他们称这项微调技术为:强化微调(Reinforcement Fine-Tuning),下文统一简称为RFT.
更令人意想不到的是,强化微调RFT的技术思路,竟然全部来自字节。
下面这篇Reasoing with REinforced Fine-Tuning:
就这样字节再送神助攻。
OpenAI拿它来训练自家模型,再让大模型继续狂飙,o1-mini涨超o1.
因此要想了解强化微调RTF,通过字节的这篇论文就能知道大概。先看看下面这幅图:
此图来自字节的这篇论文
此图讲解了RFT的主要步骤,首先经过监督微调(Supervised Fine-Tuning ),简称SFT,目的就是为了预热RFT,通过Chain of Thought (COT) ,也就是上图中的标记 e,得到很多推理路径样本。
RFT预热后,进入第二阶段,使用在线强化学习算法训练,训练完成得到最终Policy. 使用的强化学习算法是OpenAI提出的PPO.
总结来说RFT步骤:先SFT,后PPO.
下面说下RFT使用的一个核心算法:PPO
PPO现在强化学习中使用很多,主要原因就是它让策略更新稳定,并且训练速度还挺快。
如下是PPO的三个核心要点,PPO通过引入采样比,使用剪枝损失函数,确保了策略的更新幅度不会过大,使用epochs 和 mini-batch重复利用样本从而提升样本利用率:
可这是为什么,如何做到策略的更新幅度不会过大的?这个问题曾经一直很困扰研究者。
采样比的公式给出了新旧策略的变化率。
然后关键来了。
引入了牛逼的剪枝目标函数,通过这个损失函数加大惩罚那些变化率大的策略更新。
具体来说,如下图所示,超过阈值1或低于某阈值2,都认为变动过大,然后剪枝发挥威力,返回一个较小的相对于At的权重:
那么At是什么?
At是优势函数(Advantage Function)
衡量了动作相对于状态的平均好坏程度,如果大于0,表明当前策略下推理出的动作a优于平均水平,具体看下面截图:
这里面又引出了强化学习最为核心的、最为基础的两个函数,动作价值函数,状态价值函数。它们直接用于评估当前决策(s,a)后,在未来的回报变现。
简单理解,这是两个”算命”函数,一旦训练后,模型便具备了预测未来的能力。
深度强化学习,是AI领域很有意思的一个分支,感兴趣的可以进一步深入理解里面的细节,限于篇幅,不再继续展开。
总结一下子
强化微调RFT有望成为大模型微调的新范式,个人理解尤其是在复杂推理方面有望有较大或大幅性能提升。
它使用了SFT做热身得到大量样本,然后PPO强化学习,得到最终的决策Policy,一旦有了很好的Policy,复杂推理任务给到它后,它就能决策出最佳的推理路径step1, step2,step3,…stepn,从而更有可能得到正确答案。
最后一句,OpenAI得感谢字节做出的技术贡献。
字节再送神助攻,强化微调来了,大模型继续狂飙