实时 AI 资讯
A-Evolve-Training:无需人工干预,30B模型实现全自动后训练
研究人员提出A-Evolve-Training系统,让30B参数的Nemotron模型在完全无人工干预的情况下自主完成后训练,四个迭代轮次后达到0.86分,逼近人类最优的0.87分。
发布时间/阅读次数 0
来自NVIDIA等机构的研究人员在arXiv上发表了一项名为A-Evolve-Training的研究,提出了一种完全自主的AI模型后训练系统。传统上,对前沿模型进行后训练需要数周的人工劳动——提出数据和配方更改、启动训练运行、读取评估结果、决定保留哪些改进。A-Evolve-Training将这个闭环完全自动化。
该系统在30B参数的Nemotron模型上进行了四轮迭代,历时数周,全程无需人类介入。最终自主产出的模型在公开的NVIDIA Nemotron-Reasoning Challenge上达到了0.86的持有分数,而人类最佳提交的分数为0.87。两者仅相差0.01分,显示出自主后训练的巨大潜力。
这一研究成果发布在arXiv上(编号2606.20657),其意义在于大幅降低了AI模型持续改进的人力成本。如果这种自动化方法能够规模化应用,模型迭代周期将从以周为单位的人工轮次转变为持续不断的自动优化,可能重新定义AI模型的维护和升级方式。
为什么重要
A-Evolve-Training展示了AI自主改进AI的可能性,一旦成熟,将从根本上改变模型后训练的成本结构和迭代速度。