实时 AI 资讯
量化膨胀推理:低比特推理模型的隐藏Token成本被发现
新研究发现低比特后训练量化会让推理模型生成更长的推理链,即使答案正确也无意识地增加了推理成本。
发布时间/阅读次数 0
量化被广泛用于降低大语言模型的推理成本,但其对推理模型的影响并不能仅通过最终答案准确率或逐Token延迟来完整衡量。6月25日发布在arXiv上的一篇新研究揭示了一个隐藏成本。
研究人员发现,低比特后训练量化会导致量化后的推理模型生成长得多的推理链——即使在答案仍然正确的情况下。这一现象在数学推理、代码生成和科学问答等多个领域都得到了验证,意味着用户可能为正确但低效的推理支付了隐藏的额外计算成本。
该研究来自arXiv cs.AI类别,论文ID为2606.25519。这项发现对模型部署中的量化决策提出了新的考量维度,量化方案选择不仅要看精度和延迟,还需考虑推理链膨胀效应。
为什么重要
该发现挑战了量化只影响精度和延迟的常见假设,提示业界在推理模型量化时需要综合考虑Token膨胀带来的隐藏计算成本。