实时 AI 资讯

量化膨胀推理：低比特推理模型的隐藏Token成本被发现

新研究发现低比特后训练量化会让推理模型生成更长的推理链，即使答案正确也无意识地增加了推理成本。

发布时间2026年6月25日 12:00（北京时间）/阅读次数 0

量化被广泛用于降低大语言模型的推理成本，但其对推理模型的影响并不能仅通过最终答案准确率或逐Token延迟来完整衡量。6月25日发布在arXiv上的一篇新研究揭示了一个隐藏成本。

研究人员发现，低比特后训练量化会导致量化后的推理模型生成长得多的推理链——即使在答案仍然正确的情况下。这一现象在数学推理、代码生成和科学问答等多个领域都得到了验证，意味着用户可能为正确但低效的推理支付了隐藏的额外计算成本。

该研究来自arXiv cs.AI类别，论文ID为2606.25519。这项发现对模型部署中的量化决策提出了新的考量维度，量化方案选择不仅要看精度和延迟，还需考虑推理链膨胀效应。

为什么重要

该发现挑战了量化只影响精度和延迟的常见假设，提示业界在推理模型量化时需要综合考虑Token膨胀带来的隐藏计算成本。

LLMQuantizationEfficiency

来源