实时 AI 资讯

Dustin：面向长上下文投机解码的高效稀疏验证方法

新提出的Dustin方法通过草稿增强的稀疏验证，解决了长上下文LLM投机解码中的KV缓存加载瓶颈问题。

发布时间2026年6月25日 12:00（北京时间）/阅读次数 0

arXiv发表了一项名为Dustin的新技术，专注于优化大语言模型的投机解码推理效率。投机解码虽然在多批次长上下文场景中能提升推理吞吐量，但其效率常受限于KV缓存加载主导的验证瓶颈。

Dustin提出了“草稿增强的稀疏验证”方法。现有压缩方案在此场景下表现不佳：静态驱逐因显著性偏移导致精度损失，而动态选择在验证路径中引入过高的计算开销。Dustin通过创新的稀疏验证机制来平衡精度与效率。

该论文于2026年6月25日发布于arXiv cs.CL。随着长上下文LLM的广泛应用（如文档分析、代码库理解），推理效率优化变得越来越重要，Dustin为解决这一瓶颈提供了新的技术路径。

为什么重要

为长上下文LLM投机解码中的KV缓存瓶颈提供了高效解决方案，有助于降低大规模部署的推理成本。

arXivInferenceLLM

来源