实时 AI 资讯

从熵中识破越狱：研究发现LLM中间层可检测有害意图

新研究发现通过分析LLM各层的令牌级预测熵轨迹，可以在模型内部表征层面有效检测越狱攻击，为输出级检测提供了新的内部分析维度。

发布时间2026年6月25日 12:00（北京时间）/阅读次数 0

arXiv发表了一项利用模型内部表征检测越狱攻击的研究。越狱攻击揭示了大语言模型在安全训练后的持久弱点——精心构造的提示词可以绕过安全机制，引出违反政策的回应。

现有防御大多在提示或输出层面运作，但研究团队分析了冻结LLM各层的令牌级预测熵轨迹，发现有害意图在模型的中间层有独特的编码模式。通过分析这些熵的动态变化，可以在模型生成违规输出之前进行检测。

该论文于2026年6月25日发布于arXiv cs.CL。这一内部表征层面的检测方法，为越狱防御开辟了超越输入输出过滤的新维度，有望提升LLM在实际部署中的安全性。

为什么重要

为越狱攻击检测提供了基于模型内部表征的新方法，超越传统的输入输出过滤，增强LLM安全性。

arXivJailbreakSafetyInterpretability

来源