郭震 AI公众号:郭震AI

实时 AI 资讯

从熵中识破越狱:研究发现LLM中间层可检测有害意图

新研究发现通过分析LLM各层的令牌级预测熵轨迹,可以在模型内部表征层面有效检测越狱攻击,为输出级检测提供了新的内部分析维度。

发布时间/阅读次数 0

arXiv发表了一项利用模型内部表征检测越狱攻击的研究。越狱攻击揭示了大语言模型在安全训练后的持久弱点——精心构造的提示词可以绕过安全机制,引出违反政策的回应。

现有防御大多在提示或输出层面运作,但研究团队分析了冻结LLM各层的令牌级预测熵轨迹,发现有害意图在模型的中间层有独特的编码模式。通过分析这些熵的动态变化,可以在模型生成违规输出之前进行检测。

该论文于2026年6月25日发布于arXiv cs.CL。这一内部表征层面的检测方法,为越狱防御开辟了超越输入输出过滤的新维度,有望提升LLM在实际部署中的安全性。

为什么重要

为越狱攻击检测提供了基于模型内部表征的新方法,超越传统的输入输出过滤,增强LLM安全性。

arXivJailbreakSafetyInterpretability

来源