实时 AI 资讯
从熵中识破越狱:研究发现LLM中间层可检测有害意图
新研究发现通过分析LLM各层的令牌级预测熵轨迹,可以在模型内部表征层面有效检测越狱攻击,为输出级检测提供了新的内部分析维度。
发布时间/阅读次数 0
arXiv发表了一项利用模型内部表征检测越狱攻击的研究。越狱攻击揭示了大语言模型在安全训练后的持久弱点——精心构造的提示词可以绕过安全机制,引出违反政策的回应。
现有防御大多在提示或输出层面运作,但研究团队分析了冻结LLM各层的令牌级预测熵轨迹,发现有害意图在模型的中间层有独特的编码模式。通过分析这些熵的动态变化,可以在模型生成违规输出之前进行检测。
该论文于2026年6月25日发布于arXiv cs.CL。这一内部表征层面的检测方法,为越狱防御开辟了超越输入输出过滤的新维度,有望提升LLM在实际部署中的安全性。
为什么重要
为越狱攻击检测提供了基于模型内部表征的新方法,超越传统的输入输出过滤,增强LLM安全性。