郭震 AI公众号:郭震AI

实时 AI 资讯

可检测≠可控:研究揭示LLM行为检测与操控方向存在几何偏差

新研究发现,在语言模型中,检测某个行为的方向与真正控制该行为的方向之间存在显著角度差异,挑战了可解释性领域的基本假设。

发布时间/阅读次数 0

arXiv发表了一项对机械可解释性基础假设的重要检验。该研究的核心问题是:在语言模型的激活空间中,检测某一行为的方向与引发该行为的方向是否是同一个?研究发现,答案是否定的。

研究团队从几何角度检验了检测方向与控制方向之间的角度差异。结果显示,这两个方向往往并不对齐,这意味着“知道某行为在哪里被表征”并不等同于“能够修改它”——即使研究者能够定位到某个行为在模型中的表示位置,也不一定能可靠地控制它。

该论文于2026年6月25日发布于arXiv cs.CL。这一发现对机械可解释性的终极目标——模型可控性——提出了根本性挑战,提示研究者现有的基于表征编辑的干预方法可能存在局限性。

为什么重要

对机械可解释性的核心假设提出质疑,提示检测与控制在几何层面存在本质差异,影响模型编辑和安全性研究的路径。

arXivInterpretabilityAlignment

来源