实时 AI 资讯

不可解雇的安全内核：面向AI代理的执行时对齐新方案

新论文提出'不可解雇的安全内核'概念，通过在操作系统层实现执行时AI对齐，解决AI代理系统中安全控制易被绕过的问题。

发布时间2026年6月25日 12:00（北京时间）/阅读次数 0

arXiv 上发表了一项关于AI代理安全的重要研究。论文指出，AI代理被授予工具、API和其他基础设施的访问权限，使其成为这些系统中的活跃主体。当前主流的安全方法将控制放在代理自身的运行时内部：系统提示、输出过滤器和防护库。

然而，任何位于代理地址空间中的控制都可能受到影响它的输入的影响，研究将这类系统称为"可逃逸AI系统"。论文提出了"不可解雇的安全内核"（Unfireable Safety Kernel）概念，在操作系统执行环境中实施安全控制，使其不受代理内部状态变化的影响。

该论文来自 arXiv cs.AI，论文编号 2606.26057。随着AI代理在企业环境中获得越来越多工具和API访问权限，这种在操作系统层面保障安全的方法具有突破性意义。

为什么重要

该研究为AI代理的安全对齐提供了一种根本性的新思路，将安全控制推向操作系统层面，有望显著提升AI代理系统的安全性。

AI SafetyAI AgentsAlignment

来源