研究发现：一次LLM重写即可优化AI Agent技能路由，工程效率提升32倍

7月1日，一篇来自微软研究院等机构的arXiv论文揭示了企业AI Agent路由优化的关键发现。研究表明，当企业AI Agent扩展到数十项技能时，不同技能的自然语言描述之间容易产生重叠，导致路由LLM将用户查询导向错误的技能——作者将这一问题命名为技能碰撞（skill collision）。

传统做法依赖工程师手动调整每项技能的描述来保持路由精度，但随着技能数量增长，这种人工调优成为显著的工程瓶颈。研究团队部署了一套自动化描述优化管线，在一款生产级企业群聊Agent（覆盖9项技能、372个回归测试案例）上进行验证。

结果令人瞩目：自动化管线生成的技能描述平均F1分数为79.2%，而人工精心调优的描述为79.4%，两者之间的平均差异仅为-0.20%，完全落在0.78%的多种子噪声区间内。更重要的是，每项技能的工程耗时从120分钟降至3.8分钟，提速约32倍。

研究发现：一次LLM重写即可优化AI Agent技能路由，工程效率提升32倍 — 图源: notebooklm.google

随后，团队进行了系统的消融实验，分别在上述生产系统和ToolBench（涵盖1.6万项工具）上逐一剥离管线各组件。一个令人意外的发现是：仅需一次LLM重写——使用已有的假正例和假负例案例——就能捕获绝大部分可用改进。其他设计选择如迭代预算、反馈信号构成、混淆对的联合编辑以及训练集大小，对最终F1的影响均不足0.5%。

论文同时指出了管线能力的边界：描述优化只能解决因描述重叠引发的技能碰撞，无法处理两项技能本质上的业务范围本就存在交叉的情况。研究团队提出了一项诊断信号——如果训练集与验证集的F1差距较大，则表明问题源于架构层面而非文本层面，需要更深入的系统级干预。

这一发现对企业部署AI Agent有直接意义。过去团队可能需要分配大量人力反复打磨技能描述，而这项研究意味着只需用少量失败案例触发一次LLM重写，就能获得与数小时人工调优相当的效果。对于正在扩展Agent技能数量的企业和开发者而言，这是一个低成本的实用优化策略。

后续值得关注的方向包括：如何将该方法推广到更复杂的多层级Agent系统，以及当技能数量从几十个增长到数百个时，一次重写是否依然足够。