实时 AI 资讯
WinDOM:自家族蒸馏技术让小模型GUI定位能力大幅提升
新研究提出WinDOM方法,通过自家族蒸馏和强化学习结合,让约2B参数的小模型在GUI界面元素定位上取得突破。
发布时间/阅读次数 0
arXiv 上发表了一项关于小型GUI定位代理的研究。论文指出,约2B参数的小型GUI定位代理对于设备端部署、无障碍工具和低成本迭代很有吸引力,但面临两个关键难题:如何在不依赖昂贵人工标注的情况下获取边界框训练数据,以及如何结合监督微调与强化学习。
WinDOM方法通过自家族蒸馏(Self-Family Distillation)解决了这些问题,其明确目标是推动小模型性能的提升而非扩大模型规模。研究共包含54,425轮训练。
该论文来自 arXiv cs.AI,论文编号 2606.25964。随着端侧AI部署需求增长,让小型模型在GUI理解任务上达到更高性能具有重要的实用价值。
为什么重要
WinDOM为小型设备端AI代理的GUI交互能力提供了低成本、高效的训练方案,有助于推动AI代理在移动设备和无障碍工具中的部署。