郭震 AI公众号:郭震AI

实时 AI 资讯

WinDOM:自家族蒸馏技术让小模型GUI定位能力大幅提升

新研究提出WinDOM方法,通过自家族蒸馏和强化学习结合,让约2B参数的小模型在GUI界面元素定位上取得突破。

发布时间/阅读次数 0

arXiv 上发表了一项关于小型GUI定位代理的研究。论文指出,约2B参数的小型GUI定位代理对于设备端部署、无障碍工具和低成本迭代很有吸引力,但面临两个关键难题:如何在不依赖昂贵人工标注的情况下获取边界框训练数据,以及如何结合监督微调与强化学习。

WinDOM方法通过自家族蒸馏(Self-Family Distillation)解决了这些问题,其明确目标是推动小模型性能的提升而非扩大模型规模。研究共包含54,425轮训练。

该论文来自 arXiv cs.AI,论文编号 2606.25964。随着端侧AI部署需求增长,让小型模型在GUI理解任务上达到更高性能具有重要的实用价值。

为什么重要

WinDOM为小型设备端AI代理的GUI交互能力提供了低成本、高效的训练方案,有助于推动AI代理在移动设备和无障碍工具中的部署。

GUI AgentsKnowledge DistillationSmall Models

来源