3D HAMSTER：用 3D 轨迹引导弥合机器人 VLA 模型的规划与控制鸿沟

一篇发表于 arXiv 的新论文提出了 3D HAMSTER 框架，旨在通过 3D 轨迹引导来弥合层次化视觉-语言-动作（VLA）模型在机器人操作任务中规划与控制之间的鸿沟。

当前该领域的常用方案是使用视觉-语言模型（VLM）预测 2D 末端执行器轨迹，作为下游策略的显式引导信号。然而，最先进的低层控制策略实际上运行在 3D 度量空间中以点云作为输入，将缺乏深度信息的 2D 轨迹传入这些策略会导致规划与控制之间的信息损失和语义错配。

3D HAMSTER 的核心创新在于将轨迹引导信号从 2D 提升到 3D 空间。通过提供包含深度信息的三维轨迹，高层视觉规划与低层物理控制之间的语义鸿沟得以缩小，从而使整个系统在面对未见过的环境和物体时具备更强的泛化能力。

该研究属于层次化 VLA 模型这一活跃研究方向。该方向的核心思路是将高层次的任务规划与低层次的物理控制解耦，从而在保持精细操作能力的同时，提升模型对全新场景的适应性。3D HAMSTER 在这一范式下提供了关键的维度对齐改进。

这一成果对于机器人操作领域的实际部署具有重要意义。在真实世界中，机器人经常需要处理训练数据中从未出现过的新物体和新场景。2D 到 3D 的维度提升能够有效减少因深度信息缺失导致的规划与执行脱节问题。

后续值得关注的是，该框架能否推广到更加复杂的多步骤操作任务，以及是否会被整合到主流的机器人学习平台或开源框架中。