实时 AI 资讯

VLMs 会像人类一样搜索吗？新研究将推理令牌类比为人类视觉搜索中的反应时间

arXiv 新研究将视觉语言模型的推理令牌类比为人类视觉搜索中的反应时间指标，发现 VLM 在经典视觉搜索范式中表现出类似人类的行为特征。

发布时间2026年6月25日 12:00（北京时间）/阅读次数 0

一篇题为《Do vision-language models search like humans? Reasoning tokens as a reaction-time analog in classic visual-search paradigms》的论文在 arXiv 上发表。该研究将视觉语言模型的推理令牌数量类比为人类视觉搜索中的反应时间指标。

论文改编了四个经典范式：特征搜索与联合搜索、空间配置（T vs L）搜索、计数任务以及倾斜/垂直线条搜索。通过这些实验，研究者试图回答 VLM 是否表现出与人类视觉注意力相同的行为特征。

来源为 arXiv cs.AI（编号 2606.25066），于 2026 年 6 月 25 日发布。

为什么重要

该研究建立了 VLM 推理行为与人类视觉注意力之间的类比桥梁，对理解模型认知行为和设计更类人视觉系统具有启发意义。

Vision-Language ModelVisual SearchCognitionarXiv

来源

来源 1: https://arxiv.org/abs/2606.25066