物理世界智能的优化：从文本思考到多模态思考-MEGVII旷视科技

物理世界智能的优化：从文本思考到多模态思考

2026-05-20

近日，旷视联合北京人形机器人创新中心研发的空间感知优化算法 E-ViC，获得了第 64 届国际计算语言协会年会（ACL 2026）的录用。ACL 是自然语言处理与人工智能领域的顶级学术会议，此次录用标志着我们在物理世界智能方向的研究取得了新的技术突破。

从文本思考，到多模态思考

人类在面对复杂空间问题时，从不只靠"想"，我们会用手指着地图比划，会拿笔在纸上标注关键点，会把视线凑近细节处再下判断。这种"边看边想、边动边确认"的过程，是人类空间认知的核心。然而，目前主流的视觉语言大模型（VLM）在推理时，依赖的仍是纯文字的思维链（Chain-of-Thought，CoT），也即把视觉信息压缩成文字描述，再用语言来推理。这就好比让一个人蒙上眼睛，只凭口头描述来进行物理世界的操作。语言擅长传递语义，却天然损失了几何精度，对于物理世界中绝大部分任务的执行来说，这种"语言盲推"是一个根本性的瓶颈。

E-ViC（Embodied Visual Chain）正是为打破这一瓶颈而生。

E-ViC 的核心思路是：让推理回归视觉本身。它将缩放（zoom in）、标点（draw point）、画框（draw box）、轨迹绘制（draw trajectory）等视觉操作定义为可执行的"决策原语"，使模型在推理过程中可以直接与图像像素交互，圈出目标区域、标注关键坐标、绘制运动路径，而不是把这些信息转译成文字再进行纯文本推理。

▌具身视觉链（E-ViC）概览

这种"看一步、想一步、确认一步"的闭环推理，正是人类处理空间问题的自然方式。E-ViC 让机器以类似的方式思考。

更值得关注的是训练方式的创新。E-ViC 不依赖人工标注的推理轨迹，而是通过强化学习让模型自主涌现出"主动调用视觉工具验证假设"的策略。模型并非被教导"何时该看哪里"，而是在反复试错中，自己学会了什么时候值得放大图像、在哪里标注落点。这种策略的自主涌现，与人类习得空间技能的过程高度相似。在五项空间理解基准测试中，E-ViC 相比基座模型平均提升 10.1%，并在需要精细定位的任务（如目标放置、空间指代）上取得最大幅度的突破，甚至超越了参数量为其四倍的大模型，以及 GPT-5 等商业旗舰模型。