Gemini Robotics-ER 1.6: 增强具身推理，赋能机器人空间理解

具身智能领域又迎来一个关键节点。Google DeepMind 刚刚放出了 Gemini Robotics-ER 1.6——一个专门为机器人打造的增强具身推理模型。名字里的“ER”代表 Embodied Reasoning，直译就是“具身推理”。说白了，这个模型的目标是让机器人不仅仅能“看”见周围环境，还能真正理解物体的空间关系、预测动作后果，然后做出更聪明的决策。

之前的机器人视觉模型往往依赖单视角输入，面对复杂场景时容易“迷路”。比如一个机械臂要抓取被遮挡的物体，传统方法可能需要多步校准或人工干预。而 Gemini Robotics-ER 1.6 通过多视角融合和空间推理，能在一张张不同角度的图像间建立连贯的 3D 理解。这意味着机器人可以更自然地规划抓取路径、避开障碍物，甚至在动态环境中调整策略。

核心突破：从“看见”到“理解”

1.6 版本最大的升级在于对复杂场景的解析能力。它不再依赖简单的物体检测框，而是能够构建语义化的 3D 场景图——每个物体不仅被识别出来，还附带其相对于机器人自身的位置、朝向和可交互属性。比如，机器人想拿起一个杯子，它会同时计算杯子的把手朝向、周围是否有易碎品、自己手臂的伸展范围，然后生成最优路径。

这次优化还体现在“零样本”泛化上：模型在训练时并未见过的物体或场景，也能在测试中做出合理判断。这对实际部署意义重大，毕竟工厂仓库或家庭环境里的物品千奇百怪，不可能全部预训练。

实际落地场景

一个很典型的应用是自动化仓储。搬运机器人需要从杂乱的货架上拣选特定商品，传统的规则式算法很容易被遮挡、光线变化搞懵。而 Gemini Robotics-ER 1.6 的多视角推理可以快速从多个摄像头画面中重构物体位置，即使部分被遮挡也能可靠地完成抓取。另一个场景是服务机器人：在家庭或医院中，机器人需要穿过走廊、避开行人、识别门把手——这些都需要连续的空间推理能力。

DeepMind 还特别强调了模型效率。1.6 版本在推理速度上做了优化，能够以接近实时的频率输出动作指令。这对于需要快速响应的协作机器人来说，是一步关键的提效。