Gemini Robotics-ER 1.6: 增強具身推理，賦能機器人空間理解

具身智慧領域又迎來一個關鍵節點。Google DeepMind 剛剛放出了 Gemini Robotics-ER 1.6——一個專門為機器人打造的增強具身推理模型。名字裡的「ER」代表 Embodied Reasoning，直譯就是「具身推理」。說白了，這個模型的目標是讓機器人不僅僅能「看」見周圍環境，還能真正理解物體的空間關係、預測動作後果，然後做出更聰明的決策。

之前的機器人視覺模型往往依賴單視角輸入，面對複雜場景時容易「迷路」。比如一個機械臂要抓取被遮擋的物體，傳統方法可能需要多步校準或人工干預。而 Gemini Robotics-ER 1.6 通過多視角融合和空間推理，能在一張張不同角度的影象間建立連貫的 3D 理解。這意味著機器人可以更自然地規劃抓取路徑、避開障礙物，甚至在動態環境中調整策略。

核心突破：從「看見」到「理解」

1.6 版本最大的升級在於對複雜場景的解析能力。它不再依賴簡單的物體檢測框，而是能夠構建語義化的 3D 場景圖——每個物體不僅被識別出來，還附帶其相對於機器人自身的位置、朝向和可互動屬性。比如，機器人想拿起一個杯子，它會同時計算杯子的把手朝向、周圍是否有易碎品、自己手臂的伸展範圍，然後生成最優路徑。

這次優化還體現在「零樣本」泛化上：模型在訓練時並未見過的物體或場景，也能在測試中做出合理判斷。這對實際部署意義重大，畢竟工廠倉庫或家庭環境裡的物品千奇百怪，不可能全部預訓練。

實際落地場景

一個很典型的應用是自動化倉儲。搬運機器人需要從雜亂的貨架上揀選特定商品，傳統的規則式演算法很容易被遮擋、光線變化搞懵。而 Gemini Robotics-ER 1.6 的多視角推理可以快速從多個攝像頭畫面中重構物體位置，即使部分被遮擋也能可靠地完成抓取。另一個場景是服務機器人：在家庭或醫院中，機器人需要穿過走廊、避開行人、識別門把手——這些都需要連續的空間推理能力。

DeepMind 還特別強調了模型效率。1.6 版本在推理速度上做了優化，能夠以接近實時的頻率輸出動作指令。這對於需要快速響應的協作機器人來說，是一步關鍵的提效。