本週,Google DeepMind 放出了一枚重磅炸彈:Gemini 3.5 Flash 正式上線了 computer use 功能。簡單來說,這個模型現在能像人一樣「看」螢幕、移動滑鼠、點按鈕、打字——全部自主完成。
聽起來像科幻片?實際上它已經跑在開發者手裡了。DeepMind 在部落格中展示了模型操作瀏覽器、填寫表格、甚至使用命令列介面的例子。這一切並非預編指令碼,而是模型實時理解螢幕截圖後決定的下一步動作。
computer use 到底怎麼工作?
核心機制並不複雜:模型接收當前螢幕的截圖(或視訊幀),輸出滑鼠移動、點選、鍵盤輸入等指令。然後系統執行這些指令,擷取新螢幕,迴圈往復。Gemini 3.5 Flash 專門針對這種 「觀察-行動」迴圈 做了優化,將延遲控制在可接受範圍內。
與之前一些依賴 API 或結構化介面的方案不同,computer use 直接操作 GUI,這意味著它幾乎可以控制任何桌面軟體——無論對方有沒有提供 API。開發者在部落格評論中驚呼:「這下 RPA 工具要地震了。」
當然,目前仍處於早期階段。模型在複雜介面上偶爾會犯低階錯誤,比如點錯按鈕或輸錯欄位。但考慮到這是首次公開亮相,進步空間顯而易見。
這對誰意味著什麼?
對於自動化工程師:傳統 RPA 需要錄製步驟或編寫指令碼,而 computer use 可以用自然語言描述任務,模型自行完成。比如:「把這個 Excel 檔案裡的資料導成 CSV,再上傳到 Google Sheets」——全程無需人工干預。
對於軟體測試:自動化的 UI 測試可以不再依賴脆弱的元素選擇器,而是用視覺理解來操作。邊界情況或許更容易被覆蓋。
對於普通使用者:未來你的個人 AI 助理可能不只是回答問題,還能直接幫你操作電腦——整理檔案、設定軟體、預訂行程。不過隱私和安全壁壘會很高,Google 表示目前訪問許可權嚴格受控。
- GitHub 上已有開發者嘗試用 Gemini 3.5 Flash 控制本地應用,效果令人驚喜。
- 一些早期測試者報告:模型能完成表單填寫、搜尋、註冊等重複性任務,成功率約 70%。
- DeepMind 強調這仍是研究預覽,生產環境需謹慎。
值得關注的限制
首先,速度還不夠快。每次決策需要模型推理,延遲疊加後,簡單操作可能花費數秒。其次,視覺魯棒性:視窗大小變化、解析度不同、甚至截圖壓縮都可能影響模型判斷。最後,安全隱患:賦予模型操作能力意味著潛在的風險——如果模型被誘導執行惡意操作,後果嚴重。Google 採取了一些護欄,但遠未完美。
DeepMind 這次選擇在 Gemini 3.5 Flash 上首發 computer use,而非更強大的 Ultra 模型,顯然是為了快速迭代和收集反饋。Flash 版本成本更低、速度更快,更適合實驗性部署。
「這可能是 AI 從「對話」走向「行動」最關鍵的一步。」—— DeepMind 部落格原文
無論你是開發者還是觀察者,都值得關注這個方向的演進。有觀點認為,computer use 將重塑人機互動正規化:不再是我們教 AI 說話,而是 AI 替我們動手。
下一步,看看開源社羣能做出什麼有趣的衍生品吧。











評論
暫無評論
成為第一個評論的人