Gemini 3.5 Flash: 模型首次實現計算機操作

Ryan Mitchell

2026年6月25日

original

Google DeepMind 在 Gemini 3.5 Flash 中引入 computer use 能力，讓 AI 能直接觀察螢幕、移動游標、點選按鈕並填寫表單，自動完成軟體操作。這一突破將自動化從聊天介面延伸到真實計算機互動，對 RPA、測試、個人助理等領域意義深遠。

本週，Google DeepMind 放出了一枚重磅炸彈：Gemini 3.5 Flash 正式上線了 computer use 功能。簡單來說，這個模型現在能像人一樣「看」螢幕、移動滑鼠、點按鈕、打字——全部自主完成。

聽起來像科幻片？實際上它已經跑在開發者手裡了。DeepMind 在部落格中展示了模型操作瀏覽器、填寫表格、甚至使用命令列介面的例子。這一切並非預編指令碼，而是模型實時理解螢幕截圖後決定的下一步動作。

computer use 到底怎麼工作？

核心機制並不複雜：模型接收當前螢幕的截圖（或視訊幀），輸出滑鼠移動、點選、鍵盤輸入等指令。然後系統執行這些指令，擷取新螢幕，迴圈往復。Gemini 3.5 Flash 專門針對這種 「觀察-行動」迴圈 做了優化，將延遲控制在可接受範圍內。

與之前一些依賴 API 或結構化介面的方案不同，computer use 直接操作 GUI，這意味著它幾乎可以控制任何桌面軟體——無論對方有沒有提供 API。開發者在部落格評論中驚呼：「這下 RPA 工具要地震了。」

當然，目前仍處於早期階段。模型在複雜介面上偶爾會犯低階錯誤，比如點錯按鈕或輸錯欄位。但考慮到這是首次公開亮相，進步空間顯而易見。

這對誰意味著什麼？

對於自動化工程師：傳統 RPA 需要錄製步驟或編寫指令碼，而 computer use 可以用自然語言描述任務，模型自行完成。比如：「把這個 Excel 檔案裡的資料導成 CSV，再上傳到 Google Sheets」——全程無需人工干預。

對於軟體測試：自動化的 UI 測試可以不再依賴脆弱的元素選擇器，而是用視覺理解來操作。邊界情況或許更容易被覆蓋。

對於普通使用者：未來你的個人 AI 助理可能不只是回答問題，還能直接幫你操作電腦——整理檔案、設定軟體、預訂行程。不過隱私和安全壁壘會很高，Google 表示目前訪問許可權嚴格受控。

GitHub 上已有開發者嘗試用 Gemini 3.5 Flash 控制本地應用，效果令人驚喜。
一些早期測試者報告：模型能完成表單填寫、搜尋、註冊等重複性任務，成功率約 70%。
DeepMind 強調這仍是研究預覽，生產環境需謹慎。

值得關注的限制

首先，速度還不夠快。每次決策需要模型推理，延遲疊加後，簡單操作可能花費數秒。其次，視覺魯棒性：視窗大小變化、解析度不同、甚至截圖壓縮都可能影響模型判斷。最後，安全隱患：賦予模型操作能力意味著潛在的風險——如果模型被誘導執行惡意操作，後果嚴重。Google 採取了一些護欄，但遠未完美。

DeepMind 這次選擇在 Gemini 3.5 Flash 上首發 computer use，而非更強大的 Ultra 模型，顯然是為了快速迭代和收集反饋。Flash 版本成本更低、速度更快，更適合實驗性部署。