Gemini 3.5 Flash: 模型首次實現計算機操作

Gemini 3.5 Flash: 模型首次實現計算機操作

Ryan Mitchell
36
original

Google DeepMind 在 Gemini 3.5 Flash 中引入 computer use 能力,讓 AI 能直接觀察螢幕、移動游標、點選按鈕並填寫表單,自動完成軟體操作。這一突破將自動化從聊天介面延伸到真實計算機互動,對 RPA、測試、個人助理等領域意義深遠。

本週,Google DeepMind 放出了一枚重磅炸彈:Gemini 3.5 Flash 正式上線了 computer use 功能。簡單來說,這個模型現在能像人一樣「看」螢幕、移動滑鼠、點按鈕、打字——全部自主完成。

聽起來像科幻片?實際上它已經跑在開發者手裡了。DeepMind 在部落格中展示了模型操作瀏覽器、填寫表格、甚至使用命令列介面的例子。這一切並非預編指令碼,而是模型實時理解螢幕截圖後決定的下一步動作。

computer use 到底怎麼工作?

核心機制並不複雜:模型接收當前螢幕的截圖(或視訊幀),輸出滑鼠移動、點選、鍵盤輸入等指令。然後系統執行這些指令,擷取新螢幕,迴圈往復。Gemini 3.5 Flash 專門針對這種 「觀察-行動」迴圈 做了優化,將延遲控制在可接受範圍內。

與之前一些依賴 API 或結構化介面的方案不同,computer use 直接操作 GUI,這意味著它幾乎可以控制任何桌面軟體——無論對方有沒有提供 API。開發者在部落格評論中驚呼:「這下 RPA 工具要地震了。」

當然,目前仍處於早期階段。模型在複雜介面上偶爾會犯低階錯誤,比如點錯按鈕或輸錯欄位。但考慮到這是首次公開亮相,進步空間顯而易見。

這對誰意味著什麼?

對於自動化工程師:傳統 RPA 需要錄製步驟或編寫指令碼,而 computer use 可以用自然語言描述任務,模型自行完成。比如:「把這個 Excel 檔案裡的資料導成 CSV,再上傳到 Google Sheets」——全程無需人工干預。

對於軟體測試:自動化的 UI 測試可以不再依賴脆弱的元素選擇器,而是用視覺理解來操作。邊界情況或許更容易被覆蓋。

對於普通使用者:未來你的個人 AI 助理可能不只是回答問題,還能直接幫你操作電腦——整理檔案、設定軟體、預訂行程。不過隱私和安全壁壘會很高,Google 表示目前訪問許可權嚴格受控。

  • GitHub 上已有開發者嘗試用 Gemini 3.5 Flash 控制本地應用,效果令人驚喜。
  • 一些早期測試者報告:模型能完成表單填寫、搜尋、註冊等重複性任務,成功率約 70%。
  • DeepMind 強調這仍是研究預覽,生產環境需謹慎。

值得關注的限制

首先,速度還不夠快。每次決策需要模型推理,延遲疊加後,簡單操作可能花費數秒。其次,視覺魯棒性:視窗大小變化、解析度不同、甚至截圖壓縮都可能影響模型判斷。最後,安全隱患:賦予模型操作能力意味著潛在的風險——如果模型被誘導執行惡意操作,後果嚴重。Google 採取了一些護欄,但遠未完美。

DeepMind 這次選擇在 Gemini 3.5 Flash 上首發 computer use,而非更強大的 Ultra 模型,顯然是為了快速迭代和收集反饋。Flash 版本成本更低、速度更快,更適合實驗性部署。

「這可能是 AI 從「對話」走向「行動」最關鍵的一步。」—— DeepMind 部落格原文

無論你是開發者還是觀察者,都值得關注這個方向的演進。有觀點認為,computer use 將重塑人機互動正規化:不再是我們教 AI 說話,而是 AI 替我們動手。

下一步,看看開源社羣能做出什麼有趣的衍生品吧。

Gemini 3.5 Flash計算機操作自動化AI操控電腦DeepMindGoogle AI新功能人機互動RPA視覺理解

分享

評論

0
0/500 字元

暫無評論

成為第一個評論的人

探索更多

開源專案

Activepieces: 開源 AI 工作流與 MCP 代理平臺

Activepieces 是一個開源的工作流自動化平臺,整合了 400+ MCP 伺服器,支援 AI 代理和 AI 工作流的視覺化編排。基於 TypeScript 構建,適合開發者和團隊快速搭建智慧自動化流程,降低 AI 應用的構建門檻。

Omnigent: 統一管理所有AI代理的元框架

Omnigent 是一個開源的元層框架,讓你在Claude Code、Codex、Pi等AI代理間自由切換或組合,無需重複編寫整合程式碼。支援策略控制、沙箱隔離和跨裝置實時協作,2562顆Star的Python專案,適合需要多代理協作的開發團隊。

Riona-AI-Agent: 輕量高效的AI任務執行代理

Riona-AI-Agent 是一個基於 Node.js 和 TypeScript 構建的開源 AI 代理,專注於輕量、高效的任務自動化執行。專案正處於活躍開發階段,已獲得超過 4200 顆星,適合希望快速整合 AI 工作流的開發者。

goclaw: 用 Go 重寫 OpenClaw,安全部署 AI 代理團隊

goclaw 是 OpenClaw 的 Go 語言實現,專為大規模安全部署多租戶 AI 代理團隊設計。它提供 5 層安全隔離、原生併發支援和極簡部署體驗,適合需要高安全與高併發的 AI 自動化場景。

agents: 用無程式碼視覺化構建AI代理工作流

agents 是一個開源專案,提供無程式碼視覺化構建器和TypeScript SDK,用於建立AI助手和多代理工作流。支援雙向同步,可輕鬆部署生產級AI應用。適合開發者與非技術人員快速構建複雜AI代理邏輯。

Ralph Orchestrator: 用Rust重寫AI代理編排技術

Ralph Orchestrator是經典Ralph Wiggum代理編排技術的改良實現,基於Rust語言構建,提供更高效、穩定的多AI代理協同能力。專案開源且社羣活躍,適合對自主AI代理編排感興趣的開發者。