Gemini 3.5 Flash: 模型首次实现计算机操作

Ryan Mitchell

2026年6月25日

original

Google DeepMind 在 Gemini 3.5 Flash 中引入 computer use 能力，让 AI 能直接观察屏幕、移动光标、点击按钮并填写表单，自动完成软件操作。这一突破将自动化从聊天界面延伸到真实计算机交互，对 RPA、测试、个人助理等领域意义深远。

本周，Google DeepMind 放出了一枚重磅炸弹：Gemini 3.5 Flash 正式上线了 computer use 功能。简单来说，这个模型现在能像人一样「看」屏幕、移动鼠标、点按钮、打字——全部自主完成。

听起来像科幻片？实际上它已经跑在开发者手里了。DeepMind 在博客中展示了模型操作浏览器、填写表格、甚至使用命令行界面的例子。这一切并非预编脚本，而是模型实时理解屏幕截图后决定的下一步动作。

computer use 到底怎么工作？

核心机制并不复杂：模型接收当前屏幕的截图（或视频帧），输出鼠标移动、点击、键盘输入等指令。然后系统执行这些指令，截取新屏幕，循环往复。Gemini 3.5 Flash 专门针对这种 「观察-行动」循环 做了优化，将延迟控制在可接受范围内。

与之前一些依赖 API 或结构化接口的方案不同，computer use 直接操作 GUI，这意味着它几乎可以控制任何桌面软件——无论对方有没有提供 API。开发者在博客评论中惊呼：“这下 RPA 工具要地震了。”

当然，目前仍处于早期阶段。模型在复杂界面上偶尔会犯低级错误，比如点错按钮或输错字段。但考虑到这是首次公开亮相，进步空间显而易见。

这对谁意味着什么？

对于自动化工程师：传统 RPA 需要录制步骤或编写脚本，而 computer use 可以用自然语言描述任务，模型自行完成。比如：“把这个 Excel 文件里的数据导成 CSV，再上传到 Google Sheets”——全程无需人工干预。

对于软件测试：自动化的 UI 测试可以不再依赖脆弱的元素选择器，而是用视觉理解来操作。边界情况或许更容易被覆盖。

对于普通用户：未来你的个人 AI 助理可能不只是回答问题，还能直接帮你操作电脑——整理文件、设置软件、预订行程。不过隐私和安全壁垒会很高，Google 表示目前访问权限严格受控。

GitHub 上已有开发者尝试用 Gemini 3.5 Flash 控制本地应用，效果令人惊喜。
一些早期测试者报告：模型能完成表单填写、搜索、注册等重复性任务，成功率约 70%。
DeepMind 强调这仍是研究预览，生产环境需谨慎。

值得关注的限制

首先，速度还不够快。每次决策需要模型推理，延迟叠加后，简单操作可能花费数秒。其次，视觉鲁棒性：窗口大小变化、分辨率不同、甚至截图压缩都可能影响模型判断。最后，安全隐患：赋予模型操作能力意味着潜在的风险——如果模型被诱导执行恶意操作，后果严重。Google 采取了一些护栏，但远未完美。

DeepMind 这次选择在 Gemini 3.5 Flash 上首发 computer use，而非更强大的 Ultra 模型，显然是为了快速迭代和收集反馈。Flash 版本成本更低、速度更快，更适合实验性部署。