本周,Google DeepMind 放出了一枚重磅炸弹:Gemini 3.5 Flash 正式上线了 computer use 功能。简单来说,这个模型现在能像人一样「看」屏幕、移动鼠标、点按钮、打字——全部自主完成。
听起来像科幻片?实际上它已经跑在开发者手里了。DeepMind 在博客中展示了模型操作浏览器、填写表格、甚至使用命令行界面的例子。这一切并非预编脚本,而是模型实时理解屏幕截图后决定的下一步动作。
computer use 到底怎么工作?
核心机制并不复杂:模型接收当前屏幕的截图(或视频帧),输出鼠标移动、点击、键盘输入等指令。然后系统执行这些指令,截取新屏幕,循环往复。Gemini 3.5 Flash 专门针对这种 「观察-行动」循环 做了优化,将延迟控制在可接受范围内。
与之前一些依赖 API 或结构化接口的方案不同,computer use 直接操作 GUI,这意味着它几乎可以控制任何桌面软件——无论对方有没有提供 API。开发者在博客评论中惊呼:“这下 RPA 工具要地震了。”
当然,目前仍处于早期阶段。模型在复杂界面上偶尔会犯低级错误,比如点错按钮或输错字段。但考虑到这是首次公开亮相,进步空间显而易见。
这对谁意味着什么?
对于自动化工程师:传统 RPA 需要录制步骤或编写脚本,而 computer use 可以用自然语言描述任务,模型自行完成。比如:“把这个 Excel 文件里的数据导成 CSV,再上传到 Google Sheets”——全程无需人工干预。
对于软件测试:自动化的 UI 测试可以不再依赖脆弱的元素选择器,而是用视觉理解来操作。边界情况或许更容易被覆盖。
对于普通用户:未来你的个人 AI 助理可能不只是回答问题,还能直接帮你操作电脑——整理文件、设置软件、预订行程。不过隐私和安全壁垒会很高,Google 表示目前访问权限严格受控。
- GitHub 上已有开发者尝试用 Gemini 3.5 Flash 控制本地应用,效果令人惊喜。
- 一些早期测试者报告:模型能完成表单填写、搜索、注册等重复性任务,成功率约 70%。
- DeepMind 强调这仍是研究预览,生产环境需谨慎。
值得关注的限制
首先,速度还不够快。每次决策需要模型推理,延迟叠加后,简单操作可能花费数秒。其次,视觉鲁棒性:窗口大小变化、分辨率不同、甚至截图压缩都可能影响模型判断。最后,安全隐患:赋予模型操作能力意味着潜在的风险——如果模型被诱导执行恶意操作,后果严重。Google 采取了一些护栏,但远未完美。
DeepMind 这次选择在 Gemini 3.5 Flash 上首发 computer use,而非更强大的 Ultra 模型,显然是为了快速迭代和收集反馈。Flash 版本成本更低、速度更快,更适合实验性部署。
“这可能是 AI 从「对话」走向「行动」最关键的一步。”—— DeepMind 博客原文
无论你是开发者还是观察者,都值得关注这个方向的演进。有观点认为,computer use 将重塑人机交互范式:不再是我们教 AI 说话,而是 AI 替我们动手。
下一步,看看开源社区能做出什么有趣的衍生品吧。











评论
暂无评论
成为第一个评论的人