Gemini 3.5 Flash: 模型首次实现计算机操作

Gemini 3.5 Flash: 模型首次实现计算机操作

Ryan Mitchell
36
original

Google DeepMind 在 Gemini 3.5 Flash 中引入 computer use 能力,让 AI 能直接观察屏幕、移动光标、点击按钮并填写表单,自动完成软件操作。这一突破将自动化从聊天界面延伸到真实计算机交互,对 RPA、测试、个人助理等领域意义深远。

本周,Google DeepMind 放出了一枚重磅炸弹:Gemini 3.5 Flash 正式上线了 computer use 功能。简单来说,这个模型现在能像人一样「看」屏幕、移动鼠标、点按钮、打字——全部自主完成。

听起来像科幻片?实际上它已经跑在开发者手里了。DeepMind 在博客中展示了模型操作浏览器、填写表格、甚至使用命令行界面的例子。这一切并非预编脚本,而是模型实时理解屏幕截图后决定的下一步动作。

computer use 到底怎么工作?

核心机制并不复杂:模型接收当前屏幕的截图(或视频帧),输出鼠标移动、点击、键盘输入等指令。然后系统执行这些指令,截取新屏幕,循环往复。Gemini 3.5 Flash 专门针对这种 「观察-行动」循环 做了优化,将延迟控制在可接受范围内。

与之前一些依赖 API 或结构化接口的方案不同,computer use 直接操作 GUI,这意味着它几乎可以控制任何桌面软件——无论对方有没有提供 API。开发者在博客评论中惊呼:“这下 RPA 工具要地震了。”

当然,目前仍处于早期阶段。模型在复杂界面上偶尔会犯低级错误,比如点错按钮或输错字段。但考虑到这是首次公开亮相,进步空间显而易见。

这对谁意味着什么?

对于自动化工程师:传统 RPA 需要录制步骤或编写脚本,而 computer use 可以用自然语言描述任务,模型自行完成。比如:“把这个 Excel 文件里的数据导成 CSV,再上传到 Google Sheets”——全程无需人工干预。

对于软件测试:自动化的 UI 测试可以不再依赖脆弱的元素选择器,而是用视觉理解来操作。边界情况或许更容易被覆盖。

对于普通用户:未来你的个人 AI 助理可能不只是回答问题,还能直接帮你操作电脑——整理文件、设置软件、预订行程。不过隐私和安全壁垒会很高,Google 表示目前访问权限严格受控。

  • GitHub 上已有开发者尝试用 Gemini 3.5 Flash 控制本地应用,效果令人惊喜。
  • 一些早期测试者报告:模型能完成表单填写、搜索、注册等重复性任务,成功率约 70%。
  • DeepMind 强调这仍是研究预览,生产环境需谨慎。

值得关注的限制

首先,速度还不够快。每次决策需要模型推理,延迟叠加后,简单操作可能花费数秒。其次,视觉鲁棒性:窗口大小变化、分辨率不同、甚至截图压缩都可能影响模型判断。最后,安全隐患:赋予模型操作能力意味着潜在的风险——如果模型被诱导执行恶意操作,后果严重。Google 采取了一些护栏,但远未完美。

DeepMind 这次选择在 Gemini 3.5 Flash 上首发 computer use,而非更强大的 Ultra 模型,显然是为了快速迭代和收集反馈。Flash 版本成本更低、速度更快,更适合实验性部署。

“这可能是 AI 从「对话」走向「行动」最关键的一步。”—— DeepMind 博客原文

无论你是开发者还是观察者,都值得关注这个方向的演进。有观点认为,computer use 将重塑人机交互范式:不再是我们教 AI 说话,而是 AI 替我们动手。

下一步,看看开源社区能做出什么有趣的衍生品吧。

Gemini 3.5 Flash计算机操作自动化AI操控电脑DeepMindGoogle AI新功能人机交互RPA视觉理解

分享

评论

0
0/500 字符

暂无评论

成为第一个评论的人

探索更多

开源项目

Activepieces: 开源 AI 工作流与 MCP 代理平台

Activepieces 是一个开源的工作流自动化平台,集成了 400+ MCP 服务器,支持 AI 代理和 AI 工作流的可视化编排。基于 TypeScript 构建,适合开发者和团队快速搭建智能自动化流程,降低 AI 应用的构建门槛。

Omnigent: 统一管理所有AI代理的元框架

Omnigent 是一个开源的元层框架,让你在Claude Code、Codex、Pi等AI代理间自由切换或组合,无需重复编写集成代码。支持策略控制、沙箱隔离和跨设备实时协作,2562颗Star的Python项目,适合需要多代理协作的开发团队。

Riona-AI-Agent: 轻量高效的AI任务执行代理

Riona-AI-Agent 是一个基于 Node.js 和 TypeScript 构建的开源 AI 代理,专注于轻量、高效的任务自动化执行。项目正处于活跃开发阶段,已获得超过 4200 颗星,适合希望快速集成 AI 工作流的开发者。

goclaw: 用 Go 重写 OpenClaw,安全部署 AI 代理团队

goclaw 是 OpenClaw 的 Go 语言实现,专为大规模安全部署多租户 AI 代理团队设计。它提供 5 层安全隔离、原生并发支持和极简部署体验,适合需要高安全与高并发的 AI 自动化场景。

agents: 用无代码可视化构建AI代理工作流

agents 是一个开源项目,提供无代码可视化构建器和TypeScript SDK,用于创建AI助手和多代理工作流。支持双向同步,可轻松部署生产级AI应用。适合开发者与非技术人员快速构建复杂AI代理逻辑。

Ralph Orchestrator: 用Rust重写AI代理编排技术

Ralph Orchestrator是经典Ralph Wiggum代理编排技术的改良实现,基于Rust语言构建,提供更高效、稳定的多AI代理协同能力。项目开源且社区活跃,适合对自主AI代理编排感兴趣的开发者。