SGDR: 让Web智能体按需复用技能

SGDR: 让Web智能体按需复用技能

Olivia Hughes
106
original

面向Web智能体的在线技能学习方法SGDR,通过状态接地动态检索实现逐步骤技能复用,弥补静态策略无法适应网页状态变化的缺陷。论文提出滑动窗口提取、状态感知检索等组件,在多个基准上验证有效性。

语言智能体在web自动化任务中越来越依赖可复用的技能。过去的研究集中在让智能体从历史轨迹中归纳技能,并在新任务中静态调用——即根据初始指令锁定一套技能,随后全程固定。但web页面的状态是动态的,用户的点击会触发新元素、新表单、新弹窗,静态技能集往往在关键步骤上失配。这种“先定技能再执行”的模式,在现实场景下短板明显。

动态响应的必要性

设想一个智能体正在填写复杂的在线购物表单。一开始它可能检索到“填写地址”的技能,但提交后页面弹出优惠码输入框——这一步初始技能集中并包含。此时智能体要么卡住,要么靠昂贵的大模型重新推理整个流程。卡内基梅隆大学和微软研究院的研究者注意到了这一痛点,提出了SGDR (State-Grounded Dynamic Retrieval),一种在线技能学习方法,让智能体在每个步骤根据当前网页状态动态地检索和复用技能。

SGDR的核心是三步流程:首先,通过滑动窗口提取从已完成的任务片段中拆解出原子级技能;其次,在运行时将当前网页的DOM结构和任务目标联合编码,从技能库中检索最匹配的技能;最后,执行后将新技能反馈回库中,形成持续学习闭环。这种“边做边学”的思路并不新鲜,但SGDR的创新在于将检索粒度从“任务级”降至“步骤级”,且检索条件中融合了实时页面状态。

对真实场景意味着什么

这项工作的实际影响主要体现在两个群体:自动化测试工程师个人浏览器助手开发者。前者过去需要为每个页面状态手动编写断言,智能体若具备动态技能复用能力,可以大幅降低测试脚本的维护成本。后者则有望打造更灵活的助理——比如自动整理邮件报销的脚本,能应付不同网页布局的报销表格,而不必为每种布局单独训练。论文在Mind2Web和WebArena等基准上的实验结果显示,SGDR相比基线方法在任务成功率上提升超过8%,并且技能库会随着任务执行持续增长。

当然,SGDR并非万能。动态检索增加了每次决策的延迟,对实时性敏感的场景可能需缓存优化。另外技能库的质量高度依赖初始的提取算法,噪声轨迹可能引入不良技能。不过整体来看,这条“状态接地”的思路为web智能体落地提供了更务实的路线。

一些实用要点

  • 重视页面状态编码:SGDR依赖DOM结构作为接地信号,网页动态渲染框架(如React)下的复杂状态可能需要预处理。
  • 技能库的可视化:实际部署时,建议为积累的技能库设计人机审核界面,过滤异常技能。
  • 与现成框架结合:开发者可在Playwright或Puppeteer基础上封装SGDR逻辑,将技能库持久化到向量数据库。

SGDR的论文已在arxiv上公开,代码预计后续发布。它不追求一步到位的全能智能体,而是认真处理web自动化中“状态变化”这个具体问题。这种脚踏实地的改进,比空谈通用AI更值得关注。

SGDR在线技能学习Web智能体动态检索状态接地web自动化语言模型自动化测试

分享

评论

0
0/500 字符

暂无评论

成为第一个评论的人

探索更多

相似工具

Cursor

Cursor

一款基于 VS Code 二次开发的智能代码编辑器,以“原生内置 AI”为核心卖点。它不依赖插件,而是将 AI 深度植入编辑器底层,能够理解整个项目的上下文代码库,支持无缝迁移 VS Code 的所有配置和插件。

Google Antigravity

Google Antigravity

Antigravity 支持多模型,包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS,开发者可以在同一环境中选择最适合任务的模型。

Codex

Codex

OpenAI Codex 是由 OpenAI 开发的 AI 编程模型和助手,可将自然语言指令翻译成对应的源代码,为开发者提供智能补全、代码生成等功能。它最初于 2021 年作为 OpenAI API 的代码模型推出,曾为 GitHub Copilot 提供核心支持。随着 OpenAI 技术的迭代,Codex 在 2025 年以“AI 编程智能体”的全新姿态回归,能够理解复杂需求并自动编写、调试代码,显著提升开发效率和软件交付速度。

Kiro

Kiro

Kiro 是由 AWS 推出的 AI 编程 IDE,采用规范驱动的开发模式,将自然语言需求转化为明确的规格文档和任务,再由内置 AI 代理生成代码并调试优化,全流程辅助大型项目开发。

Trae

Trae

Trae(官网 trae.ai)是由 字节跳动(ByteDance)推出的一款 AI 原生集成开发环境(IDE)。它不是简单地作为一个编程助手,而是一个「协作伙伴」,通过深度整合大型语言模型(LLM),帮助开发者从需求、构建代码,到调试和部署,实现更智能化、自动化的软件开发。

Claude

Claude

Claude 是由美国人工智能公司 Anthropic 打造的智能语言交互平台,它融合了深度文本理解、信息整理、代码辅助和任务分析等能力,能在聊天对话之外应对更复杂的问题,例如长文摘要、图像解析、逻辑推理及编程协助等。相比一些单一问答机器人,Claude 更像一个具备推理逻辑、可扩展功能的智能工具。

开源项目

go-micro: 为 AI 智能体打造的 Go 微服务框架

go-micro 是一个用 Go 语言编写的微服务框架,专门为构建 AI 智能体而设计。它提供服务发现、负载均衡、消息编码、事件驱动等核心能力,让开发者能快速搭建可扩展的分布式 AI 系统。GitHub 星标超 2.2 万,社区活跃,适合 Go 语言开发者入门微服务和 AI agent 架构。

mcp-use: 全栈 MCP 框架,为 AI Agent 开发简化流程

mcp-use 是一个开源的 TypeScript 框架,用于构建 MCP(Model Context Protocol)应用和服务器,支持 ChatGPT、Claude 等 AI 助手和 Agent。它提供了完整的工具链,让开发者能快速创建多步骤对话、工具调用和上下文管理,大幅降低 MCP 开发门槛。

Vibecraft: 3D可视化Claude多任务编排

Vibecraft 是一款专为 Anthropic 的 Claude Code 打造的 3D 可视化与多任务编排工具。通俗点说,如果你觉得在黑乎乎的终端里盯着 AI 敲代码太枯燥,Vibecraft 就能帮你把这些后台进程变成 3D 场景里的“小助手”。它通过 Web 界面和 3D 模型,让你能同时开启多个 Claude 实例,并像玩模拟经营游戏一样,实时看到每个 AI 助手正在干什么——是正在思考、正在重构代码,还是遇到了报错。

DeepWiki: 开源代码库转交互式Wiki工具

DeepWiki-Open 是一个开源工具,旨在让开发者 轻松将任意代码库转成交互式 Wiki 文档。它自动克隆仓库、分析代码结构、用 AI 为每个模块生成可读文档,还能画出架构图,并让用户通过对话 (聊天界面) 提问代码库的问题。

Spec Kit: 开源规格驱动开发工具包

由 GitHub 开源的一套工具包和流程,用于将“规格 (specification)”作为软件开发的核心,从而推动规范化、可复用、明确意图的软件开发方式(“规格驱动开发”)

OpenCode: 零门槛AI编程助手,集成Shell读懂终端

OpenCode 是一款能直接读懂你终端上下文的 AI 编程助手。它最大的杀手锏在于“零门槛”——内置了免费使用的 LLM 模型,且能通过 ohmy 插件深度集成到 Shell 中。它不仅能写代码,还能像不知疲倦的结对编程伙伴一样,帮你修正输错的命令、解释报错日志,甚至直接根据你的终端历史操作来生成后续代码。