SGDR: 让Web智能体按需复用技能

Olivia Hughes

2026年6月5日

126

original

面向Web智能体的在线技能学习方法SGDR，通过状态接地动态检索实现逐步骤技能复用，弥补静态策略无法适应网页状态变化的缺陷。论文提出滑动窗口提取、状态感知检索等组件，在多个基准上验证有效性。

语言智能体在web自动化任务中越来越依赖可复用的技能。过去的研究集中在让智能体从历史轨迹中归纳技能，并在新任务中静态调用——即根据初始指令锁定一套技能，随后全程固定。但web页面的状态是动态的，用户的点击会触发新元素、新表单、新弹窗，静态技能集往往在关键步骤上失配。这种“先定技能再执行”的模式，在现实场景下短板明显。

动态响应的必要性

设想一个智能体正在填写复杂的在线购物表单。一开始它可能检索到“填写地址”的技能，但提交后页面弹出优惠码输入框——这一步初始技能集中并包含。此时智能体要么卡住，要么靠昂贵的大模型重新推理整个流程。卡内基梅隆大学和微软研究院的研究者注意到了这一痛点，提出了SGDR (State-Grounded Dynamic Retrieval)，一种在线技能学习方法，让智能体在每个步骤根据当前网页状态动态地检索和复用技能。

SGDR的核心是三步流程：首先，通过滑动窗口提取从已完成的任务片段中拆解出原子级技能；其次，在运行时将当前网页的DOM结构和任务目标联合编码，从技能库中检索最匹配的技能；最后，执行后将新技能反馈回库中，形成持续学习闭环。这种“边做边学”的思路并不新鲜，但SGDR的创新在于将检索粒度从“任务级”降至“步骤级”，且检索条件中融合了实时页面状态。

对真实场景意味着什么

这项工作的实际影响主要体现在两个群体：自动化测试工程师和个人浏览器助手开发者。前者过去需要为每个页面状态手动编写断言，智能体若具备动态技能复用能力，可以大幅降低测试脚本的维护成本。后者则有望打造更灵活的助理——比如自动整理邮件报销的脚本，能应付不同网页布局的报销表格，而不必为每种布局单独训练。论文在Mind2Web和WebArena等基准上的实验结果显示，SGDR相比基线方法在任务成功率上提升超过8%，并且技能库会随着任务执行持续增长。

当然，SGDR并非万能。动态检索增加了每次决策的延迟，对实时性敏感的场景可能需缓存优化。另外技能库的质量高度依赖初始的提取算法，噪声轨迹可能引入不良技能。不过整体来看，这条“状态接地”的思路为web智能体落地提供了更务实的路线。

一些实用要点

重视页面状态编码：SGDR依赖DOM结构作为接地信号，网页动态渲染框架（如React）下的复杂状态可能需要预处理。
技能库的可视化：实际部署时，建议为积累的技能库设计人机审核界面，过滤异常技能。
与现成框架结合：开发者可在Playwright或Puppeteer基础上封装SGDR逻辑，将技能库持久化到向量数据库。

SGDR的论文已在arxiv上公开，代码预计后续发布。它不追求一步到位的全能智能体，而是认真处理web自动化中“状态变化”这个具体问题。这种脚踏实地的改进，比空谈通用AI更值得关注。

SGDR在线技能学习Web智能体动态检索状态接地web自动化语言模型自动化测试

暂无评论

成为第一个评论的人

探索更多

相似工具

Cursor

一款基于 VS Code 二次开发的智能代码编辑器，以“原生内置 AI”为核心卖点。它不依赖插件，而是将 AI 深度植入编辑器底层，能够理解整个项目的上下文代码库，支持无缝迁移 VS Code 的所有配置和插件。

Google Antigravity

Antigravity 支持多模型，包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS，开发者可以在同一环境中选择最适合任务的模型。

Codex

OpenAI Codex 是由 OpenAI 开发的 AI 编程模型和助手，可将自然语言指令翻译成对应的源代码，为开发者提供智能补全、代码生成等功能。它最初于 2021 年作为 OpenAI API 的代码模型推出，曾为 GitHub Copilot 提供核心支持。随着 OpenAI 技术的迭代，Codex 在 2025 年以“AI 编程智能体”的全新姿态回归，能够理解复杂需求并自动编写、调试代码，显著提升开发效率和软件交付速度。

Kiro

Kiro 是由 AWS 推出的 AI 编程 IDE，采用规范驱动的开发模式，将自然语言需求转化为明确的规格文档和任务，再由内置 AI 代理生成代码并调试优化，全流程辅助大型项目开发。

Trae

Trae（官网 trae.ai）是由字节跳动（ByteDance）推出的一款 AI 原生集成开发环境（IDE）。它不是简单地作为一个编程助手，而是一个「协作伙伴」，通过深度整合大型语言模型（LLM），帮助开发者从需求、构建代码，到调试和部署，实现更智能化、自动化的软件开发。

Claude

Claude 是由美国人工智能公司 Anthropic 打造的智能语言交互平台，它融合了深度文本理解、信息整理、代码辅助和任务分析等能力，能在聊天对话之外应对更复杂的问题，例如长文摘要、图像解析、逻辑推理及编程协助等。相比一些单一问答机器人，Claude 更像一个具备推理逻辑、可扩展功能的智能工具。