语言智能体在web自动化任务中越来越依赖可复用的技能。过去的研究集中在让智能体从历史轨迹中归纳技能,并在新任务中静态调用——即根据初始指令锁定一套技能,随后全程固定。但web页面的状态是动态的,用户的点击会触发新元素、新表单、新弹窗,静态技能集往往在关键步骤上失配。这种“先定技能再执行”的模式,在现实场景下短板明显。
动态响应的必要性
设想一个智能体正在填写复杂的在线购物表单。一开始它可能检索到“填写地址”的技能,但提交后页面弹出优惠码输入框——这一步初始技能集中并包含。此时智能体要么卡住,要么靠昂贵的大模型重新推理整个流程。卡内基梅隆大学和微软研究院的研究者注意到了这一痛点,提出了SGDR (State-Grounded Dynamic Retrieval),一种在线技能学习方法,让智能体在每个步骤根据当前网页状态动态地检索和复用技能。
SGDR的核心是三步流程:首先,通过滑动窗口提取从已完成的任务片段中拆解出原子级技能;其次,在运行时将当前网页的DOM结构和任务目标联合编码,从技能库中检索最匹配的技能;最后,执行后将新技能反馈回库中,形成持续学习闭环。这种“边做边学”的思路并不新鲜,但SGDR的创新在于将检索粒度从“任务级”降至“步骤级”,且检索条件中融合了实时页面状态。
对真实场景意味着什么
这项工作的实际影响主要体现在两个群体:自动化测试工程师和个人浏览器助手开发者。前者过去需要为每个页面状态手动编写断言,智能体若具备动态技能复用能力,可以大幅降低测试脚本的维护成本。后者则有望打造更灵活的助理——比如自动整理邮件报销的脚本,能应付不同网页布局的报销表格,而不必为每种布局单独训练。论文在Mind2Web和WebArena等基准上的实验结果显示,SGDR相比基线方法在任务成功率上提升超过8%,并且技能库会随着任务执行持续增长。
当然,SGDR并非万能。动态检索增加了每次决策的延迟,对实时性敏感的场景可能需缓存优化。另外技能库的质量高度依赖初始的提取算法,噪声轨迹可能引入不良技能。不过整体来看,这条“状态接地”的思路为web智能体落地提供了更务实的路线。
一些实用要点
- 重视页面状态编码:SGDR依赖DOM结构作为接地信号,网页动态渲染框架(如React)下的复杂状态可能需要预处理。
- 技能库的可视化:实际部署时,建议为积累的技能库设计人机审核界面,过滤异常技能。
- 与现成框架结合:开发者可在Playwright或Puppeteer基础上封装SGDR逻辑,将技能库持久化到向量数据库。
SGDR的论文已在arxiv上公开,代码预计后续发布。它不追求一步到位的全能智能体,而是认真处理web自动化中“状态变化”这个具体问题。这种脚踏实地的改进,比空谈通用AI更值得关注。











评论
暂无评论
成为第一个评论的人