SGDR: 讓Web智慧體按需複用技能

SGDR: 讓Web智慧體按需複用技能

Olivia Hughes
106
original

面向Web智慧體的線上技能學習方法SGDR,通過狀態接地動態檢索實現逐步驟技能複用,彌補靜態策略無法適應網頁狀態變化的缺陷。論文提出滑動視窗提取、狀態感知檢索等元件,在多個基準上驗證有效性。

語言智慧體在web自動化任務中越來越依賴可複用的技能。過去的研究集中在讓智慧體從歷史軌跡中歸納技能,並在新任務中靜態呼叫——即根據初始指令鎖定一套技能,隨後全程固定。但web頁面的狀態是動態的,使用者的點選會觸發新元素、新表單、新彈窗,靜態技能集往往在關鍵步驟上失配。這種「先定技能再執行」的模式,在現實場景下短板明顯。

動態響應的必要性

設想一個智慧體正在填寫複雜的線上購物表單。一開始它可能檢索到「填寫地址」的技能,但提交後頁面彈出優惠碼輸入框——這一步初始技能集中幷包含。此時智慧體要麼卡住,要麼靠昂貴的大模型重新推理整個流程。卡內基梅隆大學和微軟研究院的研究者注意到了這一痛點,提出了SGDR (State-Grounded Dynamic Retrieval),一種線上技能學習方法,讓智慧體在每個步驟根據當前網頁狀態動態地檢索和複用技能。

SGDR的核心是三步流程:首先,通過滑動視窗提取從已完成的任務片段中拆解出原子級技能;其次,在執行時將當前網頁的DOM結構和任務目標聯合編碼,從技能庫中檢索最匹配的技能;最後,執行後將新技能反饋回庫中,形成持續學習閉環。這種「邊做邊學」的思路並不新鮮,但SGDR的創新在於將檢索粒度從「任務級」降至「步驟級」,且檢索條件中融合了實時頁面狀態。

對真實場景意味著什麼

這項工作的實際影響主要體現在兩個群體:自動化測試工程師個人瀏覽器助手開發者。前者過去需要為每個頁面狀態手動編寫斷言,智慧體若具備動態技能複用能力,可以大幅降低測試指令碼的維護成本。後者則有望打造更靈活的助理——比如自動整理郵件報銷的指令碼,能應付不同網頁佈局的報銷表格,而不必為每種佈局單獨訓練。論文在Mind2Web和WebArena等基準上的實驗結果顯示,SGDR相比基線方法在任務成功率上提升超過8%,並且技能庫會隨著任務執行持續增長。

當然,SGDR並非萬能。動態檢索增加了每次決策的延遲,對實時性敏感的場景可能需快取優化。另外技能庫的質量高度依賴初始的提取演算法,噪聲軌跡可能引入不良技能。不過整體來看,這條「狀態接地」的思路為web智慧體落地提供了更務實的路線。

一些實用要點

  • 重視頁面狀態編碼:SGDR依賴DOM結構作為接地訊號,網頁動態渲染框架(如React)下的複雜狀態可能需要預處理。
  • 技能庫的視覺化:實際部署時,建議為積累的技能庫設計人機稽覈介面,過濾異常技能。
  • 與現成框架結合:開發者可在Playwright或Puppeteer基礎上封裝SGDR邏輯,將技能庫持久化到向量資料庫。

SGDR的論文已在arxiv上公開,程式碼預計後續釋出。它不追求一步到位的全能智慧體,而是認真處理web自動化中「狀態變化」這個具體問題。這種腳踏實地的改進,比空談通用AI更值得關注。

SGDR線上技能學習Web智慧體動態檢索狀態接地web自動化語言模型自動化測試

分享

評論

0
0/500 字元

暫無評論

成為第一個評論的人

探索更多

相似工具

Cursor

Cursor

一款基於 VS Code 二次開發的智慧程式碼編輯器,以「原生內建 AI」為核心賣點。它不依賴外掛,而是將 AI 深度植入編輯器底層,能夠理解整個專案的上下文程式碼庫,支援無縫遷移 VS Code 的所有配置和外掛。

Google Antigravity

Google Antigravity

Antigravity 支援多模型,包括 Gemini 3 Pro、Claude Sonnet 4.5、GPT-OSS,開發者可以在同一環境中選擇最適合任務的模型。

Codex

Codex

OpenAI Codex 是由 OpenAI 開發的 AI 程式設計模型和助手,可將自然語言指令翻譯成對應的原始碼,為開發者提供智慧補全、程式碼生成等功能。它最初於 2021 年作為 OpenAI API 的程式碼模型推出,曾為 GitHub Copilot 提供核心支援。隨著 OpenAI 技術的迭代,Codex 在 2025 年以「AI 程式設計智慧體」的全新姿態迴歸,能夠理解複雜需求並自動編寫、除錯程式碼,顯著提升開發效率和軟體交付速度。

Kiro

Kiro

Kiro 是由 AWS 推出的 AI 程式設計 IDE,採用規範驅動的開發模式,將自然語言需求轉化為明確的規格文件和任務,再由內建 AI 代理生成程式碼並除錯優化,全流程輔助大型專案開發。

Trae

Trae

Trae(官網 trae.ai)是由 位元組跳動(ByteDance)推出的一款 AI 原生整合開發環境(IDE)。它不是簡單地作為一個程式設計助手,而是一個「協作夥伴」,通過深度整合大型語言模型(LLM),幫助開發者從需求、構建程式碼,到除錯和部署,實現更智慧化、自動化的軟體開發。

Claude

Claude

Claude 是由美國人工智慧公司 Anthropic 打造的智慧語言互動平臺,它融合了深度文字理解、資訊整理、程式碼輔助和任務分析等能力,能在聊天對話之外應對更復雜的問題,例如長文摘要、影象解析、邏輯推理及程式設計協助等。相比一些單一問答機器人,Claude 更像一個具備推理邏輯、可擴充套件功能的智慧工具。

開源專案

go-micro: 為 AI 智慧體打造的 Go 微服務框架

go-micro 是一個用 Go 語言編寫的微服務框架,專門為構建 AI 智慧體而設計。它提供服務發現、負載均衡、訊息編碼、事件驅動等核心能力,讓開發者能快速搭建可擴充套件的分散式 AI 系統。GitHub 星標超 2.2 萬,社羣活躍,適合 Go 語言開發者入門微服務和 AI agent 架構。

mcp-use: 全棧 MCP 框架,為 AI Agent 開發簡化流程

mcp-use 是一個開源的 TypeScript 框架,用於構建 MCP(Model Context Protocol)應用和伺服器,支援 ChatGPT、Claude 等 AI 助手和 Agent。它提供了完整的工具鏈,讓開發者能快速建立多步驟對話、工具呼叫和上下文管理,大幅降低 MCP 開發門檻。

Vibecraft: 3D視覺化Claude多工編排

Vibecraft 是一款專為 Anthropic 的 Claude Code 打造的 3D 視覺化與多工編排工具。通俗點說,如果你覺得在黑乎乎的終端裡盯著 AI 敲程式碼太枯燥,Vibecraft 就能幫你把這些後臺程序變成 3D 場景裡的「小助手」。它通過 Web 介面和 3D 模型,讓你能同時開啟多個 Claude 例項,並像玩模擬經營遊戲一樣,實時看到每個 AI 助手正在幹什麼——是正在思考、正在重構程式碼,還是遇到了報錯。

DeepWiki: 開原始碼庫轉互動式Wiki工具

DeepWiki-Open 是一個開源工具,旨在讓開發者 輕鬆將任意程式碼庫轉成互動式 Wiki 文件。它自動克隆倉庫、分析程式碼結構、用 AI 為每個模組生成可讀文件,還能畫出架構圖,並讓使用者通過對話 (聊天介面) 提問程式碼庫的問題。

Spec Kit: 開源規格驅動開發工具包

由 GitHub 開源的一套工具包和流程,用於將「規格 (specification)」作為軟體開發的核心,從而推動規範化、可複用、明確意圖的軟體開發方式(「規格驅動開發」)

OpenCode: 零門檻AI程式設計助手,整合Shell讀懂終端

OpenCode 是一款能直接讀懂你終端上下文的 AI 程式設計助手。它最大的殺手鐗在於「零門檻」——內建了免費使用的 LLM 模型,且能通過 ohmy 外掛深度整合到 Shell 中。它不僅能寫程式碼,還能像不知疲倦的結對程式設計夥伴一樣,幫你修正輸錯的命令、解釋報錯日誌,甚至直接根據你的終端歷史操作來生成後續程式碼。