語言智慧體在web自動化任務中越來越依賴可複用的技能。過去的研究集中在讓智慧體從歷史軌跡中歸納技能,並在新任務中靜態呼叫——即根據初始指令鎖定一套技能,隨後全程固定。但web頁面的狀態是動態的,使用者的點選會觸發新元素、新表單、新彈窗,靜態技能集往往在關鍵步驟上失配。這種「先定技能再執行」的模式,在現實場景下短板明顯。
動態響應的必要性
設想一個智慧體正在填寫複雜的線上購物表單。一開始它可能檢索到「填寫地址」的技能,但提交後頁面彈出優惠碼輸入框——這一步初始技能集中幷包含。此時智慧體要麼卡住,要麼靠昂貴的大模型重新推理整個流程。卡內基梅隆大學和微軟研究院的研究者注意到了這一痛點,提出了SGDR (State-Grounded Dynamic Retrieval),一種線上技能學習方法,讓智慧體在每個步驟根據當前網頁狀態動態地檢索和複用技能。
SGDR的核心是三步流程:首先,通過滑動視窗提取從已完成的任務片段中拆解出原子級技能;其次,在執行時將當前網頁的DOM結構和任務目標聯合編碼,從技能庫中檢索最匹配的技能;最後,執行後將新技能反饋回庫中,形成持續學習閉環。這種「邊做邊學」的思路並不新鮮,但SGDR的創新在於將檢索粒度從「任務級」降至「步驟級」,且檢索條件中融合了實時頁面狀態。
對真實場景意味著什麼
這項工作的實際影響主要體現在兩個群體:自動化測試工程師和個人瀏覽器助手開發者。前者過去需要為每個頁面狀態手動編寫斷言,智慧體若具備動態技能複用能力,可以大幅降低測試指令碼的維護成本。後者則有望打造更靈活的助理——比如自動整理郵件報銷的指令碼,能應付不同網頁佈局的報銷表格,而不必為每種佈局單獨訓練。論文在Mind2Web和WebArena等基準上的實驗結果顯示,SGDR相比基線方法在任務成功率上提升超過8%,並且技能庫會隨著任務執行持續增長。
當然,SGDR並非萬能。動態檢索增加了每次決策的延遲,對實時性敏感的場景可能需快取優化。另外技能庫的質量高度依賴初始的提取演算法,噪聲軌跡可能引入不良技能。不過整體來看,這條「狀態接地」的思路為web智慧體落地提供了更務實的路線。
一些實用要點
- 重視頁面狀態編碼:SGDR依賴DOM結構作為接地訊號,網頁動態渲染框架(如React)下的複雜狀態可能需要預處理。
- 技能庫的視覺化:實際部署時,建議為積累的技能庫設計人機稽覈介面,過濾異常技能。
- 與現成框架結合:開發者可在Playwright或Puppeteer基礎上封裝SGDR邏輯,將技能庫持久化到向量資料庫。
SGDR的論文已在arxiv上公開,程式碼預計後續釋出。它不追求一步到位的全能智慧體,而是認真處理web自動化中「狀態變化」這個具體問題。這種腳踏實地的改進,比空談通用AI更值得關注。











評論
暫無評論
成為第一個評論的人