大型語言模型在資料中心裡用KV-cache管理注意力可說是天作之合——請求短、批量大、隨時重置。但機器人領域的處境完全不同:一段任務可能持續數小時甚至數天,邊緣硬體上高頻寬記憶體稀缺,快閃記憶體寫入壽命有限,記憶體頻寬常常比算力更金貴。傳統的KV-cache在這種場景下會無限膨脹,很快把寶貴的記憶體吃幹抹淨。
換個思路:記憶不是越大越好
來自多所機構的聯合團隊在arXiv上發表了AURA-Mem(Action-Utility Recurrent Adaptive Memory),一種專為機器人策略設計的恆定VRAM記憶方案。其核心思想直截了當:不是所有的感知都值得被記住。只有那些足以改變下一個動作的觀測才需要寫進記憶,其餘的統統忽略。
AURA-Mem包裹在一個凍結的視覺-語言-動作(VLA)骨幹模型外部,內部採用一個常大小迴圈記憶模組和一個學習型門控單元。這個門控單元通過一個閉環動作誤差訊號直接訓練,而不是像傳統重構誤差那樣間接優化——它學會了判斷「當前觀測會不會導致動作變化」,只有判定為「會」時才將資訊寫入記憶。這與常見的基於重構的記憶(如自動編碼器)有本質區別:後者總會記住大量冗餘資訊,而AURA-Mem追求的是「知道何時該沉默」。
資料說話:VRAM從線性增長到恆定
實驗設定在一個模擬機器人操作任務上(Franka Emika機械臂操控物體),對比了標準KV-cache和AURA-Mem的VRAM消耗。結果非常直觀:
- KV-cache隨軌跡步數線性增長,在長度為2048步時消耗約6,061 MB的VRAM;
- AURA-Mem的推理狀態始終固定在4,224位元組(約4.1 KB),與軌跡長度完全無關。
這意味著,無論機器人執行10分鐘還是10小時,記憶佔用的視訊記憶體都紋絲不動。對於常見的邊緣裝置如NVIDIA Jetson Orin(視訊記憶體通常為8-16 GB),KV-cache在長任務中會很快佔滿,而AURA-Mem可以輕鬆騰出空間給其他計算。
不是魔法,是聰明的設計取捨
當然,固定大小記憶也意味著資訊壓縮會有損失。實驗顯示AURA-Mem在成功率上略低於無限記憶的KV-cache基線(約下降2-5個百分點),但考慮到VRAM節省超過1000倍,這點折衷在邊緣部署中是完全可以接受的。此外,由於門控機制是離線訓練的,凍結的VLA骨幹在推理時無需梯度,進一步降低了功耗。
團隊還指出,AURA-Mem的架構足夠通用,可以嵌入任何現有的機器人策略框架中——只需要將原始的VLA模型包一層這個「記憶外套」即可。未來工作可能會探索更精細的門控策略(比如分層門控)以及跨場景的泛化能力。
對於機器人硬體工程師和演算法研究者來說,AURA-Mem提供了一個非常務實的思路:與其無休止地堆記憶體,不如教模型忘記該忘記的東西。在邊緣計算資源受限的今天,這可能是讓機器人真正「跑起來」的關鍵拼圖。











評論
暫無評論
成為第一個評論的人