AURA-Mem: 為機器人策略設計的恆定VRAM記憶機制

AURA-Mem: 為機器人策略設計的恆定VRAM記憶機制

SoFarBot 编辑
1
original

針對機器人邊緣裝置上長時執行策略的KV-cache記憶體爆炸問題,AURA-Mem提出了一種恆定大小(僅4224位元組)的迴圈記憶與門控機制,只在影響動作時寫入,將VRAM佔用固定化,避免了傳統KV-cache隨序列長度線性增長的限制。

大型語言模型在資料中心裡用KV-cache管理注意力可說是天作之合——請求短、批量大、隨時重置。但機器人領域的處境完全不同:一段任務可能持續數小時甚至數天,邊緣硬體上高頻寬記憶體稀缺,快閃記憶體寫入壽命有限,記憶體頻寬常常比算力更金貴。傳統的KV-cache在這種場景下會無限膨脹,很快把寶貴的記憶體吃幹抹淨。

換個思路:記憶不是越大越好

來自多所機構的聯合團隊在arXiv上發表了AURA-Mem(Action-Utility Recurrent Adaptive Memory),一種專為機器人策略設計的恆定VRAM記憶方案。其核心思想直截了當:不是所有的感知都值得被記住。只有那些足以改變下一個動作的觀測才需要寫進記憶,其餘的統統忽略。

AURA-Mem包裹在一個凍結的視覺-語言-動作(VLA)骨幹模型外部,內部採用一個常大小迴圈記憶模組和一個學習型門控單元。這個門控單元通過一個閉環動作誤差訊號直接訓練,而不是像傳統重構誤差那樣間接優化——它學會了判斷「當前觀測會不會導致動作變化」,只有判定為「會」時才將資訊寫入記憶。這與常見的基於重構的記憶(如自動編碼器)有本質區別:後者總會記住大量冗餘資訊,而AURA-Mem追求的是「知道何時該沉默」。

資料說話:VRAM從線性增長到恆定

實驗設定在一個模擬機器人操作任務上(Franka Emika機械臂操控物體),對比了標準KV-cache和AURA-Mem的VRAM消耗。結果非常直觀:

  • KV-cache隨軌跡步數線性增長,在長度為2048步時消耗約6,061 MB的VRAM;
  • AURA-Mem的推理狀態始終固定在4,224位元組(約4.1 KB),與軌跡長度完全無關。

這意味著,無論機器人執行10分鐘還是10小時,記憶佔用的視訊記憶體都紋絲不動。對於常見的邊緣裝置如NVIDIA Jetson Orin(視訊記憶體通常為8-16 GB),KV-cache在長任務中會很快佔滿,而AURA-Mem可以輕鬆騰出空間給其他計算。

不是魔法,是聰明的設計取捨

當然,固定大小記憶也意味著資訊壓縮會有損失。實驗顯示AURA-Mem在成功率上略低於無限記憶的KV-cache基線(約下降2-5個百分點),但考慮到VRAM節省超過1000倍,這點折衷在邊緣部署中是完全可以接受的。此外,由於門控機制是離線訓練的,凍結的VLA骨幹在推理時無需梯度,進一步降低了功耗。

團隊還指出,AURA-Mem的架構足夠通用,可以嵌入任何現有的機器人策略框架中——只需要將原始的VLA模型包一層這個「記憶外套」即可。未來工作可能會探索更精細的門控策略(比如分層門控)以及跨場景的泛化能力。

對於機器人硬體工程師和演算法研究者來說,AURA-Mem提供了一個非常務實的思路:與其無休止地堆記憶體,不如教模型忘記該忘記的東西。在邊緣計算資源受限的今天,這可能是讓機器人真正「跑起來」的關鍵拼圖。

AURA-Mem機器人策略恆定VRAMKV-cache迴圈記憶門控機制邊緣AI機器人操作

分享

評論

0
0/500 字元

暫無評論

成為第一個評論的人

探索更多

開源專案

ValueCell: 社羣驅動多智慧體金融投研平臺

ValueCell 是一個以社羣為驅動的、多智慧體系統平臺,專注於金融領域的應用。它旨在將多個智慧體(如市場分析、情緒分析、新聞分析、基本面分析等)組合協作,形成一種「智慧投研團隊」機制,為使用者提供統一的投資組合管理、風險監控與策略開發。

AIRI: 自託管虛擬角色數字伴侶

AIRI 是一個面向自託管的虛擬角色 / 數字伴侶專案,具有語音、對話、遊戲代理等能力

Open-AutoGLM: 手機螢幕自動操作代理

Open-AutoGLM 是由智譜科技(Zhipu AI)開源的一套 手機智慧代理框架和模型,核心目標是讓 AI 不僅具備對話能力,更能 自動理解手機螢幕內容並完成真實操作。與傳統只能「說話」的大模型不同,AutoGLM 能夠將自然語言指令轉化為實際操作,例如自動開啟 App、點選按鈕、輸入資訊、執行一系列跨應用任務等。

Kronos: BTC/USDT 24小時概率預測

專案提供了一個 Web Demo,可以展示 BTC/USDT 在未來 24 小時的預測(概率 / 區間)效果

Skyvern: 開源自然語言瀏覽器自動化

Skyvern 是一款結合大型語言模型和計算機視覺的開源瀏覽器自動化工具,通過自然語言指令即可執行跨網站的複雜操作流程,免去為每個網站單獨編寫指令碼,可適應頁面佈局變化,擅長表單填寫、資料抓取等繁瑣任務。

Lean: 成熟事件驅動演算法交易引擎

Lean 是一個以程式碼驅動的演算法交易引擎,它的成熟程度和功能複雜度都遠超一般的回測框架。與很多輕量級量化庫不同,Lean 更像是一套「底層引擎」,負責把你寫的交易策略,按照金融市場的真實節奏執行,進行歷史回測、實時交易以及實盤部署等任務。核心架構採用事件驅動設計,用模組化方式組織各個子系統,你可以按需定製或替換其中任何部分。