AURA-Mem: 为机器人策略设计的恒定VRAM记忆机制

AURA-Mem: 为机器人策略设计的恒定VRAM记忆机制

SoFarBot 编辑
1
original

针对机器人边缘设备上长时运行策略的KV-cache内存爆炸问题,AURA-Mem提出了一种恒定大小(仅4224字节)的循环记忆与门控机制,只在影响动作时写入,将VRAM占用固定化,避免了传统KV-cache随序列长度线性增长的限制。

大型语言模型在数据中心里用KV-cache管理注意力可说是天作之合——请求短、批量大、随时重置。但机器人领域的处境完全不同:一段任务可能持续数小时甚至数天,边缘硬件上高带宽内存稀缺,闪存写入寿命有限,内存带宽常常比算力更金贵。传统的KV-cache在这种场景下会无限膨胀,很快把宝贵的内存吃干抹净。

换个思路:记忆不是越大越好

来自多所机构的联合团队在arXiv上发表了AURA-Mem(Action-Utility Recurrent Adaptive Memory),一种专为机器人策略设计的恒定VRAM记忆方案。其核心思想直截了当:不是所有的感知都值得被记住。只有那些足以改变下一个动作的观测才需要写进记忆,其余的统统忽略。

AURA-Mem包裹在一个冻结的视觉-语言-动作(VLA)骨干模型外部,内部采用一个常大小循环记忆模块和一个学习型门控单元。这个门控单元通过一个闭环动作误差信号直接训练,而不是像传统重构误差那样间接优化——它学会了判断“当前观测会不会导致动作变化”,只有判定为“会”时才将信息写入记忆。这与常见的基于重构的记忆(如自动编码器)有本质区别:后者总会记住大量冗余信息,而AURA-Mem追求的是“知道何时该沉默”。

数据说话:VRAM从线性增长到恒定

实验设置在一个模拟机器人操作任务上(Franka Emika机械臂操控物体),对比了标准KV-cache和AURA-Mem的VRAM消耗。结果非常直观:

  • KV-cache随轨迹步数线性增长,在长度为2048步时消耗约6,061 MB的VRAM;
  • AURA-Mem的推理状态始终固定在4,224字节(约4.1 KB),与轨迹长度完全无关。

这意味着,无论机器人运行10分钟还是10小时,记忆占用的显存都纹丝不动。对于常见的边缘设备如NVIDIA Jetson Orin(显存通常为8-16 GB),KV-cache在长任务中会很快占满,而AURA-Mem可以轻松腾出空间给其他计算。

不是魔法,是聪明的设计取舍

当然,固定大小记忆也意味着信息压缩会有损失。实验显示AURA-Mem在成功率上略低于无限记忆的KV-cache基线(约下降2-5个百分点),但考虑到VRAM节省超过1000倍,这点折衷在边缘部署中是完全可以接受的。此外,由于门控机制是离线训练的,冻结的VLA骨干在推理时无需梯度,进一步降低了功耗。

团队还指出,AURA-Mem的架构足够通用,可以嵌入任何现有的机器人策略框架中——只需要将原始的VLA模型包一层这个“记忆外套”即可。未来工作可能会探索更精细的门控策略(比如分层门控)以及跨场景的泛化能力。

对于机器人硬件工程师和算法研究者来说,AURA-Mem提供了一个非常务实的思路:与其无休止地堆内存,不如教模型忘记该忘记的东西。在边缘计算资源受限的今天,这可能是让机器人真正“跑起来”的关键拼图。

AURA-Mem机器人策略恒定VRAMKV-cache循环记忆门控机制边缘AI机器人操作

分享

评论

0
0/500 字符

暂无评论

成为第一个评论的人

探索更多

开源项目

ValueCell: 社区驱动多智能体金融投研平台

ValueCell 是一个以社区为驱动的、多智能体系统平台,专注于金融领域的应用。它旨在将多个智能体(如市场分析、情绪分析、新闻分析、基本面分析等)组合协作,形成一种“智能投研团队”机制,为用户提供统一的投资组合管理、风险监控与策略开发。

AIRI: 自托管虚拟角色数字伴侣

AIRI 是一个面向自托管的虚拟角色 / 数字伴侣项目,具有语音、对话、游戏代理等能力

Open-AutoGLM: 手机屏幕自动操作代理

Open-AutoGLM 是由智谱科技(Zhipu AI)开源的一套 手机智能代理框架和模型,核心目标是让 AI 不仅具备对话能力,更能 自动理解手机屏幕内容并完成真实操作。与传统只能“说话”的大模型不同,AutoGLM 能够将自然语言指令转化为实际操作,例如自动打开 App、点击按钮、输入信息、执行一系列跨应用任务等。

Kronos: BTC/USDT 24小时概率预测

项目提供了一个 Web Demo,可以展示 BTC/USDT 在未来 24 小时的预测(概率 / 区间)效果

Skyvern: 开源自然语言浏览器自动化

Skyvern 是一款结合大型语言模型和计算机视觉的开源浏览器自动化工具,通过自然语言指令即可执行跨网站的复杂操作流程,免去为每个网站单独编写脚本,可适应页面布局变化,擅长表单填写、数据抓取等繁琐任务。

Lean: 成熟事件驱动算法交易引擎

Lean 是一个以代码驱动的算法交易引擎,它的成熟程度和功能复杂度都远超一般的回测框架。与很多轻量级量化库不同,Lean 更像是一套“底层引擎”,负责把你写的交易策略,按照金融市场的真实节奏执行,进行历史回测、实时交易以及实盘部署等任务。核心架构采用事件驱动设计,用模块化方式组织各个子系统,你可以按需定制或替换其中任何部分。