空间表征

搜索文档
视频生成 vs 空间表征,世界模型该走哪条路?
机器之心· 2025-08-24 09:30
机器之心PRO · 会员通讯 Week 34 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1. 视频生成 vs 空间表征,世界模型该走哪条路? 视频预测生成的高质量画面,是否真的意味着模型理解了物理与因果规律?直接在潜在空间建模能否有效避免像素噪声干扰,同时保持决策与规划能力?混合路线是否能成为未来世界模型的 最优路径?随着生成模型和潜在表征技术的发展,AGI 的「思想实验沙盒」能否真正落地应用于物理世界任务?... 2. 抢天才还是拼算力?前 Llama 推理负责人详解 AI 的真实天花板 真正决定 AI 行业天花板的,是天才研究员的灵感,还是指数级增长的算力?如果算力增长放缓,AI 行业会否面临「增长乏力」的拐点?高阶概念想法,如果没有系统实验验证,能否真正推 动模型跃迁?模型泛化的天花板,到底靠升级模型,还是靠设计更高质量的新考题?... 本期完整版通讯含 2 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 8 项,国外方面 10 项。 本期通讯总计 20464 字,可免费试读至 9% 消耗 288 微信 ...
FindingDory:具身智能体记忆评估的基准测试
具身智能之心· 2025-06-22 18:56
研究背景与核心问题 - 长期记忆缺失是当前具身智能体的关键瓶颈,视觉语言模型(VLMs)在规划与控制任务中表现突出,但处理跨时空的多模态观察数据能力严重受限 [3] - 核心矛盾在于具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架 [3] 基准设计创新点 任务架构 - 动态环境交互与记忆推理验证相结合 [4] - 主流VLMs仅能处理数百张图像,远低于真实场景的千帧级输入需求 [5] - 现有视频QA基准依赖选择题形式,无法评估物体操纵/导航等需细粒度推理的具身任务 [5] - 传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 [5] 动态环境构建 - 脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生400-3500帧交互视频 [6] - 采用HSSD数据集的107个训练场景,物体资产来自AI2Thor/ABO等真实数据集 [6] 任务分类体系 - 60类任务覆盖时空语义三维记忆挑战,包括空间关系、时序推理、属性记忆和多目标回溯 [7] 关键技术创新 - 程序化扩展通过增加Pick-and-Place交互数量线性提升任务复杂度 [9] 实验结果与关键发现 VLM记忆能力缺陷 - 在60类任务上的测试揭示三大瓶颈:长时序推理失效、空间表征薄弱和多目标处理崩溃 [13][14][16] - GPT-4o在交互顺序任务成功率仅14.5%,Gemini-2.0无法跟踪持续时间 [18] - 容器类任务的SC-SR比HL-SR高32%,表明VLM能识别目标但无法精确定位 [19] - 所有VLM在无序重访任务成功率接近0%,监督微调模型(Qwen-SFT)仅达20% [19] 高层规划与底层执行的割裂 - 高层VLM正确选择目标帧时,底层导航策略成功率仍下降40% [24] - 原生VLM(Gemini/GPT-4o)性能随帧数增加而下降,暴露长上下文无效利用 [20] - 监督微调模型(Qwen-SFT)能利用更长历史提升表现,验证定向训练的有效性 [25] 贡献与未来方向 核心贡献 - 首个光真实感具身记忆基准,60类任务覆盖复杂家庭环境 [26] - 可扩展评估框架和细粒度诊断工具(HL-SR/LL-SPL等指标) [26] 未来展望 - 记忆压缩技术和端到端联合训练是未来发展方向 [26] - 基准可生成监督数据,推动视频QA技术发展 [26]