RoboBrain
搜索文档
VLA的基础模型与大规模训练任务汇总
具身智能之心· 2025-10-08 10:49
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 今天为大家汇总一下有关 VLA的基础模型与大规模训练任务相关的几篇文章,按照发表年份来排序,后续持续更新中....... Training strategies for efficient embodied reasoning 论文时间:2025 论文链接:https://arxiv.org/abs/2505.08243 RoboBrain: A unified brain model for robotic manipulation from abstract to concrete 论文时间:2025 论文链接:https://arxiv.org/abs/2502.21257 近年来,多模态大语言模型在多模态上下文处理中展现出卓越的能力。然而,它们在机器人场景中的应用,特别是对于长周期操作任务,显示出显著的局限性。这 些局限性源于当前MLLMs ...
对话智源王仲远:具身智能“小组赛”才刚刚开打,机器人需要“安卓”而非 iOS
AI科技大本营· 2025-06-07 17:42
大模型发展瓶颈与突破方向 - 大语言模型性能提升速度明显放缓 主要受限于互联网数据使用瓶颈 [2] - 行业共识认为AI需要从"读万卷书"转向"行万里路" 即从虚拟数据走向物理世界交互 [2] - 英伟达CEO黄仁勋提出AI下半场方向是打造"AI工厂" 迎接"物理AI"时代 [2] - 智源研究院推出"悟界"系列 旨在突破虚拟与现实边界 相比早期"悟道"系列更注重物理世界交互 [2] 多模态与具身智能技术路线 - 大模型正从语言模型转向原生多模态世界模型 目标是实现AI对物理世界的感知与交互 [4] - 具身智能面临"循环悖论":硬件不成熟→数据稀缺→模型能力弱→商业化困难→无法反哺硬件 [6] - 破解方案包括利用互联网视频数据预训练 再通过有限真实机器人数据微调 类似人类学习模式 [9][11] - 关键能力突破在于时空智能 使AI不仅能识别物体还能预测物理交互后果 [11] 智源研究院的技术布局 - 推出四大核心技术:Emu3多模态模型 RoboOS/RoboBrain协作框架 Brainμ脑科学模型 OpenComplex2原子生命模型 [7] - 采用"安卓"式开放策略 打造通用具身智能平台而非专用系统 适配各类机器人硬件 [12][13] - 明确区分"大脑"(任务规划)与"小脑"(运动控制) 采用端云协同方案而非强行融合 [14] - 定位为做"高校做不了 企业不愿意做"的通用平台研发 填补产业空白 [12] 行业发展阶段与商业化前景 - 当前阶段类比大模型爆发前的探索期 技术路线尚未收敛 产业格局未定 [15] - 预测未来3年将率先在工厂等封闭场景落地 解决重复性危险劳动 [15] - 行业处于"小组赛"阶段 各类参与者带来不同视角 远未到淘汰赛时期 [15] - 长期来看需要5-10年才可能实现真正的大小脑融合模型 [14] 典型案例与学习范式 - 通过小女孩观察学习案例 验证视频数据+强化学习的技术路径可行性 [9] - 人类通过跨本体知识传递(如语言文字) 启发AI应具备类似通用能力 [12] - 当前AI缺乏时空感知能力 例如仅能描述杯子而无法预判跌落风险 [11]