RoboBrain

搜索文档
对话智源王仲远:具身智能“小组赛”才刚刚开打,机器人需要“安卓”而非 iOS
AI科技大本营· 2025-06-07 17:42
大模型发展瓶颈与突破方向 - 大语言模型性能提升速度明显放缓 主要受限于互联网数据使用瓶颈 [2] - 行业共识认为AI需要从"读万卷书"转向"行万里路" 即从虚拟数据走向物理世界交互 [2] - 英伟达CEO黄仁勋提出AI下半场方向是打造"AI工厂" 迎接"物理AI"时代 [2] - 智源研究院推出"悟界"系列 旨在突破虚拟与现实边界 相比早期"悟道"系列更注重物理世界交互 [2] 多模态与具身智能技术路线 - 大模型正从语言模型转向原生多模态世界模型 目标是实现AI对物理世界的感知与交互 [4] - 具身智能面临"循环悖论":硬件不成熟→数据稀缺→模型能力弱→商业化困难→无法反哺硬件 [6] - 破解方案包括利用互联网视频数据预训练 再通过有限真实机器人数据微调 类似人类学习模式 [9][11] - 关键能力突破在于时空智能 使AI不仅能识别物体还能预测物理交互后果 [11] 智源研究院的技术布局 - 推出四大核心技术:Emu3多模态模型 RoboOS/RoboBrain协作框架 Brainμ脑科学模型 OpenComplex2原子生命模型 [7] - 采用"安卓"式开放策略 打造通用具身智能平台而非专用系统 适配各类机器人硬件 [12][13] - 明确区分"大脑"(任务规划)与"小脑"(运动控制) 采用端云协同方案而非强行融合 [14] - 定位为做"高校做不了 企业不愿意做"的通用平台研发 填补产业空白 [12] 行业发展阶段与商业化前景 - 当前阶段类比大模型爆发前的探索期 技术路线尚未收敛 产业格局未定 [15] - 预测未来3年将率先在工厂等封闭场景落地 解决重复性危险劳动 [15] - 行业处于"小组赛"阶段 各类参与者带来不同视角 远未到淘汰赛时期 [15] - 长期来看需要5-10年才可能实现真正的大小脑融合模型 [14] 典型案例与学习范式 - 通过小女孩观察学习案例 验证视频数据+强化学习的技术路径可行性 [9] - 人类通过跨本体知识传递(如语言文字) 启发AI应具备类似通用能力 [12] - 当前AI缺乏时空感知能力 例如仅能描述杯子而无法预判跌落风险 [11]