对话智源研究院院长王仲远：AI正加速从数字世界走向物理世界

AI技术发展趋势 - AI技术从数字世界加速向物理世界转化，重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈，强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍"，将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型，以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型，包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解，而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著，因其更易融入社会基础设施且利于模型训练，但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集，数据稀缺制约模型进化"的循环困局，可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域，因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练，预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足，未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段，类似GPT-3前的探索期，面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域，类比移动互联网APP，基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家，未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系，如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线，具身智能仍需突破技术路线共识和产业落地障碍[5][6]