Workflow
悟道系列大模型
icon
搜索文档
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]
对话智源研究院院长王仲远:人工智能正加速从数字世界走向物理世界
每日经济新闻· 2025-06-06 13:15
公司战略与产品发布 - 智源研究院在“2025智源大会”上发布“悟界”系列大模型,标志着公司从“悟道”时代进入“具身智能”探索阶段 [1] - 公司战略升级的根本逻辑是人工智能正加速从数字世界走向物理世界 [1] - “悟界”系列模型不仅强化推理能力,更尝试将AI从虚拟认知延伸至真实物理世界的感知与交互,其核心技术支点是“世界模型”的探索 [7] 行业趋势与技术演进 - 当前主流大模型多聚焦于C端文本生成、语言对话等“数字智能”场景,而行业正迈向与现实环境互动的“具身智能”阶段 [5][6] - 人工智能技术最终目标是帮助人类摆脱繁琐、重复的劳动,大模型技术应继续向现实世界渗透,服务实际场景 [6] - 具身智能被视为下一场AI竞赛的起点,目前尚处于“小组赛”阶段,远未到“淘汰赛”,率先跑通技术路径者或将定义人工智能的下一个十年 [5][8] 技术路径与核心挑战 - 公司对“世界模型”的理解是原生多模态模型,旨在通过单一模型捕捉包括物理规则和人际交互机制在内的世界规律 [7] - 具身智能发展的一个关键点是“大小脑协同框架”,即实现AI系统决策层与执行层的高效配合,公司推出的RoboOS操作系统是此方向的一次尝试 [9] - 当前技术远未成熟,核心挑战是数据受限,感知数据无法支撑统一模型的训练和泛化,限制了AI在多任务场景中的能力扩展 [10] - 具身智能面临“数据难题”,真实世界数据稀缺,影响了训练以及模型在感知层和决策层之间的协同能力 [10] 未来展望与突破路径 - 实现大小脑融合的模型可能需要五到十年,其发展路径是从专用任务过渡到具备泛化能力,最终成为通用系统,即AI从1.0迈向2.0的过程 [10] - 具身智能的突破或可借鉴“基础模型+强化学习”的技术路线,在大规模已有数据基础上进行预训练,再结合少量真实世界数据通过强化学习迭代 [10][11]