Workflow
能讲PPT、懂指令!商汤“悟能”平台让机器人“玩转”现实世界|聚焦世界人工智能大会
国际金融报·2025-07-28 03:20

AI演进路径 - AI发展已实现从感知智能到生成式智能的跨越,下一阶段突破取决于AI能否主动探索并交互现实世界 [1] - 人类智能源于与物理世界的持续互动,而机器智能长期受制于人类知识供给的有限性 [3] - 当前自然语言数据或将于2027至2028年耗尽,视觉数据虽丰富但难以有效提炼知识 [3] 技术发展历程 - 2011年至2012年,以CNN、ResNet为代表的深度学习算法推动感知AI爆发式发展,但依赖人工标注数据,泛化能力受限 [3] - 2017至2018年,Transformer架构兴起使AI具备从自然语言中提取知识的能力 [3] - GPT-3处理的文本量相当于人类十万年的创作积累,自然语言的高知识密度赋予模型强大泛化与通用能力 [3] 数据与算力挑战 - 视觉数据产生速度远落后于算力增长速度,导致模型数据需求出现"倒挂" [3] - 机器人及具身智能的潜在瓶颈是对高质量交互数据的巨大需求 [3] - 真实环境交互成本极高,传统模拟器解决方案存在"模拟与现实差距"问题 [4] 商汤科技解决方案 - 推出"开悟"世界模型,考虑时间、空间一致性,为AI训练提供高质量模拟数据 [4] - 发布"悟能"具身智能平台,以具身世界模型为核心引擎,提供端侧和云侧算力支持 [6] - "悟能"平台可赋能机器人等终端硬件,实现感知理解能力并支持嵌入端侧芯片 [6] 具身智能应用场景 - 具身世界模型可生成多视角视频,确保时间与空间一致性,实现真实世界交互 [8] - 能构建面向人、物、场的4D真实世界,根据简单提示词自主生成位姿、动作骨架和指令 [8] - 现场展示搭载具身世界引擎的人形机器人,具备自然语言交互、自动翻页及问题回答能力 [6]