Workflow
开悟世界模型
icon
搜索文档
商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
机器之心· 2025-08-12 15:34
具身智能与世界模型 - 具身智能「大脑」以「世界模型」为内核,成为AI下一阶段竞争焦点 [1] - 世界模型被视为通往「类人智能」的解法,业界形成新共识 [1] - 2025年下半年具身智能「大脑」成为全球AI领域焦点 [1] - 世界模型技术研究曲线与具身智能产业发展路径交汇,引发行业争夺战 [2] 行业动态与厂商布局 - 谷歌推出具身智能RT-2模型,AI教母李飞飞聚焦具身智能创业 [3] - 国内厂商密集发布具身智能平台:智源研究院RoboBrain、华为云CloudRobo、字节跳动GR-3、京东JoyInside、商汤「悟能」、腾讯Tairos [3] - 商汤优势在于计算机视觉起家、多模态大模型打磨经验、智能驾驶沉淀、大装置算力支持 [3] - 商汤通过「悟能」平台将多年积累赋能行业 [3] 技术突破与挑战 - 大模型带来导航、人机交互、VLA端到端操作三方面技术突破 [7][8] - 自动驾驶技术进步使机器人导航功能提升 [9] - 多模态大模型带来全新人机交互方式 [10] - 世界模型通过学习物理规律和交通法则实现更高层次智能 [12] - 硬件质量和数据缺乏是主要挑战,尤其是规模化数据生产困难 [13] - 仿真数据与现实差距大,计算机视觉技术可带来新动能 [14] 商汤的技术布局 - 「开悟」世界模型应用于智能汽车,衍生出「悟能」具身智能平台 [5] - 平台包含10万3D资产,支持多视角学习,保持150秒时空一致性 [5] - 世界模型三大技术优势:时空一致性(11摄像头同步)、内容可编辑、反应速度实时 [21][23][24] - 「悟能」平台提供第一视角和第三视角数据,推动端到端VLA实现 [27][29] - 与机器人厂商合作形式为提供SDK软件功能API调用 [33] 应用场景与未来展望 - 机器狗可实现陪伴守护,家庭机器人建立情感连接 [30] - 具身智能成熟后将形成人机社交网络,机器人可完成多项家庭功能 [36] - 每项功能突破都将带来巨大市场想象空间 [37] - 商汤规划提供包含视觉、交互、导航、操作的「机器人大脑」 [39]
ChatGPT见顶后,AI新战场世界模型:中国已经先行一步!
老徐抓AI趋势· 2025-07-31 09:03
AI发展阶段 - AI发展分为三个阶段:感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年,图像识别准确率超越人类,但知识量有限(1400万张图片≈人类10年标注时间)[7][9] - 生成式AI阶段始于2017年,Transformer架构和GPU算力提升推动大语言模型发展,GPT-3训练数据达7500亿Token(≈人类10万年书写量)[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭,大语言模型增长面临天花板 [15] - AI需转向新学习方式,通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器,支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题(如穿车、不合逻辑的物体交互)[20] - 自动驾驶训练成本大幅降低:虚拟场景可定制天气、光线、路况,替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型,支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台,整合世界模型与感知/导航能力,构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式(自我生成替代互联网采集)、训练效率(秒级仿真)、产业落地(制造业/医疗/教育等)[28] - 类比移动互联网发展:大语言模型类似"智能手机",世界模型类似"App Store",推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局,技术升级节奏可能快于大语言模型周期(1-2年内或现突破)[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进,加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长,类似移动互联网对生产力的提升效应 [29]
能讲PPT、懂指令!商汤“悟能”平台让机器人“玩转”现实世界|聚焦世界人工智能大会
国际金融报· 2025-07-28 03:20
AI演进路径 - AI发展已实现从感知智能到生成式智能的跨越,下一阶段突破取决于AI能否主动探索并交互现实世界 [1] - 人类智能源于与物理世界的持续互动,而机器智能长期受制于人类知识供给的有限性 [3] - 当前自然语言数据或将于2027至2028年耗尽,视觉数据虽丰富但难以有效提炼知识 [3] 技术发展历程 - 2011年至2012年,以CNN、ResNet为代表的深度学习算法推动感知AI爆发式发展,但依赖人工标注数据,泛化能力受限 [3] - 2017至2018年,Transformer架构兴起使AI具备从自然语言中提取知识的能力 [3] - GPT-3处理的文本量相当于人类十万年的创作积累,自然语言的高知识密度赋予模型强大泛化与通用能力 [3] 数据与算力挑战 - 视觉数据产生速度远落后于算力增长速度,导致模型数据需求出现"倒挂" [3] - 机器人及具身智能的潜在瓶颈是对高质量交互数据的巨大需求 [3] - 真实环境交互成本极高,传统模拟器解决方案存在"模拟与现实差距"问题 [4] 商汤科技解决方案 - 推出"开悟"世界模型,考虑时间、空间一致性,为AI训练提供高质量模拟数据 [4] - 发布"悟能"具身智能平台,以具身世界模型为核心引擎,提供端侧和云侧算力支持 [6] - "悟能"平台可赋能机器人等终端硬件,实现感知理解能力并支持嵌入端侧芯片 [6] 具身智能应用场景 - 具身世界模型可生成多视角视频,确保时间与空间一致性,实现真实世界交互 [8] - 能构建面向人、物、场的4D真实世界,根据简单提示词自主生成位姿、动作骨架和指令 [8] - 现场展示搭载具身世界引擎的人形机器人,具备自然语言交互、自动翻页及问题回答能力 [6]
具身智能迎来实力派!十年多模态打底,世界模型开路,商汤「悟能」来了
量子位· 2025-07-27 19:57
商汤科技具身智能平台发布 - 公司在WAIC 2025论坛正式发布「悟能」具身智能平台 标志着其入局具身智能领域[1][2] - 该平台是公司从感知视觉、多模态走向物理世界交互的必然结果 依托超过十年的行业落地经验积累[13] - 平台架构包含感知、决策与行动等多个层次 支持自动驾驶、机器人等具身场景的功能实现[27] 日日新V6.5多模态模型 - 新模型独创图文交错思维链 使图像以本体形式参与推理 跨模态精度显著提升[4][6] - 在MathVista等数据集上超越Gemini 2.5 Pro 如MathVista得分83.1 vs Gemini的80.9[8][9] - 相比6.0版本性能提升6.99% 推理成本降至30% 性价比提升5倍[10] 开悟世界模型技术特点 - 包含10万3D资产 支持多视角视频生成 最多11个摄像头角度并保持150秒时空一致性[16] - 支持参数化编辑 可一键变换天气、光照等环境要素[20] - 同时处理人、物、场信息 构建4D真实世界 融合第一与第三视角[21][23][25] 具身智能商业化路径 - 采取"软硬协同"路线 已与人形机器人、物流搬运等厂商达成合作预装模型[29] - 通过硬件销售积累视觉、语音和操作数据 形成正向数据飞轮[30] - 验证"通用大脑+场景闭环"双轮路径 多模态大模型与垂直应用相互促进[39] 行业痛点解决方案 - 通过虚拟环境合成99%数据 配合1%真机样本解决数据稀缺问题[32][33] - 同步生成并标定第一和第三视角数据 确保时空一致性 缩短仿真与现实落差[35] - 感知层多传感输入 决策层LLM+世界模型协同 行动层端到端控制形成闭环[34]
商汤董事长兼CEO徐立:数据耗尽后,AI演进需与物理世界链接
21世纪经济报道· 2025-07-27 10:41
AI演进路径与数据挑战 - AI发展经历了从感知智能到生成式智能的跨越,下一阶段突破依赖于对现实世界的主动探索与交互 [2] - 2011-2012年CNN、ResNet推动感知AI爆发,但依赖人工标注数据且泛化能力有限 [2] - 2017-2018年Transformer架构兴起,使AI能从自然语言中提取知识 [2] - GPT-3处理的文本量相当于人类十万年的创作积累,自然语言的高知识密度促成模型强大泛化能力 [2] 数据资源危机 - 当前自然语言数据可能在2027-2028年耗尽,视觉数据虽丰富但难以有效提炼知识 [2] - 自然语言数据产生速度远落后于算力增长速度,造成模型数据需求"倒挂" [3] AI未来发展方向 - AI进化需转向人类学习方式,通过与物理世界交互获得认知 [3] - 机器人及具身智能的瓶颈在于高质量交互数据采集的巨大需求 [3] - 真实环境交互成本高,传统模拟器方案存在"模拟与现实差距"问题 [3] - 视频生成模型可能产生违反物理规律的画面,如"幽灵穿越"或时空错乱 [3] 解决方案与技术突破 - 需要现实世界理解模型+深度3D理解模型协同提升交互能力 [3] - 商汤推出"开悟"世界模型,考虑时间空间一致性,可提供高质量模拟数据 [3] - AI发展将经历三个阶段:感知世界、理解并生成世界、与现实硬件交互改变世界 [3]
独家丨哪吒汽车智驾高级总监王俊平加入商汤绝影
雷峰网· 2025-03-24 18:04
商汤绝影自动驾驶进展 - 公司将于2025年4月上海车展发布R-UniAD端到端自动驾驶方案,完成实车部署,并预计在年底交付 [1][3] - R-UniAD以绝影量产智驾方案和"开悟"世界模型为核心,实现真实数据和仿真数据的闭环流转 [3] - 目前合作车企达30多家,包括广汽、比亚迪、本田、蔚来等,解决方案已上线昊铂和哪吒超级轿跑车型 [3] 人事调整与团队架构 - 原哪吒汽车产品研发中心副总经理王俊平于2025年2月加入商汤绝影,此前曾在百度智能驾驶团队任职 [2] - 2024年11月王伟宝接替石建萍成为智驾负责人,王伟宝曾任职苹果自动驾驶团队和新石器无人车CTO [2][3] - 石建萍原统领数百人团队,调整后转岗负责大模型团队,其被创始人称为"学术研究领域的璀璨明星" [2] 行业竞争态势 - 自动驾驶方案商面临严峻挑战,非第一梯队企业生存压力更大 [3] - 智能驾驶行业马太效应日益明显,市场竞争持续加剧 [3] 哪吒汽车相关动态 - 公司与商汤自2021年9月起在智能驾驶和智能座舱领域保持战略合作 [2] - 2025年销量目标设定为10万辆,曾提出2025年50万辆年销的宏伟计划 [7] - 近期出现研发团队优化和供应商讨债事件 [6]