开悟世界模型 - 财报，业绩电话会，研报，新闻 -

开悟世界模型

搜索文档

商汤林达华：破解图文交错思维链技术，商汤的“两步走”路径

36氪· 2025-08-15 17:09

多模态智能技术路径 - 多模态是通向AGI的必经之路因语言仅是智能的产物而非本源需通过多模态感知和处理信息实现通用性[4] - 智能演进需经历四次破壁：长序列建模、多模态理解、多模态推理、数字与物理空间交互[5] - 公司2023年初推出国内最早多模态模型 2024年突破原生多模态融合技术 2025年实现图文交错思维链[5] 原生多模态技术优势 - 适应训练通过微调实现模态对齐成本低但仅僵硬遵循范例模式[7] - 原生训练在预训练阶段融合多模态数据从根源具备多模态能力[7] - 公司2024年确定融合路径：预训练中段开始多模态融合形成统一模型且不再生产单独语言模型[7] 技术成果与性能表现 - 2024年Q3完成融合训练数据配方验证 Q4完成千亿参数级别多模态模型训练[8] - 模型在OpenCompass和SuperCLUE评测中位居国内首位语言任务与DeepSeek V3并列[8] - 日日新6.5仅有多模态模型无单独语言模型与国内其他厂商架构存在显著差异[9] 图文交错思维链突破 - 主流多模态模型推理链仍为纯文本通过图像转文本描述再进行语言推理[9] - 公司通过图像编辑工具构建图文交错思维链实现逻辑思维与形象思维结合[10] - 采用两步走路径：先通过工具构建对外智能体再通过多模态理解实现内生混合思考[10] 模型架构效率优化 - 视觉编码器专注连续信号感知语言模型主干处理离散语义需差异化结构与学习方式[11] - 架构更新后处理高分辨率大图和长视频更快捷数据优化使同性能下效率提升超3倍[11] - 性能成本曲线显著优化实现比Gemini 2.5系列更优的效费比[11] 具身智能与世界模型 - 世界模型通过虚拟系统模拟现实交互提供近真实反馈且效率远高于真实环境[12] - 开悟世界模型基于多模态能力构建用智能汽车业务数据增强模拟生成能力[12] - 可根据指定路径生成多视角视频有效支撑智能驾驶系统训练[12] 商业战略与落地成果 - 采用"基础设施-模型-应用"三位一体战略形成技术与商业正向循环[13] - 基础技术实现原生融合训练/多模态强化学习/无限时长视频交互记忆等突破[14] - 生产力AI装机量从百万级走向千万级交互AI落地新型硬件与机器人[14]

商汤(HK:00020)

多模态智能

AGI（通用人工智能）

图文交错思维链

日日新V6.5多模态模型

开悟世界模型

多模态智能

AGI（通用人工智能）

图文交错思维链

日日新V6.5多模态模型

开悟世界模型

商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁

机器之心· 2025-08-12 15:34

具身智能与世界模型 - 具身智能「大脑」以「世界模型」为内核，成为AI下一阶段竞争焦点 [1] - 世界模型被视为通往「类人智能」的解法，业界形成新共识 [1] - 2025年下半年具身智能「大脑」成为全球AI领域焦点 [1] - 世界模型技术研究曲线与具身智能产业发展路径交汇，引发行业争夺战 [2] 行业动态与厂商布局 - 谷歌推出具身智能RT-2模型，AI教母李飞飞聚焦具身智能创业 [3] - 国内厂商密集发布具身智能平台：智源研究院RoboBrain、华为云CloudRobo、字节跳动GR-3、京东JoyInside、商汤「悟能」、腾讯Tairos [3] - 商汤优势在于计算机视觉起家、多模态大模型打磨经验、智能驾驶沉淀、大装置算力支持 [3] - 商汤通过「悟能」平台将多年积累赋能行业 [3] 技术突破与挑战 - 大模型带来导航、人机交互、VLA端到端操作三方面技术突破 [7][8] - 自动驾驶技术进步使机器人导航功能提升 [9] - 多模态大模型带来全新人机交互方式 [10] - 世界模型通过学习物理规律和交通法则实现更高层次智能 [12] - 硬件质量和数据缺乏是主要挑战，尤其是规模化数据生产困难 [13] - 仿真数据与现实差距大，计算机视觉技术可带来新动能 [14] 商汤的技术布局 - 「开悟」世界模型应用于智能汽车，衍生出「悟能」具身智能平台 [5] - 平台包含10万3D资产，支持多视角学习，保持150秒时空一致性 [5] - 世界模型三大技术优势：时空一致性（11摄像头同步）、内容可编辑、反应速度实时 [21][23][24] - 「悟能」平台提供第一视角和第三视角数据，推动端到端VLA实现 [27][29] - 与机器人厂商合作形式为提供SDK软件功能API调用 [33] 应用场景与未来展望 - 机器狗可实现陪伴守护，家庭机器人建立情感连接 [30] - 具身智能成熟后将形成人机社交网络，机器人可完成多项家庭功能 [36] - 每项功能突破都将带来巨大市场想象空间 [37] - 商汤规划提供包含视觉、交互、导航、操作的「机器人大脑」 [39]

商汤(HK:00020)

开悟世界模型

悟能具身智能平台

具身大脑RoboBrain

开悟世界模型

悟能具身智能平台

具身大脑RoboBrain

ChatGPT见顶后，AI新战场世界模型：中国已经先行一步！

老徐抓AI趋势· 2025-07-31 09:03

AI发展阶段 - AI发展分为三个阶段：感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年，图像识别准确率超越人类，但知识量有限（1400万张图片≈人类10年标注时间）[7][9] - 生成式AI阶段始于2017年，Transformer架构和GPU算力提升推动大语言模型发展，GPT-3训练数据达7500亿Token（≈人类10万年书写量）[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭，大语言模型增长面临天花板 [15] - AI需转向新学习方式，通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器，支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题（如穿车、不合逻辑的物体交互）[20] - 自动驾驶训练成本大幅降低：虚拟场景可定制天气、光线、路况，替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型，支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台，整合世界模型与感知/导航能力，构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式（自我生成替代互联网采集）、训练效率（秒级仿真）、产业落地（制造业/医疗/教育等）[28] - 类比移动互联网发展：大语言模型类似"智能手机"，世界模型类似"App Store"，推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局，技术升级节奏可能快于大语言模型周期（1-2年内或现突破）[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进，加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长，类似移动互联网对生产力的提升效应 [29]

商汤(HK:00020)

能讲PPT、懂指令！商汤“悟能”平台让机器人“玩转”现实世界｜聚焦世界人工智能大会

国际金融报· 2025-07-28 03:20

AI演进路径 - AI发展已实现从感知智能到生成式智能的跨越，下一阶段突破取决于AI能否主动探索并交互现实世界 [1] - 人类智能源于与物理世界的持续互动，而机器智能长期受制于人类知识供给的有限性 [3] - 当前自然语言数据或将于2027至2028年耗尽，视觉数据虽丰富但难以有效提炼知识 [3] 技术发展历程 - 2011年至2012年，以CNN、ResNet为代表的深度学习算法推动感知AI爆发式发展，但依赖人工标注数据，泛化能力受限 [3] - 2017至2018年，Transformer架构兴起使AI具备从自然语言中提取知识的能力 [3] - GPT-3处理的文本量相当于人类十万年的创作积累，自然语言的高知识密度赋予模型强大泛化与通用能力 [3] 数据与算力挑战 - 视觉数据产生速度远落后于算力增长速度，导致模型数据需求出现"倒挂" [3] - 机器人及具身智能的潜在瓶颈是对高质量交互数据的巨大需求 [3] - 真实环境交互成本极高，传统模拟器解决方案存在"模拟与现实差距"问题 [4] 商汤科技解决方案 - 推出"开悟"世界模型，考虑时间、空间一致性，为AI训练提供高质量模拟数据 [4] - 发布"悟能"具身智能平台，以具身世界模型为核心引擎，提供端侧和云侧算力支持 [6] - "悟能"平台可赋能机器人等终端硬件，实现感知理解能力并支持嵌入端侧芯片 [6] 具身智能应用场景 - 具身世界模型可生成多视角视频，确保时间与空间一致性，实现真实世界交互 [8] - 能构建面向人、物、场的4D真实世界，根据简单提示词自主生成位姿、动作骨架和指令 [8] - 现场展示搭载具身世界引擎的人形机器人，具备自然语言交互、自动翻页及问题回答能力 [6]

悟能具身智能平台

开悟世界模型

悟能具身智能平台

开悟世界模型

具身智能迎来实力派！十年多模态打底，世界模型开路，商汤「悟能」来了

量子位· 2025-07-27 19:57

商汤科技具身智能平台发布 - 公司在WAIC 2025论坛正式发布「悟能」具身智能平台标志着其入局具身智能领域[1][2] - 该平台是公司从感知视觉、多模态走向物理世界交互的必然结果依托超过十年的行业落地经验积累[13] - 平台架构包含感知、决策与行动等多个层次支持自动驾驶、机器人等具身场景的功能实现[27] 日日新V6.5多模态模型 - 新模型独创图文交错思维链使图像以本体形式参与推理跨模态精度显著提升[4][6] - 在MathVista等数据集上超越Gemini 2.5 Pro 如MathVista得分83.1 vs Gemini的80.9[8][9] - 相比6.0版本性能提升6.99% 推理成本降至30% 性价比提升5倍[10] 开悟世界模型技术特点 - 包含10万3D资产支持多视角视频生成最多11个摄像头角度并保持150秒时空一致性[16] - 支持参数化编辑可一键变换天气、光照等环境要素[20] - 同时处理人、物、场信息构建4D真实世界融合第一与第三视角[21][23][25] 具身智能商业化路径 - 采取"软硬协同"路线已与人形机器人、物流搬运等厂商达成合作预装模型[29] - 通过硬件销售积累视觉、语音和操作数据形成正向数据飞轮[30] - 验证"通用大脑+场景闭环"双轮路径多模态大模型与垂直应用相互促进[39] 行业痛点解决方案 - 通过虚拟环境合成99%数据配合1%真机样本解决数据稀缺问题[32][33] - 同步生成并标定第一和第三视角数据确保时空一致性缩短仿真与现实落差[35] - 感知层多传感输入决策层LLM+世界模型协同行动层端到端控制形成闭环[34]

商汤(HK:00020)

悟能具身智能平台

日日新V6.5多模态推理大模型

悟能具身智能平台

日日新V6.5多模态推理大模型

商汤董事长兼CEO徐立：数据耗尽后，AI演进需与物理世界链接

21世纪经济报道· 2025-07-27 10:41

AI演进路径与数据挑战 - AI发展经历了从感知智能到生成式智能的跨越，下一阶段突破依赖于对现实世界的主动探索与交互 [2] - 2011-2012年CNN、ResNet推动感知AI爆发，但依赖人工标注数据且泛化能力有限 [2] - 2017-2018年Transformer架构兴起，使AI能从自然语言中提取知识 [2] - GPT-3处理的文本量相当于人类十万年的创作积累，自然语言的高知识密度促成模型强大泛化能力 [2] 数据资源危机 - 当前自然语言数据可能在2027-2028年耗尽，视觉数据虽丰富但难以有效提炼知识 [2] - 自然语言数据产生速度远落后于算力增长速度，造成模型数据需求"倒挂" [3] AI未来发展方向 - AI进化需转向人类学习方式，通过与物理世界交互获得认知 [3] - 机器人及具身智能的瓶颈在于高质量交互数据采集的巨大需求 [3] - 真实环境交互成本高，传统模拟器方案存在"模拟与现实差距"问题 [3] - 视频生成模型可能产生违反物理规律的画面，如"幽灵穿越"或时空错乱 [3] 解决方案与技术突破 - 需要现实世界理解模型+深度3D理解模型协同提升交互能力 [3] - 商汤推出"开悟"世界模型，考虑时间空间一致性，可提供高质量模拟数据 [3] - AI发展将经历三个阶段：感知世界、理解并生成世界、与现实硬件交互改变世界 [3]

商汤(HK:00020)

开悟世界模型

开悟世界模型

独家丨哪吒汽车智驾高级总监王俊平加入商汤绝影

雷峰网· 2025-03-24 18:04

商汤绝影自动驾驶进展 - 公司将于2025年4月上海车展发布R-UniAD端到端自动驾驶方案，完成实车部署，并预计在年底交付 [1][3] - R-UniAD以绝影量产智驾方案和"开悟"世界模型为核心，实现真实数据和仿真数据的闭环流转 [3] - 目前合作车企达30多家，包括广汽、比亚迪、本田、蔚来等，解决方案已上线昊铂和哪吒超级轿跑车型 [3] 人事调整与团队架构 - 原哪吒汽车产品研发中心副总经理王俊平于2025年2月加入商汤绝影，此前曾在百度智能驾驶团队任职 [2] - 2024年11月王伟宝接替石建萍成为智驾负责人，王伟宝曾任职苹果自动驾驶团队和新石器无人车CTO [2][3] - 石建萍原统领数百人团队，调整后转岗负责大模型团队，其被创始人称为"学术研究领域的璀璨明星" [2] 行业竞争态势 - 自动驾驶方案商面临严峻挑战，非第一梯队企业生存压力更大 [3] - 智能驾驶行业马太效应日益明显，市场竞争持续加剧 [3] 哪吒汽车相关动态 - 公司与商汤自2021年9月起在智能驾驶和智能座舱领域保持战略合作 [2] - 2025年销量目标设定为10万辆，曾提出2025年50万辆年销的宏伟计划 [7] - 近期出现研发团队优化和供应商讨债事件 [6]

商汤(HK:00020)

端到端智能驾驶

R-UniAD端到端自动驾驶方案

绝影量产智驾方案

开悟世界模型

端到端智能驾驶

R-UniAD端到端自动驾驶方案

绝影量产智驾方案

开悟世界模型