世界模型
搜索文档
辅助驾驶有效数据难采集?首个已量产、可交互世界模型来了
南方都市报· 2025-07-29 21:59
端到端自动驾驶的挑战 - 自动驾驶系统需要采集海量数据 特斯拉拥有700万台量产车进行数据回流[2] - 需覆盖各种高风险场景数据 但人类驾驶行为中仅有极少部分数据对训练有价值[2] - 存在概率性问题且特定场景难以复现 导致模型训练存在数据瓶颈[2] 世界模型的技术突破 - 推出行业首个量产可交互的"绝影开悟"世界模型 配合生成式驾驶数据集WorldSim-Drive[4] - 基于单张A100 GPU每日生成数据相当于10台真实车或100台路测车 相当于500台量产车采集能力[4] - 当前20%数据通过世界模型生产 可生成千万级场景数据并打造实时交互训练场[4] 4D重建与场景编辑能力 - 具备1km²真实世界高精度重建能力 提供多视角空间数据[7] - 支持对视频内容进行任意编辑 包括移除/增加车辆 改变车辆类型 控制刹车转向等操作[7] - 通过API开放给客户实现要素自定义 生成多模态摄像头数据并实现精准可控[7] 具身智能的数据挑战 - 头部机器人企业年出货量仅四位数 真实数据采集有限[5] - 99%具身智能训练数据需来源于合成数据[5] - 视觉数据产生速度落后于算力增长 导致模型数据需求出现倒挂现象[5] 智能层次与规则定义 - 智能层次从感知到行为再到规则定义 需在交互中产生新智能[9] - 重要是为机器人定义价值观与文化 在规则允许范围内产生规则[9] - 通过自上而下约束方式确保智能体在既定框架内演进[9]
商汤首度发布“悟能”具身智能平台
证券时报网· 2025-07-29 20:47
产品发布 - 公司正式发布"悟能"具身智能平台 以"开悟"世界模型为核心引擎 依托商汤大装置提供端侧和云侧算力支援 [1] - 平台可为机器人、智能设备赋予感知、视觉导航及多模态交互能力 推动智能终端向更高层次自主化与智能化演进 [1] - 平台可广泛适配包括汽车、机器人在内的各类终端 实现空间层面的现实世界互动 [1] 技术能力 - 感知能力基于商汤方舟在视觉AI领域十余年积累 能为终端硬件赋予万物识别与理解能力 支持端侧芯片实现端侧推理 [2] - 导航能力依托商汤绝影纯视觉端到端智能辅助驾驶方案 可泛化适配至机器人等设备 实现精准路径规划与导航 [2] - 交互能力基于"日日新"大模型技术 赋能机器人具备有温度、有深度、长记忆、超稳定等交互能力亮点 [2] 战略愿景 - 世界模型和具身AI结合将开启AI发展下一阶段 完成由"工具"向"人"的跃迁 加速迈向AGI时代 [1] - 平台旨在帮助各类具身智能企业完成和现实世界交互的梦想 [1] 生态合作 - 公司联合华为、库帕思、海光、寒武纪等十余家国产生态伙伴共同发布"商汤大装置算力Mall" [2] - 算力Mall提供灵活自主的国产算力选择与组合 致力于构建"面向未来的算力超级市场" [3] - 该举措可大幅降低AI应用门槛 加速大模型行业落地 打破国外技术壁垒 推动中国AI产业自主可控生态建设 [3]
LeCun出手,造出视频世界模型,挑战英伟达COSMOS
机器之心· 2025-07-29 17:58
世界模型概念与发展 - 世界模型是一种神经网络,能够根据智能体过去的观察与动作预测环境的未来状态 [2] - 深度学习三巨头之一Yann LeCun将世界模型视为通向人类智能的核心路径 [3] - 训练有效世界模型面临数据获取成本高、任务复杂度高、算力消耗大等挑战 [4][5][6] DINO-world模型创新 - 采用冻结视觉编码器DINOv2在潜在空间预训练视频世界模型,显著降低计算成本 [9][19] - 模型参数量少于10亿,远低于生成式模型COSMOS的120亿参数规模 [19] - 引入残差预归一化交叉注意力块架构,提升预测效率 [20][21] 技术实现细节 - 使用旋转位置编码(RoPE)处理时空关系,支持可变帧率训练增强泛化能力 [23][24][28] - 通过动作条件微调模块将预测与智能体动作结合,缓解数据不足问题 [30][32][33] - 在6000万条未清洗网络视频数据集上训练,获得跨领域迁移能力 [11] 性能验证结果 - 在VSPW分割预测任务中,0.5秒预测mIoU提升6.3% [13] - 密集预测任务表现优于V-JEPA和COSMOS,Cityscapes mIoU达64.7 [37][38] - 直觉物理测试显示与V-JEPA ViT-H相当,验证大规模预训练价值 [40][41] 应用优势 - 解耦视频预训练与动作微调,减少90%标注数据需求 [12] - 潜在空间建模避免像素级计算,推理资源消耗降低80% [10][12] - 规划任务成功率比从头训练模型提高50%以上 [44]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 14:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]
WAIC 2025观察:算力竞赛升维,模型寻路落地
经济观察报· 2025-07-28 21:36
行业趋势 - 2025年世界人工智能大会(WAIC)规模创纪录,展区超7万平方米,参展企业800余家,单日票价一度炒至3000元[2] - 行业呈现"一体两面"发展路径:硬件厂商聚焦算力性能提升,模型厂商转向商业场景落地[2] - 模型厂商集体转向产业"深水区",从参数比拼转向商业价值转化[1][14] 算力基础设施 - 华为展出昇腾384超节点,单集群算力达300PFLOPS(每秒30京次浮点运算)[4] - 芯鑫租赁累计向集成电路产业投放2100亿元,其中80亿元专项用于AI数据中心和算力租赁[4] - 神州数码发布业界首款鲲鹏技术路线大模型训推一体服务器KunTai R624 K2,计算效能提升2倍[6][7] - 曙光存储与中国移动联合落地国内首个全局统一文件存储系统,覆盖四大国家级枢纽节点[8] - 超云数字发布全栈液冷智算服务器R8429 L13,解决单机柜功率超20kW的散热问题[10] 模型与应用落地 - 商汤科技提出AI需通过"具身智能"与"世界模型"实现与现实世界交互进化[15] - 阶跃星辰发布Step 3模型,国产芯片推理效率达DeepSeek-R1的3倍,并联合10家芯片厂商成立"模芯生态创新联盟"[17] - 百望股份基于953.5万亿元交易数据构建"业务大脑",与阿里通义千问等合作推进开源模型+行业场景落地[18][19] - 数字王国发布"AI DOMAIN"影像创作平台,集成七大AI功能,联合成立"数字视觉创新联盟"[21] - 出门问问推出TicNote AI录音笔,内置"Shadow AI"实现记录、总结等复杂功能[23] 技术突破与创新 - 华为昇腾384超节点采用全对等UB总线和无阻塞Clos架构,实现384颗NPU与192颗鲲鹏CPU高效互联[4] - 曙光存储通过GDS技术实现数据直达GPU,将AI处理速度从每秒数百tokens提升至2000-3000[8] - 存算协同效益显著,存力投入1元可节约算力成本10元[9] - 神州数码产品兼容国内外主流AI加速卡,打破硬件兼容壁垒[7]
最近被公司通知不续签了。。。
自动驾驶之心· 2025-07-28 21:21
自动驾驶行业现状 - 行业整体盈利挑战巨大,头部公司如百度Apollo、小马智行的Robotaxi业务面临规模化运营成本高和法规限制问题,距离稳定盈利尚远 [3] - 乘用车主机厂如特斯拉、蔚小理的智能驾驶功能(FSD、NOP/NGP等)仍处于持续投入阶段,盈利主要依靠整车销售支撑 [3] - 特定场景如港口、矿区、园区物流AGV落地相对成熟,但市场规模有限且面临成本效益考验 [4] - 高级别自动驾驶(L4)系统综合成本在大多数应用场景下仍难以显著超越人力或传统方案的成本优势 [4] 技术发展趋势 - 端到端自动驾驶成为技术趋势,需要了解BEV Transformer、模仿学习、强化学习等技术在自动驾驶中的应用 [8] - 视觉大语言模型(VLM)在自动驾驶中的应用日益广泛,包括场景理解、轨迹预测和规划控制等方向 [31][32][34] - 世界模型技术快速发展,如HERMES、DrivingGPT等统一了驾驶世界建模和规划功能 [36][37] - 扩散模型在自动驾驶视频生成、场景合成等方面取得突破,如DriveDreamer、DrivingDiffusion等 [35][40] 人才市场情况 - 与前几年投资热潮相比,行业趋于冷静,L4级别岗位总量收缩明显,竞争加剧 [5] - 社招岗位数量减少,要求更高更务实,不仅需要扎实的工程能力和领域深度,还需具备量产/落地经验 [5][6] - 规划控制等传统岗位机会减少,建议转向新能源车企自动驾驶岗位或机器人、工业自动化等领域 [8] - 技术栈转型建议:C++开发者可考虑转向嵌入式或其他行业,如AGV、机械臂等工业自动化领域 [8] 技术社区资源 - 自动驾驶之心知识星球已聚集近4000人,包含100+行业专家和30+技术学习路线 [9][12] - 社区提供四大技术方向资源:视觉大语言模型、世界模型、扩散模型和端到端自动驾驶 [15] - 与多家自动驾驶公司建立岗位内推机制,简历可直达心仪公司 [11] - 社区每周活跃度国内前20,包含学术进展、量产应用、求职招聘等全方位内容 [70][74] 数据集与评估 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等,涵盖2D/3D目标检测、语义分割、目标跟踪等任务 [28] - 语言增强的自动驾驶数据集如NuScenes-QA、Talk2Car等支持视觉问答和自然语言导航等任务 [29] - VLM评估涵盖图像分类、图像文本检索、行为识别、目标检测、语义分割等多个维度 [23][24][25][26][27]
WAIC 2025上海开幕,“绝影开悟”世界模型升级亮相
中国汽车报网· 2025-07-28 10:45
公司动态 - 商汤绝影在2025世界人工智能大会上展示全新升级的"绝影开悟"世界模型,该模型是行业首个已量产、可交互的生成式世界模型产品平台 [1] - 公司发布业内最大规模的生成式驾驶数据集"WorldSim-Drive",持续赋能辅助驾驶行业 [1] - 商汤绝影与上汽集团旗下智己汽车深度合作,已打通Cut-in、碰撞等场景的数据生成链路,未来将共同打造数据工厂加速辅助驾驶系统落地 [4] - 公司正式发布辅助驾驶领域首个生成式世界模型产品平台,面向B/C端用户开放试用,基于"绝影开悟"世界模型构建 [4] 技术突破 - "绝影开悟"世界模型具备强大的物理规律理解与场景控制生成能力,是业内首个应用于真值训练数据生产的世界模型 [4] - 公司20%的数据通过世界模型生产,生产效率很高 [4] - 商汤绝影展示虚实融合的数据范式,以人、物体、场景为核心生成时空一致的第一视角和第三视角数据,赋能具身智能领域 [3] - 公司技术可生成千万级场景数据,打造实时交互训练场,同时构建具身智能的数据引擎 [3] 行业影响 - 商汤绝影深度参与上海自动驾驶实训场建设,以世界模型的数据生成和仿真测试能力赋能实训场 [3] - 公司在WAIC 2025展台提供世界模型实时交互体验,观众可通过简洁界面生成场景视频体验领先数据集性能 [7] - 商汤绝影CEO表示世界模型将AI创造力转化为生产力,搭建AI从数字世界通往物理世界的桥梁 [3]
具身智能迎来实力派!十年多模态打底,世界模型开路,商汤「悟能」来了
量子位· 2025-07-27 19:57
商汤科技具身智能平台发布 - 公司在WAIC 2025论坛正式发布「悟能」具身智能平台 标志着其入局具身智能领域[1][2] - 该平台是公司从感知视觉、多模态走向物理世界交互的必然结果 依托超过十年的行业落地经验积累[13] - 平台架构包含感知、决策与行动等多个层次 支持自动驾驶、机器人等具身场景的功能实现[27] 日日新V6.5多模态模型 - 新模型独创图文交错思维链 使图像以本体形式参与推理 跨模态精度显著提升[4][6] - 在MathVista等数据集上超越Gemini 2.5 Pro 如MathVista得分83.1 vs Gemini的80.9[8][9] - 相比6.0版本性能提升6.99% 推理成本降至30% 性价比提升5倍[10] 开悟世界模型技术特点 - 包含10万3D资产 支持多视角视频生成 最多11个摄像头角度并保持150秒时空一致性[16] - 支持参数化编辑 可一键变换天气、光照等环境要素[20] - 同时处理人、物、场信息 构建4D真实世界 融合第一与第三视角[21][23][25] 具身智能商业化路径 - 采取"软硬协同"路线 已与人形机器人、物流搬运等厂商达成合作预装模型[29] - 通过硬件销售积累视觉、语音和操作数据 形成正向数据飞轮[30] - 验证"通用大脑+场景闭环"双轮路径 多模态大模型与垂直应用相互促进[39] 行业痛点解决方案 - 通过虚拟环境合成99%数据 配合1%真机样本解决数据稀缺问题[32][33] - 同步生成并标定第一和第三视角数据 确保时空一致性 缩短仿真与现实落差[35] - 感知层多传感输入 决策层LLM+世界模型协同 行动层端到端控制形成闭环[34]
上海徐汇揭牌建立模速空间海归人才创新创业基地
新华财经· 2025-07-27 18:38
行业动态 - 2025世界人工智能大会"归潮新声:青年海归科技对话"活动在上海西岸智塔启幕,模速空间海归人才创新创业基地正式揭牌发布 [1] - 上海人工智能实验室有限公司、上海未来产业基金、上海临港科创投资管理有限公司、徐汇资本四方签署科技成果转化战略框架协议,推动人工智能领域顶尖科研力量与资本、产业资源精准对接 [1] - 上海徐汇区相关负责人表示徐汇的今天因人工智能而重塑,徐汇的明天靠青年人才而定义 [1] 技术发展 - 中国工程院外籍院士张建伟展示具身智能在未来的广泛应用场景,认为应通过产学研国际合作应对全球重大挑战 [2] - 商汤科技联合创始人王晓刚分享与世界模型协同交互的生成式智驾方案,通过4D仿真复现、强化学习等方法实现数字世界向物理世界的跃进 [2] - 智平方科技创始人郭彦东指出中国正成为科技制造业创新的沃土,具备辽阔的机器人市场,未来希望用中国的人工智能与硬件供应链做世界的新终端 [2] 产业生态 - 专家呼吁构建"政府引导-高校支撑-企业主体-专家助力"的协同生态,让智慧种子结出产业硕果 [2] - 圆桌讨论探讨"协同筑生态·智汇共发展——海归人才与产业创新的共生之路",共话打破壁垒、建立常态化的沟通协作机制、加速成果转化的新思路 [2]
实现 Agent 能力的泛化 ,是否一定需要对世界表征?
机器之心· 2025-07-27 09:30
实现 Agent 能力的泛化,是否一定需要对世界表征 - 现代AI智能体定义为能够感知环境、自主行动并提升性能的实体,其核心在于具备泛化能力,区别于仅响应预设规则的机器人[5] - 学界存在两大思想脉络:无模型范式认为智能行为可通过感知-行动循环直接涌现,无需构建显式世界模型;基于模型范式则认为灵活目标导向行为必须依赖内部世界表征[5] - DeepMind通过数学框架证明,具有泛化能力的智能体必然内化世界表征,且从策略本身可恢复环境转移函数的近似模型[6] - 研究区分短视行为与长远规划:短视智能体无需世界模型,而需长远规划的通用智能体必须比较不同行动引发的未来轨迹优劣[7] - 当前AI领域涌现多种世界模型构建方法,但现有范式存在缺陷且实践层面仍存非共识,焦点已从"是否需要表征"转向"如何表征"[8] 技术狂飙下的AI Assistant发展现状 - 当前多数AI Assistant仍停留在对话器阶段,与真正的通用行动体存在差距,需突破场景深度与交互延迟等瓶颈[2] - 技术架构上,Cross-Attention与MoE有望降低语音交互延迟,提升实时性[2] - 商业化路径存在争议:AI Assistant可能成为企业新盈利入口,但增量流量价值尚未验证;未来形态可能介于"第二手机"与"个人操作系统"之间[2] OpenAI前产品VP的产品方法论 - Peter Deng强调产品本身并非核心,产品品味才是企业护城河,其对当前AI产品的评价未公开但隐含高标准[3] - 打造爆款产品的超级团队需具备特定特征,不同团队对产品经理的特质要求存在差异化[3] 行业数据概览 - 本期通讯覆盖3项专题解读及27项AI&Robotics赛道要事,含10项技术动态、8项国内进展、9项国外进展[3] - 通讯总字数达22439字,免费试读比例8%,完整版需消耗99微信豆(约9.9元人民币)[4]