世界模型
搜索文档
扩散世界模型LaDi-WM大幅提升机器人操作的成功率和跨场景泛化能力
具身智能之心· 2025-08-18 08:07
核心观点 - 国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based World Models),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态,提升机器人操作性能 [1] - LaDi-WM利用预训练的视觉基础模型构建隐空间表示,包含几何特征和语义特征,具有广泛通用性,有利于机器人操作的策略学习和跨任务泛化 [1] - 团队设计了一种扩散策略,通过整合世界模型生成的预测状态迭代优化输出动作,在LIBERO-LONG数据集上成功率提升27.9% [2] - 该方法在虚拟和真实数据集上均表现出色,在真实场景中将原始模仿学习策略的成功率显著提升20% [26] 技术方法 - 世界模型学习阶段:通过预训练的视觉基础模型提取几何表征(DINOv2)和语义表征(Siglip),并在扩散过程中让二者交互,学习依赖关系 [10] - 策略模型训练与迭代优化:将世界模型的未来预测作为额外输入引导策略学习,基于扩散策略模型架构,迭代优化动作输出 [12] - 框架分为世界模型学习和策略学习两大阶段,通过任务无关的片段学习隐扩散世界模型,再利用未来状态预测优化策略模型 [9] 实验结果 虚拟实验 - 在LIBERO-LONG数据集上,仅用10条轨迹训练,达到68.7%的成功率,显著优于其他方法(DreamerV3 33.5%,ATM 44.0%,Seer 53.6%) [15][16] - 在CALVIN D-D数据集上,平均完成任务数量为3.63,优于Seer(3.60)和ATM(2.98) [17] - 跨场景实验中,在LIBERO-LONG训练的世界模型应用于CALVIN D-D策略学习,性能比CALVIN环境训练的原始策略高0.61 [21] 真机实验 - 在真实场景操作任务(叠碗、开抽屉、关抽屉、抓取物体放入篮子等)中,将原始模仿学习策略的成功率从40.0%提升至60.0% [26] - 提出的策略在不同光照条件和初始位置下表现出鲁棒的泛化性 [25][27] 创新点 - 基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,学习可泛化的动态建模能力 [5] - 基于世界模型预测迭代优化的扩散策略:利用未来预测状态反馈给策略模型,迭代优化动作输出 [6] - 通过交互扩散过程学习几何与语义表征之间的依赖关系,促进准确动态预测 [10]
智元世界模型:机器人的“大脑”,还是市值翻十倍的“样板间”?
观察者网· 2025-08-17 19:41
智元机器人世界模型GE开源 - 公司正式开源世界模型GenieEnvisioner(GE),定位为行业首个面向双臂真机的世界模型 [1] - GE采用视觉中心建模范式,直接在视觉空间建模机器人与环境交互,保留空间结构和时序信息 [3] - 基于3000小时真机数据,GE-Act在跨平台泛化和长时序任务执行上超越现有SOTA水平 [3] - 模型整合"预测-控制-评估"环节,使机器人具备"想象-验证-行动"的主动能力 [3] - 已实现制作三明治、倒茶、擦桌、使用微波炉、装箱等五项连续任务 [4] 技术突破与行业定位 - 公司认为机器人必须搭载大模型,当前大语言模型存在1-5秒延迟,无法满足工业场景3-10毫秒需求 [6] - GE作为世界模型,通过"想象"行动策略的未来状态序列实现提前规划 [6] - 行业存在数据飞轮派与模型瓶颈派之争:前者强调数据积累(智元),后者主张重构模型架构(宇树) [15][16] - 世界模型被视为"认知地基",需百万小时级互联网数据;具身智能则是依赖真机数据的"上层建筑" [11][12] 资本市场反应 - 公司通过"协议转让+要约收购"控股材料供应商上纬新材63.62%股权 [1] - 上纬新材市值从30亿元最高冲至400多亿元,走出11个涨停板 [1][13] - 控股实现供应链锁定(PEEK材料可减重30%)与市值杠杆放大双重效应 [13] - 二级市场提前定价,行业进入"市梦率"博弈阶段,技术路线尚未收敛 [14][17] 行业发展现状 - 具身智能技术成熟度类比2016年自动驾驶:硬件可用,算法需打磨 [11] - 训练数据量级对比:Meta V-JEPA 2使用100万小时数据,智元3000小时数据被认为作用有限 [9] - 行业争议焦点:世界模型能力提升是否依赖具身智能领域数据量 [9][10] - 当前瓶颈在于模型架构不够统一,部分场景数据采集后难以有效利用 [10]
智元机器人推出世界模型:机器人的“大脑”,还是市值翻十倍的“样板间”?
观察者网· 2025-08-17 19:37
智元机器人世界模型GE开源 - 公司正式开源世界模型GenieEnvisioner(GE),定位为行业首个面向双臂真机的世界模型,整合"预测-控制-评估"环节,实现机器人主动模拟验证行动的能力[1][5] - GE采用视觉中心建模范式,直接在视觉空间建模机器人与环境交互动态,保留空间结构和时序信息,相比主流VLA方法实现更精确的直接建模[3] - 基于3000小时真机数据,GE-Act在跨平台泛化和长时序任务执行上超越现有SOTA技术,演示中完成制作三明治、倒茶等五项连续任务[3][5] 技术架构与行业争议 - 世界模型与具身智能分属不同发展阶段:世界模型需百万小时级互联网视觉数据构建"认知地基",具身智能依赖少量高成本真机数据优化任务执行,二者互补但不同步[13][14] - 行业存在数据飞轮派(智元主张开源千万条真机轨迹)与模型瓶颈派(宇树科技认为当前模型架构不足)的技术路线分歧[17][18] - 对比Meta V-JEPA 2(100万小时视频数据)和DeepMind Genie3(游戏引擎数据集),智元3000小时真机数据对模型基础能力提升有限,但针对性优化具身任务效果显著[10] 资本市场反应与战略布局 - 公司通过"协议转让+要约收购"控股材料供应商上纬新材63.62%股权,锁定PEEK等轻量化复合材料供应,实现供应链垂直整合[1][15] - 公告后上纬新材股价从30亿元市值飙升至400多亿元,连续11个涨停,反映市场对具身智能概念的高度预期[1][15] - 资本运作使智元在技术未完全落地前已实现市值杠杆放大,形成"地基打桩"与"样板间展示"并行的特殊发展阶段[16][20] 行业技术发展阶段判断 - 世界模型当前类似ChatGPT初期的大语言模型阶段,架构快速迭代未收敛,需海量通用数据训练[13] - 具身智能技术成熟度相当于2016年自动驾驶水平:硬件基本可用,算法需工程打磨,实际工业场景要求3-10毫秒延迟,现有大语言模型(50毫秒-5秒延迟)无法满足[7][13] - 公司开源行为推动行业技术透明化,但二级市场估值已超前反映技术预期,存在技术进展与资本定价的时间差[19][20]
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 17:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]
谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
36氪· 2025-08-17 16:44
Genie 3技术突破 - Genie 3是谷歌DeepMind开发的最先进世界模型,能够通过文本实时生成互动且高度一致的世界,分辨率为720p,帧率高达每秒24帧[1][6] - 该模型由Veo 2和Genie 2两个项目合作完成,具备长达一分钟的空间记忆能力,物理规律会随训练数据规模和深度提升[4][10][11] - 在生成视频时长、世界一致性、内容多样性和特殊记忆等方面实现突破,支持实时交互并提升真实感[6][8][12] 技术特性与比较 - 相比前代产品,Genie 3在分辨率(720p)、交互延迟(实时)、交互时长(多分钟)等关键指标上显著提升[7] - 特殊记忆功能表现突出,能保持场景元素的一致性,如角色刷墙后痕迹保留等超出预期的效果[10][11] - 采用逐帧生成方式而非显式表示法,增强了模型泛化能力和对多样世界的适应性[12][13] 应用前景 - 可用于创建游戏世界、训练强化学习智能体、机器人研究等领域[9] - 为机器人领域提供近乎无限的训练场景,突破现实数据采集限制[33] - 是世界模型通向通用人工智能(AGI)的关键一步,能让AI在丰富模拟环境中训练[6][25] 未来发展 - 未来将重点关注真实感和交互性的提升,计划开放Genie 3模型[26][31] - 当前与完全准确模拟现实世界仍有差距,特别是在场景自由度和真实感方面[27][28][29] - 量子计算机可能成为未来运行高级世界模拟的硬件平台[36]
从1.0到2.0时代:锦秋基金臧天宇剖析智能机器人行业投资逻辑
锦秋集· 2025-08-15 22:50
行业概况 - 2025世界机器人大会(WRC)在北京亦庄举办,主题为"让机器人更智慧,让具身体更智能",吸引200余家国内外企业参展,展出1500余件前沿产品,其中人形机器人整机企业数量创全球同类展会之最 [1] 投资人与企业关注重点 - 机器人行业1.0时代关注业务发展、订单情况和财务健康,2.0时代关注端到端学习范式和通用智能发展 [6] - 早期投资人关注技术领先性和商业可落地性,后期关注销售额、毛利等财务数据 [7] - 企业更关注产品周期前端如技术落地和验证测试,投资人同时关注中后端如行业天花板和退出方式 [7] - 成熟企业关注增长可预见性、竞争格局、利润改善和出海状态 [8] 商业化挑战 - To B企业需避免"零毛利"和"长账期"陷阱,优选订单并提升交付效率 [11] - 出海面临市场教育投入大、本地化服务能力建设等挑战,需依据目的国实际情况调整策略 [12] - 产品竞争力持续提升、人才获取和组织流程优化是长期挑战 [13] - 市场教育是核心挑战,需针对不同国家进行差异化用户教育 [14][15] 出海策略 - 出海需"一地一策"深度耕耘,建立国际化能力而非简单复制粘贴 [16] - 产品需根据目标市场劳动力价格、用户习惯和文化差异进行调整 [16][18] - 发达国家对售后服务要求高,需建立本地化服务体系 [17] - 需重视数据安全、隐私保护和专利问题,各国法规差异大 [21] - 日本市场对品质要求极高,但客户忠诚度高,需关注全生命周期价值 [22] 产业链发展 - 期待中国机器人创业环境改善,具身智能领域的世界模型发展能推动行业进步 [24] - AI和大模型发展将解决无序拣选等技术难题,推动全场无人化 [25] - 关键零部件如电机、电池需性能提升且成本下降 [26] - 供应链标准化和健全化将支撑更大规模增长,人形机器人供应链建设是重点 [26] 未来预测 - 2027年人形机器人出货量或达10万台,智能化进展是关键 [27] - 工业或商业服务场景的人形机器人专职工作有望在2-3年内规模化落地 [27] - 大规模应用可能在2030年,届时人们将普遍接受机器人 [28] - 仓储和制造业细分场景可能最先实现具身智能落地 [28] 行业展望 - 期待具身智能模型在未来18个月有重大跨越,中国创业者发挥更大价值 [30] - 持续为客户创造商业闭环价值,共建机器人生态 [31] - 未来人类将感叹"没有机器人世界将会怎样" [32] - 具身智能将给人类社会带来巨大变化,需保持耐心 [33]
别盯着GPT-5了!Google这款Genie 3世界模型,才是未来的AI核心战场
老徐抓AI趋势· 2025-08-15 12:00
AI行业焦点转移 - 当前AI行业关注点正从GPT-5转向Google DeepMind发布的Genie 3世界模型,后者被视为更具颠覆性潜力 [5] - 大语言模型(LLM)基于Transformer架构的发展已接近天花板,升级幅度递减且仅能生成语言描述而非可交互环境 [5] - 世界模型处于"人无我有"阶段,掌握该技术的公司极少,突破后将重塑AI产业格局 [5] 世界模型核心技术特征 - 世界模型能生成逻辑一致、可自由探索的虚拟环境,与被动播放的视频有本质区别 [6] - 环境细节动态生成并保持物理常识一致性,例如刷漆后的墙面颜色持久保留 [6][9] - 可实现事件与环境的自然融合,如龙降入水面时产生符合物理规律的水花效果 [11] 行业应用场景 - 游戏/影视行业:单次文本输入即可生成3A级开放世界,成本从数十亿级别大幅降低 [14] - 自动驾驶:通过自然语言描述生成训练场景,覆盖极端工况并支持参数化调整(天气/光线/路况) [15][17] - 元宇宙基建:解决传统3D建模成本过高问题,推动虚拟世界规模化落地 [20] 技术竞争格局 - 世界模型将成为自动驾驶、机器人、沉浸式体验等领域的关键基础设施 [22] - 谷歌/Meta等科技巨头已布局镜像世界(Mirror World)技术,与智能眼镜等硬件形成生态协同 [20] - 该技术可能催生新一代互联网形态,实现现实与虚拟的深度融合 [20] 产业变革影响 - 将顶级3D内容生产能力从专业工作室向大众市场普及 [14] - 彻底改写自动驾驶训练成本结构,解决真实数据采集瓶颈 [15][19] - 为具身智能(Embodied AI)提供物理规则完备的训练环境 [20]
GPT5发布标志:以Tranformer为架构的大语言模型即将走到尽头,下一波浪潮在哪?
老徐抓AI趋势· 2025-08-15 11:00
核心观点 - GPT-5的发布标志着基于Transformer架构的大语言模型时代可能进入尾声 [6][33][37][38] - GPT-5在性能上呈现渐进式提升而非质变,尤其在数学、编程和多模态领域有显著进步 [9][12][16][19][21][24][28][30] - 大模型行业竞争进入价格战阶段,GPT-5的调用成本显著低于竞品 [26][27][43] - 行业未来可能转向算法创新(如分层推理模型)或数据类型升级(如视频、传感器数据) [38][41] 发布会观感 - 发布会形式更豪华但信息密度低,CEO山姆·奥特曼仅开场露面 [6][7][8] - 相比早期发布会,此次更侧重用户体验优化和价格策略 [8] 性能解析 数学能力 - AIME数学邀请赛:GPT-5无工具准确率94.6%,有工具达100%,但o3模型工具辅助下已接近(98.4%) [9][12] - 前沿数学测试:GPT-5从o3的15.8%提升至26.3%,Pro版本达32.1% [12] - HLE人类终极考试:GPT-5 Pro达42%,超越o3(24.3%)和Grok4(41%) [16] - ARC-AGI-2推理测试:GPT-5落后Grok4,显示推理仍是行业短板 [19] 编程能力 - SWE Bench Verified测试:GPT-5以74.9%微弱超越Claude Opus 4.1(74.5%) [21][24] - 调用成本优势:GPT-5输入/输出成本为Claude Opus的1/8到1/13 [26][27] 多模态与医疗 - 视觉识别相对o3提升有限 [28] - 医疗领域高难度问题进步明显,OpenAI将其列为重点方向 [30] 实际体验 - 复杂任务处理更接近“思考”模式,需依赖“GPT-5 Thinking”架构优化 [33] - 工具链能力增强,如直接检索SEC官网IPO招股书PDF [33] 大语言模型的瓶颈 - 数据见顶:高质量训练数据预计2027-2028年耗尽,可能提前 [33][37] - 参数见顶:GPT-5参数接近1万亿,进一步增长受限于数据 [37] - 技术曲线放缓:GPT-4至5的迭代未带来跨越式提升 [38] 行业未来方向 - 算法创新:如清华HRM分层推理模型 [38] - 数据类型升级:视频(YouTube)、传感器数据(特斯拉)构建“世界模型” [41] 商业竞争态势 - 大模型厂商进入“人优我廉”价格战阶段,GPT-5成本优势显著 [43] - 若无颠覆性创新,行业可能快速进入“人廉我走”阶段 [43] 行业趋势总结 - GPT-5是Transformer架构的阶段性高点,下一波浪潮或依赖新架构或数据模态 [56]
ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
机器之心· 2025-08-14 12:57
研究背景与动机 - 自动驾驶技术需要两大核心能力:对当前环境的深刻理解(识别交通参与者、理解交通规则)和未来场景的准确预测(预测行人、车辆运动)[7] - 当前主流方案将"理解"和"生成"分开处理,但实际决策需要两种能力深度融合[8][10] - 构建统一模型面临挑战:高分辨率环视图像输入LLM的token限制、理解与生成任务相互促进机制、世界知识与场景预测的集成[11] HERMES框架设计 - 采用共享LLM同时驱动理解与生成任务,通过BEV(鸟瞰图)作为统一场景表达[13][18] - BEV Tokenizer将六路环视图像编码为紧凑俯视视角表征,保留空间几何关系和语义细节[18] - 引入世界查询机制:通过自适应采样提取场景核心信息Token,实现知识注入与传递[19] - 联合训练优化:语言建模损失(Next Token Prediction)和点云生成损失(L1损失)[21][22] 技术优势与性能 - 未来生成任务:3秒未来点云误差降低32.4%,Chamfer Distance显著优于ViDAR[31] - 场景理解任务:CIDEr指标提升8%,超越OmniDrive等专用模型[31] - 统一建模效果:生成精度显著提升且理解能力无损,验证框架有效性[31] - 无需历史序列即可实现高效推理,展现强泛化能力[31] 应用表现 - 能准确预测未来三秒车辆与环境动态(如货车轨迹),同时深度理解当前场景(识别"星巴克"并描述路况)[4] - 生成时序连贯且几何精确的未来点云,精准描述驾驶场景细节(动态物体移动预测、路边商家识别)[27]
我们距离真正的具身智能大模型还有多远?
2025-08-13 22:56
行业与公司 - 行业涉及**人形机器人产业链**,重点关注**大模型端**和**硬件端**的发展[1] - 公司提及**特斯拉**作为硬件定型的核心推动者[3][4],以及国内企业如**银河通用**、**心动剂元**、**青铜视觉**、**凌云光**、**天奇**等[22][23][24] --- 核心观点与论据 **1 大模型是行业发展的关键卡点** - 当前行业瓶颈在于**模型端**,尤其是多模态大模型的智能水平,而非硬件控制成熟度[1][2] - 大模型为人形机器人提供“智能大脑”,是推动本轮发展的底层逻辑[2] **2 大模型发展的三条主线** - **多模态输入**:从C-CAN(仅语音)到RT1(动作+视频)、RT2(动作整合),再到Helix(200Hz频率)[5][6][11] - **频率提升**:RT2(1-5Hz)→ 派林(50Hz)→ Helix(200Hz,超过人类反应速度)[6][10][11] - **泛化能力**:通过增强推理能力(如PALM-E引入大模型分析)实现任务迁移[6][9] **3 数据飞轮与硬件定型的关系** - **数据不足**是模型停滞的主因,需真机数据形成闭环,但当前硬件未定型导致数据采集风险高[3][15] - **特斯拉的核心作用**:硬件定型后,行业才能规模化采集真机数据,推动模型迭代[3][4][16] **4 模型架构演进** - 从**分层模型**(大脑与小脑分开训练)到**端到端模型**(联合训练,效果更优但难度大)[7][8] - **快慢脑架构**(如Helix):快脑(80兆Transformer)+慢脑(7B BLM),数据回传实现200Hz高频动作[11][12] **5 数据采集的现状与挑战** - **数据类型**:低质量互联网数据(预训练)、仿真数据(成本低但真实性不足)、真机数据(质量高但效率低)[13][14][15] - **动捕设备**: - **光学动捕**(亚毫米精度,成本高,如青铜视觉、凌云光)[19][23] - **惯性动捕**(IMU,灵活低成本,如诺伊腾,特斯拉采购Xs为观察指标)[18][19] - 当前真机数据采集效率极低(每小时3-4条,单条成本超10元)[16] --- 其他重要内容 **1 未来大模型方向** - 融入更多模态(语言、视觉、传感器等)[20] - **世界模型**:用数学符号模拟物理规律,实现仿真数据≈真机数据(英伟达Cosmos目前效果不佳)[21] **2 国内企业布局** - **银河通用**:全仿真数据路线,发布Grasp VLA模型(无序抓取高成功率)[22] - **心动剂元**:ERA大模型采用双系统架构(快慢脑),早于Figure提出[22] - **天奇**:工业数据采集代工+仿真数据训练[24] **3 投资标的建议** - **动捕设备**:凌云光(光学动捕)、青铜视觉[23] - **摄像头**:阿比[26] - **遥操作**:当红科技、景业智能(工厂及协作场景刚需)[25][26] --- 关键数据引用 - 动作频率:RT2(1-5Hz)、派林(50Hz)、Helix(200Hz)[6][11] - 动捕成本:真机数据单条采集成本超10元,100台机器人日采8-10万条[16] - 光学动捕精度:亚毫米级[19]