Workflow
世界模型
icon
搜索文档
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
机器之心· 2025-10-02 09:30
文章核心观点 - 谷歌DeepMind提出的世界模型Dreamer 4,是一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务 [5] - Dreamer 4是首个仅从标准离线数据集(无需与环境交互)就在具有挑战性的电子游戏《我的世界》中获得钻石的智能体 [7] - 该模型利用新颖的shortcut forcing目标和高效的Transformer架构,准确学习复杂的物体交互,同时实现实时人机交互和高效的想象训练 [11] 模型设计概览 - Dreamer 4智能体由一个tokenizer和一个动力学模型组成,两者均使用相同的高效Transformer架构 [17] - tokenizer通过掩码自动编码进行训练,将视频帧压缩为连续表示 [17] - 动力学模型通过shortcut forcing目标进行训练,以实现少量前向传递的交互式生成,并防止随时间累积误差 [17] - 训练流程包括在视频和动作上预训练tokenizer和世界模型,然后将策略和奖励模型微调至世界模型中,最后通过想象训练对策略进行后训练 [19] 实验结果 离线钻石挑战 - 在《我的世界》钻石任务中,Dreamer 4在使用的数据量少100倍的情况下,大幅超越了OpenAI的离线智能体VPT [22] - Dreamer 4超越了利用Gemma 3视觉语言模型通用知识的VLA智能体,在制作铁镐的成功率上几乎是VLA智能体的三倍 [22] - 与基于行为克隆的方法相比,Dreamer 4在四个关键物品的成功率以及获取物品所需时间这两个指标上均表现更优 [24] 人类交互评估 - 在涵盖挖坑、建造墙壁、砍伐树木等16项多样化任务的评估中,Dreamer 4成功完成了14项任务,成功率为14/16 [29] - 相比之下,Lucid-v1模型成功率为0/16,Oasis(small)模型成功率为0/16,Oasis(large)模型成功率为5/16 [29] - Dreamer 4模型参数量为2B,支持640×360分辨率,上下文长度为9.6秒,帧率为21 FPS [29] 动作生成效率 - 仅使用10小时的动作训练时,Dreamer 4的PSNR达到53%,SSIM达到75% [32] - 使用100小时的动作训练时,性能进一步提升,PSNR达到85%,SSIM达到100% [32] - 结果表明世界模型从无标签视频中吸收了大部分知识,仅需要少量的动作标签 [32]
Sim,Real还是World Model?具身智能数据的“困境”与解法
具身智能之心· 2025-10-01 20:48
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在具身智能的征途上,我们究竟该依赖仿真的效率,还是现实的真实数据,甚或期待世界模型改变游戏规则? 随着物理仿真进入深水区,"仿真派"能否笑到最后? 然而Physical Intelligence (PI)联合创始人、具身智能领域的先行者Sergey Levine始终坚称:替代数据是叉勺(叉子勺子二合一的产物,既不 如勺子,也不如叉子),真实交互数据不可替代——这究竟是策略局限,还是数据本质的铁律?如今,Genie3携世界模型横空出世,能够 从文本生成可交互的动态环境,甚至驱动在线规划。这是否意味着我们正站在"仿真"与"现实"二元对立终结的前夜?世界模型会成为数据 问题的终极答案,还是仅仅换了一种形式的sim,并依然难逃Sim-to-Real gap的宿命? 本场技术圆桌,我们邀请到国内Sim2Real领域四位杰出青年科学家—— 与他们四位共话前沿,从高保真3D资产构建、神经渲染的物理瓶颈、铰链体结构优化,到VLA模型的解耦设计等方面入手深入探讨:具身 智能的数据之路,究竟通向仿真、现实,还是那个正在 ...
有人在自驾里面盲目内卷,而有的人在搭建真正的壁垒...
自动驾驶之心· 2025-09-30 07:33
行业变革与人才流动 - 车企正经历新一轮组织架构调整 9月有48位高管发生变动 [1] - 头部公司积极调整技术团队架构 理想汽车将智驾团队拆分为11个二级部门 [1] - 人才竞争加剧 比亚迪从斑马智行挖来CTO负责智能座舱业务 [1] - 技术高管身兼多职 蔚来汽车任少卿同时负责公司自动驾驶业务并在中科大搭建实验室 [1] 技术演进趋势 - 自动驾驶算法快速迭代 三年前主流是BEV 两年前转向无图方案 一年前兴起端到端 当前聚焦VLA和世界模型 [1] - 前沿研究方向集中在VLA/VLM 端到端自动驾驶 世界模型 闭环仿真3DGS 强化学习等领域 [3] - 算法工程师面临持续学习压力 需要不断更新认知并跳出舒适圈 [1] 行业信息壁垒 - 学术界与工业界存在明显信息差距 在校学生和中小厂算法工程师对业内实际进展了解有限 [3] - 不同公司之间技术交流不畅 形成信息壁垒 [3] 自动驾驶社区生态 - 自动驾驶之心知识星球已运营三年 形成视频+图文+学习路线+问答+求职交流的综合社区 [5] - 社区规模超过4000人 目标两年内达到近万人规模 [5] - 社区汇集学术界和工业界资源 成员来自上海交大 北京大学 CMU 清华大学等知名高校以及蔚小理 地平线 华为等头部企业 [20][21] 技术资源体系 - 社区梳理40+技术方向学习路线 涵盖感知 仿真 规划控制等核心领域 [10][21] - 汇总近40个开源项目 近60个自动驾驶数据集 以及主流仿真平台 [21] - 提供七大福利视频教程 涵盖世界模型 自动驾驶大模型 Transformer等热门话题 [88] - 举办超过100场专业技术直播 邀请行业专家分享最新研究成果 [90] 职业发展支持 - 建立内推机制 与多家自动驾驶公司合作提供岗位内推服务 [13] - 社区内部交流活跃 成员可咨询行业应用 技术路线 求职跳槽等实际问题 [11][24] - 针对不同基础的学习者提供全栈方向课程 包括0基础入门和进阶提升内容 [12][21]
华尔街见闻早餐FM-Radio|2025年9月30日
搜狐财经· 2025-09-30 07:27
市场表现 - 美股三大指数连续两日上涨至一周高位 标普500涨0.26%报6661.21点 道指涨0.15%报46316.07点 纳指涨0.48%报22591.154点[1][6] - 科技股和芯片股表现强劲 英伟达涨超2% 美光涨超4% 芯片指数两连阳[1] - 中概股反弹 中概指数收涨2% 阿里巴巴涨超4%[1] - 欧洲STOXX 600指数涨0.18%报555.53点[6] - A股大幅上涨 沪指涨0.90%报3862.53点 深证成指涨2.05%报13479.43点 创业板指涨2.74%报3238.01点[7] - 港股科技股普涨 恒科指涨2%[1] 商品市场 - 黄金连续三日上涨创历史新高 现货黄金一度涨近2%首次突破3800美元 COMEX 12月黄金期货收涨1.21%报3855.2美元/盎司[1][8] - 白银续创2011年来新高 COMEX 12月白银期货收涨0.77%报47.016美元/盎司[1][8] - 原油大幅下跌 WTI 11月原油期货收跌3.45%报63.45美元/桶 布伦特11月原油期货收跌3.08%报67.97美元/桶 创三个月最大跌幅[1][8] - 伦铜反弹超2%至逾一年新高 收涨约2.3%报10414美元/吨 COMEX 12月期铜收涨约2.5%报4.892美元/磅[1][8] - 伦锡收涨约2.9%报35490美元/吨[8] 债券与外汇 - 美债收益率下行 十年期美债收益率约为4.14%日内降近4个基点 两年期美债收益率约为3.62%日内降约2个基点[1][8] - 美元指数继续跌离三周高位[1] - 比特币盘中涨近4000美元突破11.4万美元关口 以太坊一度反弹超4%[1] - 以色列谢克尔盘中涨近2%[4] 人工智能与科技 - 国家发改委推出5000亿元新型政策性金融工具 全部用于补充项目资本金 支持民营企业深度参与"人工智能+"行动[1][11] - DeepSeek大模型V3.2亮相 华为和寒武纪芯片同步适配开源 首次自研DSA注意力机制 API价格砍半超过50%[4][16] - Anthropic推出Claude Sonnet 4.5 号称"全球最佳编码模型"[4][17][23] - OpenAI计划推出Sora 2独立App 默认使用版权内容引发争议[4][17] - 科技巨头加码"世界模型"研发 英伟达高管称潜在市场规模高达100万亿美元[22] 平台经济与税收 - 国家税务总局规定平台企业不得以任何形式将自身涉税义务转嫁给平台内从业人员[2][12] - 互联网平台外卖员、快递员等人员年收入12万元以下基本无需纳税[2][12] - 平台企业将于10月1日起首次正式报送平台内经营者和从业人员身份信息及收入信息[12] 地缘政治与贸易 - 特朗普威胁对海外制片征收100%关税[2][13] - 瑞士为降低特朗普的39%关税提议投资美国炼金业 考虑将炼金厂利润率最低业务转移至美国[2][13] - 俄罗斯对乌克兰发动大规模袭击 发射590多架无人机和超过40枚导弹[4][15] - 美国正考虑向乌克兰提供"战斧"导弹 射程可达1500-2400公里[4][15] 半导体与硬件 - 深圳新凯来半导体公司发布30多款半导体设备 开始引入外部投资方[15] - 郭明錤将小米17出货量目标下调20% 原定目标约1000万台 主要因iPhone 17标准款在中国市场强势表现[5][17] - 小米集团港股收跌2%[17] 金融与政策 - 美国黄金储备价值触及1万亿美元 但官方账面价值仍固定在1973年的每盎司42.22美元[4][14] - 美国SEC主席呼吁放松监管 评估以半年报代替季报[19] - 美国8月成屋签约销售创五个月新高 按揭贷款利率下降提振住房市场[20] - 日本央行10月加息可能性约为60% 鸽派委员转向支持加息[21] 行业动态 - 教育数字化加速推进 国家智慧教育平台深化应用试点[24] - 全超导磁体实现35.1特斯拉中心稳态磁场 创造新的世界纪录[24] - 原子级制造可能纳入"十五五"规划 面向集成电路、航空航天等高端制造发展需求[25] - ChatGPT联手Etsy和Shopify开启AI购物时代 Etsy大涨16% Shopify涨超6%[23]
金融时报:超级智能的下一个入口,谷歌、Meta、英伟达......科技巨头都在加码“世界模型”
美股IPO· 2025-09-29 16:51
行业趋势转变 - AI研发重点正从大语言模型转向"世界模型",以理解和模拟物理世界 [1][3] - 大语言模型技术进步放缓,性能飞跃开始放缓,业界认为其正触及其能力天花板 [7][8] - 这一趋势标志着AI领域竞争焦点从语言领域转向物理世界,被视为推动机器实现"超级智能"的关键一步 [3][4] 主要参与者与战略布局 - 谷歌DeepMind发布Genie 3模型,能逐帧生成视频并考虑过去的交互,通过构建模拟环境训练AI [5] - Meta开发V-JEPA模型,模仿儿童被动学习方式用原始视频内容训练,并已在机器人上进行测试 [5] - 英伟达首席执行官黄仁勋断言公司下一个主要增长阶段将来自"物理AI",正利用Omniverse平台支持向机器人领域扩张 [5] - 英伟达高管表示"世界模型"潜在市场规模可能高达100万亿美元,覆盖制造、医疗等实体领域 [1][3] 技术进展与应用前景 - "世界模型"通过学习视频和机器人数据来理解物理世界,应用前景覆盖自动驾驶、机器人和制造业等领域 [1][4] - 近期应用包括娱乐行业,初创公司World Labs开发从单张图片生成3D环境的模型,Runway推出创建游戏场景的产品 [6] - 构建"世界模型"面临巨大的数据和算力挑战,但可通过仿真环境训练,无需承担在现实世界中犯错的后果 [4][5][9] 发展挑战与时间框架 - 实现由新一代AI系统驱动、具备人类水平智能的机器可能还需要十年时间 [9] - 大语言模型被警告永远无法实现人类那样的推理和规划能力 [9] - 构建模型需要收集海量物理世界数据和算力,是一项未被攻克的重大技术挑战 [9]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 16:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
AI下一轮飞跃的引爆点:“世界模型”
财联社· 2025-09-29 16:44
科创板日报 . 专注科创板和科技创新,上海报业集团主管主办,界面财联社出品。 人工智能先驱们几乎一致认为,世界模型对打造下一代人工智能正至关重要。许多人表示,该技术终将助力创造超越人类的"通用人工智 能"(AGI)。 早在去年,斯坦福大学教授、人工智能"教母"李飞飞已筹集2.3亿美元创立世界模型初创公司World Labs。英伟达首席执行官黄仁勋今年早 些时候也表示,世界模型能助力实现"物理人工智能",自主操控机器人、自动驾驶汽车等设备。 而就在上周,Meta官宣发布了一款名为代码世界模型(Code World Model)的LLM,探索如何使用世界模型改进AI代码生成性能。Meta新 成立的超级智能AI实验室将与机器人团队合作,构建一个"世界模型",模拟现实世界物理规律,为机器人提供空间感知和精细操作能力,弥 补现有机器人的不足。 在中国方面,全球知名增长咨询公司Frost & Sulllivan近期发布的《2025年中国世界模型发展白皮书》报告显示,中国世界模型领域玩家已 经超过10家。 以下文章来源于科创板日报 ,作者潇湘 优步前AI业务负责人、经常批评当前AI模式的Gary Marcus指出,无论当今 ...
在具身智能的岔路口,这场论坛把数据、模型、Infra聊透了
机器之心· 2025-09-29 10:52
行业核心观点 - 具身智能行业正处于技术路线分歧与探索阶段,面临数据稀缺、技术架构选择等关键议题 [1] - 行业已初步观察到具身智能的Scaling Law,预示扩大模型和数据规模可能有效 [24] - 阿里云作为云计算巨头,提前布局行业未来3到5年的基础设施需求,旨在为行业爆发做准备 [3] 数据路线之争:真机派 vs. 合成派 - 真机派主张通过遥操或互联网获取真实数据,基于VLA做模仿学习,认为真实数据是训练世界领先模型的根本 [5][14] - 合成派认为实现通用泛化能力需上万亿条数据,真机采集不可持续,主张通过仿真合成数据进行预训练,再用少量真实数据后训练 [5][8][9] - 真机派挑战“真机数据昂贵”共识,指出在国内供应链支持下,单个机器人成本可降至10万以下,规模化部署机器人采集数据成本可控 [12] - 合成派面临挑战:某些仿真数据获取依赖专业人力(如图形学博士),成本可能更高;仿真数据效率可能比真实数据差5-6个数量级 [11] 技术架构与模型形态 - 具身智能大模型被视为独立于语言模型的基础模型,因其需处理物理动作和接触的复杂性 [18] - 技术架构存在端到端与分层路线之争:分层架构考虑现实部署约束,符合生物进化规律;端到端架构旨在避免分层错误放大和层间理解鸿沟 [19] - 视觉语言动作模型(VLA)被视为当下更有潜力的路线,仅需100条数据即可见效,而世界模型需万级至亿级数据量,是更终局的路线 [21] - 世界模型被赋予重要作用,如辅助VLA进行自主学习探索、生成动作序列补充数据,与VLA是互补而非冲突关系 [20] 行业发展趋势与阿里云的角色 - 行业落地速度加快,多家公司分享了在工业制造、康复陪伴、教育竞赛等场景的实践 [24] - 阿里云基于智能驾驶行业经验,提前为具身智能行业的数据指数级增长和算力需求布局,提供全链路基础设施支持 [3][31][32] - 阿里云具备模型原厂优势,其开源模型Qwen-VL被大量具身智能公司用于后训练,最新Qwen3-VL模型针对具身智能需求优化 [37][38] - 阿里云将智能驾驶领域的工程经验复用至具身智能,提供从数据处理、模型服务到工具链集成的全套云上能力 [35][41][42] - 公司建议具身智能企业从第一天起规划云架构和AI基础设施,以应对量产阶段的数据激增和工程化挑战 [29][42]
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
36氪· 2025-09-28 18:51
还记得 DeepMind 的 Genie 3 世界模型吗?它首次让世界模型真实地模拟了真实世界。 最近,X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想,开发出了 TinyWorlds,一个仅 300 万参数的世界模型,能够实时生成可玩的像素风格环 境,包括 Pong、Sonic、Zelda 和 Doom。 帖子附带演示视频,展示了模型通过用户输入实时生成视频帧的过程。 博主还分享了从架构设计到训练细节的完整经验,并开源了代码仓库。 代码: https://github.com/AlmondGod/tinyworlds 理解世界模型 世界模型是一类神经网络,它们通过生成视频来模拟物理世界。 DeepMind 在 Genie 3 上展示了这一理念的潜力:当世界模型在大规模视频数据上训练时,会出现类似 LLM 中的「涌现能力」。例如: 可控性:按下方向键,镜头会随之平移。 一致性:离开房间再返回,墙上的新油漆依旧存在。 质量:水坑中的倒影清晰可见。 在 Genie 出现之前,研究者普遍认为要扩展世界模型,必须依赖带动作标注或包含三维结构的数据。 然而 DeepMind 发现,只要足够规模化地 ...
大神爆肝一个月,复刻DeepMind世界模型,300万参数就能玩实时交互像素游戏
机器之心· 2025-09-28 18:29
文章核心观点 - TinyWorlds项目成功复刻了DeepMind Genie 3世界模型的核心思想,仅用300万参数即实现了实时生成可交互的像素风格环境,证明了世界模型技术路径的可扩展性和巨大潜力 [1] - 世界模型通过在海量未标注视频数据上进行规模化训练,能够自然涌现出可控性、一致性和高质量生成等高级行为,其发展逻辑类似于大型语言模型 [5][7] - 项目采用自回归生成方式,并借鉴了大语言模型的优化技巧,其成功再次印证了“规模与数据往往胜过技巧”的行业经验 [20][32] 世界模型技术原理 - 世界模型是一类通过生成视频来模拟物理世界的神经网络,其关键挑战在于训练通常需要逐帧的动作标签 [5] - Genie的解决方案是先训练一个动作分词器来自动推断帧间动作标签,从而将海量未标注视频转化为可用训练资源,这是模型能够扩展至数百万小时YouTube视频的关键 [5][7] - 模型涌现出的高级能力包括:按下方向键镜头随之平移的可控性、离开房间再返回墙上新油漆依旧存在的一致性、以及水坑中倒影清晰可见的生成质量 [8] TinyWorlds架构设计 - 模型核心是一个时空变换器,通过空间注意力(同一帧内部token关联)、时间注意力(token关注前几个时间步信息)和前馈网络(token非线性处理提取高阶特征)三层机制捕捉视频三维信息 [15][21] - 最终架构由三个模块组成:视频分词器(将视频压缩为token)、动作分词器(预测两帧间动作)和动力学模型(结合历史视频和动作预测未来帧) [22] - 在动作影响视频生成的方式上,实验表明利用动作对表示进行缩放与移位比拼接动作与视频表示效果更好 [17] 训练与优化策略 - 视频分词器通过有限标量量化(FSQ)将图像划分为立方体来表示图像块,产生的小token信息密集,减轻了动力学模型的预测负担 [24] - 为解决动作分词器在训练初期易忽略动作信号的问题,引入了掩码帧(迫使模型依赖动作)和方差损失(鼓励编码器覆盖更多可能性) [28] - 动力学模型训练中通过预测掩码token学习时序关系,最初因模型过小导致性能停滞和输出模糊,扩大规模后效果显著提升 [30] 性能表现与未来展望 - 尽管生成的画面仍显模糊和不连贯,但TinyWorlds已能生成具备可玩性的环境,包括驾驶《Pole Position》中的赛车、在《Zelda》地图上探索以及进入《Doom》的3D地牢 [32][33] - 作者认为若将模型扩展至千亿级参数并引入扩散方法,生成质量将会有巨大提升 [32] - 项目完整经验已分享并开源代码,数据集由处理过的YouTube游戏视频构成,包括Pong、Sonic、Zelda、Pole Position和Doom等多类游戏 [3][12][15]