World Model

搜索文档
DeepMind科学家揭秘Genie 3:自回归架构如何让AI建构整个世界 | Jinqiu Select
锦秋集· 2025-08-06 17:07
核心观点 - Google DeepMind发布的Genie 3是一种革命性的通用世界模型,能够从文本或图像生成高度互动的3D环境,支持实时交互和动态修改 [1] - 该技术有望开启万亿美元商业版图,成为VR领域的杀手级应用,其核心是生成式交互环境模型,融合游戏引擎、物理模拟器和视频生成模型的特性 [9] - Genie 3代表了从手工编码到AI生成的世界模型演进,通过海量数据自主学习环境动态规律,终极目标是仅用文本提示生成任意交互式世界 [10] 技术演进 - 初代Genie通过3万小时2D游戏录像训练,自主学会视差效应等物理规律,创新包括时空视频编码器、潜在大动作模型和自回归动态模型 [11] - Genie 2实现3D跨越,视觉保真度提升至360p,模拟现实光照效果,具备记忆能力和物体恒存性 [12] - Genie 3分辨率达720p,实现照片级逼真体验和数分钟持续交互,融合VEO视频生成模型优点,展现超长上下文窗口和卓越一致性 [13][14] 关键特性 - 输入方式从图像转为文本提示,提供更大灵活性,支持环境多样性、长时程交互和提示控制的世界事件 [15] - 通过随机神经网络实现世界一致性,自回归架构使模型参考历史生成画面,新区域保留随机性,区分能力来自大规模训练 [16] - 核心应用是为具身智能体训练提供平台,模拟现实场景如自动驾驶罕见事件,形成世界基础模型愿景 [17] 行业影响 - 创造全新互动娱乐形态,类似YouTube 2.0或体验机器,用户可共同创造永不终结的虚拟宇宙 [19] - 简化交互式动态图形制作流程,与传统游戏引擎形成互补而非替代关系 [22] - 有望解决仿真到现实鸿沟,通过逼真世界模拟让AI安全走向真实环境 [23] 技术局限 - 目前仅支持单智能体体验,多智能体系统仍在开发中 [20] - 可靠性问题存在,完全物理和逻辑准确性需时间迭代,无法生成未训练数据场景如古代战役 [20] - 计算速度限制模型复杂度,采用模块化方案如Gemini与Genie 3协同工作 [20]
深夜,OpenAI、谷歌等更新多款模型
第一财经· 2025-08-06 15:17
大模型厂商新品发布动态 - OpenAI开源两款MoE架构推理模型gpt-oss-120b(1170亿参数/51亿激活参数)和gpt-oss-20b(210亿参数/36亿激活参数),标志其开闭源策略转变[3][4] - Anthropic推出Claude Opus 4.1模型,采用渐进式更新策略,在SWE-bench Verify基准测试得分74.5%(较前代+2pct),终端编程/推理/多语言问答能力均有提升[6][7] - 谷歌发布实时交互世界模型Genie 3,支持720p分辨率下24fps动态画面生成(最长数分钟),物理模拟涵盖水/光/生态系统等自然现象[8][9] 技术性能突破 - gpt-oss-120b在编码/工具调用基准测试中接近闭源o4-mini水平,gpt-oss-20b性能对标o3-mini,均支持端侧部署(80GB GPU/16GB消费级设备)[5] - Claude Opus 4.1在Terminal-Bench/GPQA Diamond/MMMLU基准测试分别达43.3%/80.9%/89.5%,客户反馈代码修改精准度显著提升[7] - Genie 3视觉记忆追溯达1分钟,画面一致性时长较Genie 2的8秒提升至数分钟,可模拟复杂环境交互(如摩托艇撞击灯笼效果)[8][9] 战略方向变化 - OpenAI时隔六年重启开源,CEO称两款模型耗资数十亿美元研发,强调本地部署能力(笔记本/手机端运行)[3][5] - Anthropic转向高频次渐进更新模式,计划未来数周持续推出改进版本,聚焦AI智能体能力强化[6] - 谷歌将世界模型定位为AGI关键路径,Genie 3突破实时交互边界但存在动作空间/多智能体模拟等局限[8][11]
CAAI具身智能专委会主任蒋树强:世界模型是智能体进行决策的重要依据
机器人圈· 2025-08-04 19:38
关于具身大模型,蒋树强认为,具身大模型一般需融合视觉、语言和行为数据进行训练。训练具身大模型需要数 据、算力、算法三者统一。数据不再只是文本或视频,而是包含行为、物理参数、触觉等多模态信息,复杂度更 高。 "我觉得在特定场景下,只用一种类型的本体去训练,相对务实一点。但如果是各种各样的机器形态一起训练,事 情的复杂度会很高。"因此,蒋树强表示,具身大模型在真实物理空间中的泛化能力、数据复杂度、传感器差异等 问题仍是挑战。 蒋树强还提到,世界模型是对真实世界的抽象表示,包括三维空间、动态变化、对象关系、记忆与知识等。其目 标是对环境状态进行理解和预测,是智能体进行决策的重要依据。NIPS 2018的一篇文章指出,世界模型相当于 是推理和角色相关模型系统。然而世界模型和大模型的关系以及世界模型和三维空间的关系,都是值得去思考和 挖掘的。 "我们现在有单臂的机器人,让它去自动导航到一个地方,把桌面收拾干净。实际上,这个是偏工程实现的,没有 太多理论的方法,我们主要做研究还是在导航这一块。"蒋树强介绍,目前研究中大量使用模拟器生成数据,但虚 拟环境的物理参数可能不够真实,如何将虚拟与真实环境对齐仍是难题。 "具身智能 ...
Meta chief AI scientist Yann LeCun clarifies his role after the company hires another chief AI scientist
Business Insider· 2025-07-27 03:50
The more the merrier at Meta. The AI talent wars took another turn on Friday when Meta CEO Mark Zuckerberg announced that Shengjia Zhao, co-creator of ChatGPT and the former lead scientist at OpenAI, is now the chief scientist at Meta's Superintelligence Labs."In this role, Shengjia will set the research agenda and scientific direction for our new lab working directly with me and Alex," a statement shared to Zuckerberg's Threads account said. "Shengjia co-founded the new lab and has been our lead scientist ...
一边是毕业等于失业,一边是企业招不到人,太难了。。。
自动驾驶之心· 2025-07-23 17:56
自动驾驶行业现状 - 自动驾驶行业面临人才供需失衡,企业招聘需求旺盛但匹配度高的顶尖人才稀缺 [2] - 行业资本趋于理性,公司更注重商业化落地和盈利而非盲目扩张 [2] - 技术栈虽完备但距离大规模低成本商业化仍有工程鸿沟 [3] - 企业招聘标准提高,对技术适配性和前沿研究能力要求严格 [3][4] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大技术社区,拥有4000+成员和100+行业专家 [7][9] - 社区覆盖30+技术方向学习路线,包括BEV感知、Occupancy、端到端驾驶等前沿领域 [9][69] - 与主流自动驾驶公司建立内推渠道,提供简历直达服务 [8][10] - 每周活跃度位居国内前20,形成学术与产业界的深度互动 [10][71] 技术研究方向 视觉语言模型(VLM) - 涵盖预训练、迁移学习、知识蒸馏等完整技术链条 [15][16][17] - 主流数据集包括LAION5B(50亿图文)、Conceptual 12M(1200万图文)等 [19] - 应用领域覆盖智能交通车辆检索、自动驾驶场景理解等 [27][28] 世界模型 - 聚焦驾驶场景生成与预测,代表工作包括HERMES、DriveDreamer等 [34][36] - 实现3D场景理解与生成的统一,提升自动驾驶系统泛化能力 [34][36] - 2024年涌现InfinityDrive等突破性模型,解决长序列预测难题 [36] 扩散模型 - 在3D重建、视频生成领域形成完整技术体系 [37][42] - DrivingDiffusion等框架实现时空一致性驾驶场景生成 [43] - 应用于数据增强,如Cityscape-Adverse模拟八种恶劣条件 [43] 端到端自动驾驶 - 形成从模仿学习到强化学习的完整方法论 [49][55] - 主流方案融合多模态输入,如DriveGPT4实现可解释决策 [31][55] - 面临开环评估与真实场景的差距挑战 [49][52] 行业应用与数据集 - 专用数据集覆盖200+任务,包括NuScenes(1000小时)、Waymo Open(1200万帧)等 [25][26] - 语言增强系统实现自然语言导航与车辆控制 [26][29] - 决策控制领域涌现GPT-Driver等大模型驱动方案 [29][30]
自动驾驶论文速递 | 世界模型、端到端、VLM/VLA、强化学习等~
自动驾驶之心· 2025-07-21 12:14
Orbis模型技术突破 - 弗莱堡大学提出基于流匹配的连续自回归世界模型Orbis,在仅使用280小时单目视频数据和4.69亿参数条件下实现长时程预测性能突破 [1] - 在nuPlan数据集上FVD指标降至132.25(6秒预测),转弯场景轨迹精度(Frechet Precision)提升至0.47 [1] - 设计混合离散-连续tokenizer实现两种建模方法的公平对比,发现连续建模在长视野预测中显著优于离散建模 [2] - 模型在复杂驾驶场景(如转弯、城市交通)中表现突出,超越Cosmos、Vista等基线模型 [6][8] LaViPlan框架创新 - ETRI团队提出基于可验证奖励强化学习(RLVR)的语言引导视觉路径规划框架 [12] - 在ROADWork数据集上将轨迹预测ADE降低19.91%(Easy场景)和14.67%(Hard场景) [12] - RLVR使模型输出从语言忠实性转向功能准确的轨迹,揭示语义相似性与任务特定推理间的权衡 [14] - 相比监督微调需显著更少的训练样本,在强化阶段纳入硬案例能实现更好的泛化能力 [15] 世界模型驱动的场景生成 - 澳门大学团队提出世界模型驱动的驾驶场景生成框架与增强动态图卷积网络 [23] - 在DAD数据集上实现83.2% AP(提升7.0%)和3.99秒mTTA(提升9.1%) [23] - 发布包含4800样本的AoTA数据集,环境因素分布比DAD数据集更平衡 [32] - 利用视觉语言模型提取事故相关领域特征,生成保留原始特征分布的合成场景 [28] ReAL-AD类人推理框架 - 上海科大与港中文提出通过视觉语言模型驱动三层人类认知决策的端到端自动驾驶框架 [33] - 在nuScenes和Bench2Drive数据集上将规划精度(L2误差)提升33%、碰撞率降低32% [33] - 驾驶安全分数提升至41.17,战略推理注入器构建高层驾驶策略,战术推理整合器细化战术选择 [39][42] - 分层轨迹解码器将战术决策转化为精确控制动作,验证了各组件的有效性 [39]
L4产业链跟踪系列第三期-头部Robotaxi公司近况跟踪(技术方向)
2025-07-16 14:13
纪要涉及的行业和公司 - 行业:自动驾驶(Robotech)行业 - 公司:小马、百度、文远、滴滴、Otto X、Vimo 纪要提到的核心观点和论据 技术架构与算法框架 - 最初自动驾驶底层算法框架是模块化做法,包含感知、预测、规控、规划和控制,如今强化学习和世界模式加入,但原框架未完全拿掉 [2] - 产业链车企经历从CNN架构到transformer的转变,小马逐步将规则方案替换为模型输出,出发晚的车企替换更容易,小马因原有方案基线高,替换需更长时间 [3][4] - 感知和预测模块很早就用模型做,规控模块虽有模型应用但未完全大模型化,业界多是一段式端到端化,大语言模型未上车,模型训练已使用transformer底层架构 [5][6][7] 数据处理 - 小马内部有模块化和端到端两种方案,模块化方案目前大部分用真实数据,端到端和规控模型化会增加仿真数据使用,因规控数据不足,仿真数据可解决corner case问题 [8][9] 学习方法应用 - 模仿学习较早用于规则处理不好的场景,强化学习用于e2e模型和部分小模块,使用比例不大 [11] 车辆投放 - 目前有安全冗余或测试车辆约小几百(300)辆,主要投放于北京和广州(北京在益州,广州在南沙区),深圳(前海)和上海较少 [14] - 今年计划扩大投放,主要城市为北京、广州和深圳,若上海拿到牌照也会增加投入 [21] 车辆成本与配置 - 车辆成本十几万,加装成本为主,包括9个激光雷达、13 - 14个相机、4个Orin X车载芯片及定位、线控等模块,成本在几万块以内,之前对内称整套成本可控制在20万以内 [15] 算力分配与融合方案 - 算力架构采用前融合和后融合并存,有冗余性,4个Orin X芯片中3个开启,1个备用。第一个芯片运行大部分感知模型,第二个芯片运行部分无雷达输入或对实时性要求稍低的模型,第三个芯片部分模型可能移至第二个芯片 [17][18] - 目前算力吃紧,2024年部分精力用于削减个体量化,暂无换CPU计划 [19] 运营经济账 - 每辆车每天接单约30单,每单平均价格约29元,可据此估算营收。成本主要是电费、车辆折旧费,还有人工充电、车辆维修等成本,1000多辆车可实现盈亏平衡 [24][25] - 后台安全员人车比去年为1:3 - 1:6,现在部分情况可达1:20 [25] 商业化落地排序 - 全球来看,Vimo在美国落地较多,走在前面;国内参与者中,小马、百度的阿波罗、文远较靠前,滴滴靠后,Otto X、袁隆等已停止相关业务 [27][28] - 小马拿商业牌照速度比百度快,内部端到端模型在某些情况下输出结果优于模块化模型,未来有望切换到端到端方案 [28][29] 其他重要但是可能被忽略的内容 - 公司计划在2027年底或2028年底实现公司层面盈亏平衡,可能需要万辆以上甚至十万辆车 [26] - 后续会议将关注无人物流等行业头部公司进展 [30]
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-07-14 22:04
行业趋势与人才需求 - 自动驾驶和具身智能公司对人才要求较高,倾向于实力强、背景好的候选人 [3] - 大公司招聘需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向 [4] - 机器人初创公司融资活跃,未来几年发展前景可观 [4] - 传统机器人技术仍是产品主线,但具身智能是最前沿方向 [5] 技术方向与就业建议 - 双非学生可转向机器人/具身智能领域,从事SLAM、ROS相关优化和集成工作 [4] - LV融合、无图、BEV感知等技术已应用但人才饱和 [4] - 深圳、杭州的机器人公司提供全面技术培养机会 [5] 前沿技术资源汇总 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大技术方向 [9] - 提供10个Awesome和综述资源链接,涵盖智能交通、AIGC、视觉语言模型等领域 [10] - 列出17个VLM预训练数据集,最大规模达12B图像-文本对(LAION5B) [17] - 汇总图像分类、文本检索、行为识别等评估数据集,如ImageNet-1k(1000类)、Kinetics700(700类) [18][20] 自动驾驶数据集与应用 - 覆盖2D/3D目标检测、语义分割、跟踪等任务,如NuScenes(2020年,多模态)、Waymo Open Dataset(2020年) [23] - 语言增强数据集支持视觉-语言导航、车辆检索等应用,如NuScenes-QA(2023年) [24] - 智能交通领域方法聚焦语言引导的车辆检索和视觉问答 [25] - 自动驾驶感知技术包括语言引导的3D检测、开放词汇分割(如OpenScene) [26] 世界模型与扩散模型 - 世界模型研究集中在3D场景理解和生成,如HERMES(2025年)、DriveGPT(2024年) [32][33] - 扩散模型在自动驾驶中用于视频生成(如DriveDreamer)、数据增强(如Cityscape-Adverse) [35][41] - 汇总19篇扩散模型综述,涉及3D视觉、推荐系统等方向 [35][38][39] 端到端自动驾驶 - 开源仓库跟踪E2E最新研究,如opendilab/awesome-end-to-end-autonomous-driving [43][47] - 方法融合多模态感知与规划,如DriveGPT4(2023年)、VADv2(概率规划) [47][50] - 研讨会覆盖CVPR、ICRA等会议,探讨基础模型与规模化应用 [48] - 长尾分布问题通过对抗训练(如CAT)、场景生成(如KING)解决 [53][58]
4000人的自动驾驶黄埔军校,死磕技术分享与求职交流~
自动驾驶之心· 2025-07-12 22:43
智能驾驶行业现状 - 2025年智能驾驶行业呈现分化态势,部分从业者转向具身智能领域,但多数仍坚守原赛道 [2] - 头部企业持续高薪招聘人才,应届生薪资可达45k*16薪,超越2-3年经验社招水平 [2] - 行业技术迭代周期明显缩短,2025年技术基调确定为VLA(视觉语言行动)架构 [7] 核心技术趋势 - 大模型赋能端到端2.0技术成为主流方向,涵盖视觉大语言模型基座、扩散模型轨迹预测等技术栈 [7] - 世界模型成为关键技术,涉及3DGS生成技术、闭环仿真等前沿领域 [7] - 视觉语言模型(VLM)在感知任务中应用广泛,包括预训练、迁移学习和知识蒸馏等方法 [19][20][21] 自动驾驶社区生态 - 自动驾驶之心知识星球已成为国内最大专业社区,拥有近4000名成员和100+行业专家 [11] - 社区构建完整技术闭环,涵盖课程体系(9大视频教程)、硬件开发(标定板、机械臂)和实战项目 [3] - 与近200家企业建立合作,包括小米汽车、地平线、英伟达等头部公司,提供内推渠道 [7][66] 行业应用场景 - 智能交通领域应用语言引导车辆检索、视觉问答等技术,提升系统交互能力 [30] - 自动驾驶感知模块融合视觉语言模型,实现开放词汇目标检测和语义分割 [31] - 决策控制系统结合大语言模型,开发可解释的轨迹预测和运动规划方案 [32][33] 数据集发展 - 视觉语言预训练数据集规模显著扩大,LAION5B包含50亿图文对,WebLI达120亿规模 [23] - 自动驾驶专用数据集持续丰富,NuScenes、Waymo Open Dataset支持多任务学习 [28] - 语言增强数据集兴起,如NuScenes-QA支持视觉问答任务,推动人车交互发展 [29] 人才发展体系 - 社区建立30+技术学习路线,覆盖BEV感知、Occupancy等40个方向 [11] - 求职板块包含100问系列(TensorRT部署、BEV感知等)和面经分享,直击企业需求 [66][68] - 直播体系每年规划100场,邀请CVPR/ICCV作者和车企专家分享量产经验 [15][16]
李飞飞:高校学生应追逐AI“北极星”问题
虎嗅· 2025-07-08 16:15
行业趋势与技术创新 - 数据驱动方法成为AI发展的关键转折点,ImageNet项目通过构建包含10亿张图片的全球视觉分类体系,开创了计算机视觉领域的数据范式转变[4][5][6] - 2012年AlexNet突破性成果将CNN算法与GPU并行计算结合,识别错误率从30%显著降低,标志着深度学习时代的开启[7][8] - 生成式AI技术实现从图像描述到图像生成的跨越,扩散模型等创新推动内容创作进入新阶段[10][11][12] 3D空间智能与AGI发展 - 空间智能被视为AGI的核心组件,3D世界建模涉及5.4亿年进化形成的复杂能力,需解决3D结构理解、物理规则模拟等挑战[13][14][16] - World Labs聚焦空间智能基础模型开发,应用场景覆盖建筑设计、机器人技术、元宇宙内容生成等领域[20][21][23] - 3D建模技术难度远超语言模型,涉及多维数据处理、传感器融合及物理规律约束,目前行业缺乏高质量训练数据集[17][19] 企业战略与人才发展 - 跨学科研究成为学术界差异化方向,科学发现、小数据学习、理论可解释性等方向存在突破机会[34][35][36] - 初创企业需专注"北极星"问题,通过技术精英团队实现突破,World Labs核心成员包括NERF论文作者等顶尖人才[14][15][33] - 人才招聘强调思想无畏特质,工程、产品、3D建模等领域需兼具技术实力与解决复杂问题勇气[31][32][33] 技术生态与商业模式 - 开源策略需匹配商业目标,Meta等平台型企业通过开源构建生态,而技术商业化公司可采用混合授权模式[42][43] - 硬件与软件融合将推动元宇宙发展,3D内容创作工具链完善是突破瓶颈的关键[21][23] - 行业呈现多元化技术路线,视觉智能与语言模型在架构设计、数据需求等方面存在显著差异[18][19][22]