Workflow
世界模型
icon
搜索文档
某新势力多位智驾高管离职......
自动驾驶之心· 2025-10-19 00:03
公司核心人员变动 - 蔚来智能驾驶产品负责人黄鑫于国庆节前离职,其于2022年加入公司并担任副总裁,直接向首席执行官汇报,负责智驾产品体验业务[4][6] - 人工智能平台负责人白宇利与世界模型负责人马宁宁于近期离职,白宇利2020年入职,职级为资深总监,马宁宁团队主导了世界模型1.0版本的全量推送[4][7][8] - 算法核心负责人樊昊阳已于四月份离职,其主导研发的端到端Planner模型显著提升了公司NOP+系统的实时决策能力[4][9] 公司组织架构与战略调整 - 公司回应此次人员变动为主动的组织架构调整,旨在强化对通用人工智能技术的吸收并加速智能驾驶体验交付[11] - 调整后构建了预研、量产、平台复制、车型复制的「4×100接力棒」模式,将智能驾驶组织与通用人工智能组织并轨[11] - 组织架构调整旨在全力冲刺世界模型2.0版本的开发与交付,预计从今年底到明年一季度陆续在多个平台推出迭代版本[11][13] 公司技术发展方向 - 公司技术战略以世界模型为主,旨在打通自动驾驶时空认知能力,认为真正的技术上限在于以视频为核心,学习时空和物理规律的世界模型[11] - 世界模型2.0的开发将引入语言能力,目标是实现像人一样的开放式交互,构建Open-set智能引擎[11] - 行业层面,近期多家主机厂与新势力公司在组织架构上均有大动作,预示下一轮智能驾驶质变时刻的前兆[14]
李想: 特斯拉V14也用了VLA相同技术|25年10月18日B站图文版压缩版
理想TOP2· 2025-10-19 00:03
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的教育过程[13][14] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带教的经验传授[15][16] - 智能体阶段AI开始实际工作并使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准[17][18] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手上万小时实战训练[19][20] - 组织者阶段负责管理大量智能体和创新者,防止失控风险,类比企业管理者职能[21] 人工智能发展路径与算力需求 - 预训练基座模型不需要每家企业自研,类比不需要每家企业都开办大学[5][21] - 智能体阶段需要推理能力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理建立数字孪生[6][22] - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍,端侧和云端算力需求都将显著增长[7][23] 理想汽车AI技术布局 - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[8][24] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[9][26] - V14证明特斯拉使用VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[39] 机器人发展路径 - 机器人发展存在两条路径:将现有工具改造为机器人,或开发人形机器人操作万物[27][28] - 工具改造路径效率更高,如将炒菜工具直接机器人化而非使用人形机器人炒菜[27][28] 人类与AI的协同发展 - 训练目的为提高成功率,可参考一万小时训练理论,核心训练信息处理能力、出题解题能力和资源分配能力[9][32] - 人类需在AI遵循最佳实践训练背景下,要么理解并管理AI,要么与AI协同工作,否则面临被替代风险[30][37] - 信息处理能力训练重点在于识别关键信息并过滤无效信息,不同专业领域信息处理方式各异[33] - 资源分配能力训练关键在于有限资源的高效分配,人类大脑通过高效资源分配实现低功耗高效益[35][36] AI工具应用偏好 - 公司偏好使用Grok的对话方式,因其回答简单干脆,相较国内模型更直接利索[41] - 支持上班族使用AI撰写汇报,认为使用先进工具是人类与其他生物的最大区别[42]
专访信通院孙鑫:大模型快速迭代需软硬件深度协同
21世纪经济报道· 2025-10-18 09:13
人工智能发展趋势 - 基础大模型迭代速度加快,多模态模型理解能力整体提升90%,TOP1模型迭代周期从去年的几个月缩短至几周 [2] - 软硬件深度协同、高效融合成为大模型研发新范式,极致的软硬协同是支撑大模型快速迭代的关键 [1][3] - 智能体成为大模型应用的主要形态,加速形成智能体经济 [1][3] - 开源带动“群体进化”和人工智能普惠发展,极大降低了大模型落地应用的门槛 [3] 模型能力增强方向 - 语言基础超级模型深度集成多种能力,模型推理能力成为衡量模型的重要指标 [5] - 多模态大模型深度融合理解和生成能力,原生多模态架构逐渐走向成熟 [5] - 世界模型加速构建数据生成、动作解释、环境交互、场景重建四类核心能力,是AI通向AGI的关键基石 [5][6] - 具身智能以突破具身图灵测试为目标,实现生物级感觉运动能力 [6] 智能体技术发展 - 智能体是数字员工的初级形态,能够自主完成复杂任务并获得比单一模型更好的性能表现 [2][5] - 推动互联互通和长难任务处理是当前智能体技术创新的主旋律 [2][10] - 智能体完成任务的长度大约每7个月翻一番,未来将能独立完成人类需数天或数周的任务 [11] - 通信协议如MCP、A2A成为智能体与外界交互的“桥梁”,可降低系统集成复杂性 [10] 人工智能行业应用 - 人工智能赋能行业遵循从数字化水平较好领域率先突破,再逐步扩散的规律 [12] - 互联网等数字原生领域凭借数据沉淀和基础设施优势,率先形成AI应用规模化落地 [12] - AI正逐步向金融、医疗、交通等数字化程度较高行业渗透,并在自动驾驶等领域实现新突破 [13] - 推进行业应用需关注行业水平与转型路线、技术能力与实际需求两方面的协调统一 [2][13]
“AI教母”,公布最新世界模型
财联社· 2025-10-17 20:28
世界模型RTFM的技术突破 - 李飞飞团队发布全新世界模型RTFM,能够实时生成交互式三维世界[2] - 模型设计围绕效率、可扩展性和持久性三大原则,仅需单块H100 GPU即可渲染持久一致的3D世界[2] - 实现4K+60FPS交互式视频流,传统架构需每秒生成超过十万个token,相当于一本《弗兰肯斯坦》的文本量,当前算力下经济上不可行[2] AI算力成本与需求趋势 - 降低算力成本成为硬件厂商重要议程,OpenAI与博通战略合作部署10吉瓦AI加速器,形成英伟达、AMD、博通多元算力体系以倒逼成本下降[3] - 尽管模型效率提升,但算力总需求预期未减,存在“杰文斯悖论”,即效率提升反而增加总消耗量,例如DeepSeek R1性能增强但算力需求持续增长[4] - 预计针对更大推理预算的更大型模型将继续改进,未来算力需求增长预期稳固[3] 世界模型的行业进展与意义 - World Labs在9月发布世界生成模型Marble,可通过单张图片或文字生成3D世界,相比前代实现更优几何结构和更多样化风格[4] - 世界模型的意义在于不仅能理解推理文字信息,还能理解推理物理世界的运作规律[4] - 行业公司积极布局,xAI从英伟达挖来专家,Meta、谷歌加注世界模型,国内宇树、智元等机器人厂商也已开源其世界模型[4] 算力基础设施的估值逻辑 - 算力更便宜易得时,开发者会将更复杂模型系统作为新基准,提升参数量、上下文与并行度[5] - 模型架构迭代可能减小单次推理训练算力,但如Genie3等生成视频的世界模型需跨数量级算力提升才能满足[5] - AI算力更高的天花板和更好的竞争格局将支撑其相对4G/5G的更高估值框架和更强Beta[5]
斯坦福具身智能大佬引用,Huggingface官方催更:北京人形开源WoW具身世界模型
机器之心· 2025-10-17 19:53
文章核心观点 - 中国团队开源了世界模型WoW,旨在让AI通过身体互动学习物理规律,实现从感知、生成到行动的闭环,是具身智能领域的重要进展 [2][3] - WoW模型的核心创新在于将世界生成、动作预测、视觉理解和自我反思融合,使AI具备“想象-验证-修正-执行”的物理直觉能力 [16][21] - 该模型在真实机器人任务中表现出色,并在多项评测中超越同期模型,显示出强大的泛化与应用潜力 [34][42][45] 模型架构与核心技术 - 模型提出四大核心模块:SOPHIA自反范式、DiT世界生成引擎、FM-IDM逆动力学模型和WoWBench评测基准 [17] - SOPHIA框架使模型具备自我评估与修正能力,通过“生成-批评-改进”的循环迭代优化预测结果 [19][20] - FM-IDM模块能将预测的视频帧反解为机器人末端7自由度的可执行动作,实现从视频生成到物理行动的闭环 [28][29][32] 性能表现与实验结果 - 模型基于800万条交互数据筛选出200万条高质量训练集,在140亿参数视频模型上训练,展现出对未来物理结果的概率分布构建能力 [6] - 在20个机器人操控任务中,简单任务成功率高达94.5%,中等难度任务达到75.2%的新SOTA水平 [34] - 在WoWBench基准评测中,模型在任务指令理解方面得分96.5%,物理一致性超过80% [38] - 消融实验表明,模型性能随数据规模与参数量的扩大而提升,14B参数模型性能最强,7B模型在效率与性能间更平衡 [46][48] 泛化能力与创新应用 - 模型展现出三种核心泛化能力:跨机器人形态泛化、任务技能泛化以及跨视觉风格的领域泛化 [52][55][57] - 具备反事实推理能力,可在假设条件下进行物理推理与行为重新规划,例如预测腐蚀性液体的影响或坚硬材质物体的不可移动性 [61][63] - 模型可用于世界模型迁移与数据扩增,通过生成物理一致的合成数据降低真实数据采集成本,并支持VLM规划自我校正,将任务成功率从33%提升至89% [69][76] 行业影响与未来展望 - WoW模型标志着AI从被动观察者向主动干预世界的智能体转变,为通用机器人的落地与泛化能力带来曙光 [14][80] - 项目已全面开源1.3B至14B的全系列模型权重与代码,旨在促进世界模型研究社区的合作与发展 [24][89] - 该工作被视为通向具身物理世界模型“操作系统”的关键一步,为AI在多模态融合与自主交互方面的进化奠定了基础 [79][85]
李飞飞世界模型大更新, 实时生成3D世界,只要一块GPU
36氪· 2025-10-17 16:03
技术核心与创新 - 公司发布名为RTFM的全新实时世界生成模型,可从单张静态图片实时渲染出可供自由探索和交互的3D场景[1][4] - 该模型采用类似Sora的“自回归扩散Transformer”架构,不构建任何显式的3D模型,而是通过端到端学习海量视频数据来直接预测新视角画面[9] - 模型核心创新在于引入“空间记忆”机制,为每一帧画面赋予3D空间中的精确姿态,并通过“上下文杂耍”技术仅调用局部参考帧,以维持世界持久性而不显著增加计算负担[11] 性能与效率突破 - 模型经过架构、蒸馏和推理过程的极致优化,设计目标为在现有硬件上运行明日模型,成功实现在单块H100 GPU上以交互式帧率进行实时推理和生成[1][8] - 实时生成4K 60fps交互视频流对算力要求极高,每秒需处理token量约等于一本《哈利·波特》文字量,持续一小时的交互需处理超1亿个token,当前基础设施难以负担[6] - 该技术路线相比传统3D引擎的显式建模方法,能更好地利用增长的数据和算力,实现无限扩展[9][11] 应用与演示现状 - 模型已作为研究预览版正式发布,并提供了名为FRAMEBOY的Demo供体验,其逼真的光影、反射和阴影效果在实时交互中呈现[1][3] - 当前Demo体验时间限制为3分钟,3分钟后世界状态无法维持,展示了模型在空间智能和持续交互方面的探索方向[13] - 该技术被视作通往AGI空间智能方向的重要一步,其单GPU高效运行的特性为未来世界模型的普及提供了可能性[13][15]
“AI教母”李飞飞的全新世界模型问世!一张英伟达AI芯片就能生成无限3D世界
钛媒体APP· 2025-10-17 10:53
公司产品与技术 - World Labs发布全新实时生成式世界模型RTFM 该模型基于大规模视频数据进行端到端训练 是一款效率极高的自回归扩散Transformer模型 [2][3] - RTFM模型的核心突破在于不依赖显式3D表征 仅通过输入1张或多张2D图像就能直接生成不同视点的全新2D图像 可精准建模3D几何 反射 阴影等复杂物理现象 [3] - 模型具备高效性 可扩展性 持久性三大核心优势 仅需一块英伟达H100 GPU芯片即可实现实时渲染和交互式体验 [4][8] - 模型通过"带位姿帧空间记忆"与"上下文调度"技术实现世界场景的持久性 确保用户长时间交互也能保持场景一致性 [8] - 公司未来规划将构建空间智能大模型LWM 该模型将支持AR并最终作用于机器人技术 改进自动驾驶汽车 自动化工厂 人形机器人等领域 [10] 行业影响与发展路径 - 该模型技术被业内称为"学会渲染的 AI" 真正解决了长期困扰世界模型可扩展性的问题 [3][6] - "空间智能+世界模型"成为AGI重要发展路径之一 强大的世界模型能实时重建 生成并模拟物理精确的世界 将彻底改变软件 机器人等很多领域和产业 [7] - 生成式世界模型正处在绝佳位置 将从持续降低的算力成本中获益 [4] - 公司联合创始人李飞飞认为 语言 空间 视觉 具身智能等多种AI技术正在融合 并开始真正改变人类社会 [12] 公司融资与估值 - World Labs于今年9月获得2.3亿美元(约合人民币16亿元)融资 由a16z NEA恩颐投资和Radical Ventures领投 AMD Adobe Databricks的风投部门和Shinrai Investments LLC以及英伟达创投部门参与投资 [10] - 公司成立仅3个月估值便达到10亿美元(约合70亿元) 团队约24人 其中华人面孔约占据三分之一 [10] 相关研究项目 - 李飞飞团队还打造了Behavior视觉挑战比赛 并于今年10月正式发布Behavior 1K 这是一个包含1000个任务的综合仿真基准与训练环境 主要聚焦日常家庭环境中的"长时序任务" [11][12] - Behavior项目旨在解决机器人学习中的三大痛点 任务缺乏标准化 缺乏统一的任务体系以及缺乏训练数据 为全球研究者提供开放源码的训练与评测平台 [11]
李飞飞团队发布世界模型最新成果
经济观察网· 2025-10-17 09:59
模型发布 - 公司于当地时间10月16日宣布推出全新模型RTFM (A Real-Time Frame Model) [1] - 该模型具备实时运行、持久性和3D一致性等技术特性 [1] - 模型对硬件要求较低,单张H100 GPU即可运行 [1]
李飞飞发布全新世界模型,单GPU就能跑
36氪· 2025-10-17 09:45
模型技术特点 - 推出全新模型RTFM,具备实时运行、持久性和3D一致性 [1] - 模型效率极高,仅需单张H100 GPU便能以交互级帧率实时完成推理运算 [1] - 架构具备可扩展性,能随数据量与算力增长而持续扩展,通过端到端的通用架构从海量视频数据中自主学习 [1] - 系统构建的持久化3D世界具有持久性,用户可无限时长交互,所有场景将永久留存 [1] - 采用自回归扩散变换器架构,通过海量视频数据进行端到端训练,实现基于历史帧的后续帧预测 [7] - 模型作为可学习的渲染器,无需构建任何显式3D表征即可从新视角生成场景的2D图像 [7] - 通过将每一帧建模为在三维空间中具有姿态,并将带有姿态的帧作为空间记忆使用,实现持久性不受限制 [9] - 采用上下文切换技术,使模型在不同空间区域生成内容时使用不同的上下文帧,无需对不断增长的帧集合进行推理 [10] 行业技术挑战与机遇 - 强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界,将彻底改变从媒体到机器人技术等各行各业 [3] - 生成式世界模型对算力的需求将远超当今的大型语言模型 [5] - 若直接套用现有视频架构,生成60帧的4K交互视频流每秒需产生超过10万个token,维持一小时以上持续交互需处理的上下文token更将突破1亿大关 [5] - 生成式世界模型正处在绝佳位置,能从持续降低的算力成本中获益 [6] - 传统3D图形管线依赖人工设计的数据结构与算法,难以随数据量与算力增长实现线性扩展 [7] 研发目标与理念 - 团队目标为设计一款足够高效、可立即部署,并能随算力提升持续扩展的生成式世界模型 [6] - 旨在打造仅需单张H100 GPU即可驱动的模型,在保持交互帧率的同时,确保虚拟世界永不消散 [6] - 团队深信随算力增长优雅扩展的简洁方法终将在AI领域占据主导 [6] - 通过精心优化推理堆栈的每个环节,融合架构设计、模型蒸馏与推理优化的前沿突破,致力于在当今硬件上呈现对未来模型最高保真度预览 [6]
自驾行业完整的基建,更值得毕业的同学做探索!
自动驾驶之心· 2025-10-17 08:03
自动驾驶行业现状与前景 - 自动驾驶行业技术形态开始收敛,但产品形态尚未收敛,仍有许多值得打磨之处 [1] - 行业对计算资源的投入巨大,达到万卡级别,在基建、数据闭环及云端工具链成熟度方面具有优势 [1] - 业内主流在打磨L2功能,L3法规在路上,L4还有更多悬而未决的问题 [1] - 世界模型和VLA(Vision-Language-Action)等技术路线理论部分趋于完善,但落地和用户体验提升仍有长路要走 [1] - 行业更适合硕士和博士将学术探索直接落地,因其拥有完整的基建 [1] - 真正留在行业内的主力是技术栈丰富的综合型人才,洗牌是早晚的事情 [2] 自动驾驶之心知识星球社区 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [4] - 社区目前已有超过4000名成员,期望未来2年内做到近万人规模 [4][5] - 社区汇总了40多个技术方向的学习路线,并邀请了数十位活跃在一线的产业界和学术界大佬作为嘉宾 [7][10] - 社区提供岗位内推机制,与多家自动驾驶公司建立了合作 [11] - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为等头部公司 [16] - 社区内部梳理了近40个开源项目、近60个数据集及行业主流仿真平台 [17] 社区技术资源覆盖范围 - 技术方向覆盖感知、规划控制、仿真、端到端自动驾驶、VLA、世界模型、多传感器融合、BEV感知、3D目标检测等40多个领域 [10][17][27] - 提供包括“自动驾驶100问系列”在内的实战问答,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等主题 [10] - 社区内部有原创直播课程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划等多个系列视频教程 [11] - 汇总了国内外自动驾驶与机器人高校实验室、自动驾驶公司、开源项目及开源数据集 [28][30][34][36] 行业热点与技术趋势 - 端到端自动驾驶是学术界和工业界的研究热点,社区详细梳理了一段式、二段式、量产方案及VLA相关算法 [38] - 3DGS与NeRF、自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA是当前前沿领域 [40][42][44][46] - BEV感知是当下量产的基石,扩散模型是与世界模型、大模型结合的研究热点 [50][52] - 社区内部有超过一百场专业技术直播,分享内容涵盖VLA、V2X、3D检测、大模型等最新工作 [90]