世界模型
搜索文档
锦秋基金被投企业流形空间3个月融资亿元,证明世界模型也需要预训练 |Jinqiu Spotlight
锦秋集· 2025-11-12 20:44
公司概况与融资动态 - 锦秋基金是一家12年期的AI Fund,以长期主义为核心投资理念,专注于投资具有突破性技术和创新商业模式的通用人工智能初创企业[5] - 锦秋基金已完成对Manifold AI(流形空间)的投资[4] - 流形空间成立3个月便连获种子轮和天使轮两轮共亿元融资,成为世界模型领域的一匹黑马[6] 世界模型技术理念与优势 - 世界模型旨在打造一个能理解并预测物理世界的大脑,其核心是找到一种既简单又通用的方案[7] - 斯坦福大学教授李飞飞提出世界模型应具备三项核心能力:生成式、多模态、交互性[7] - 世界模型与VLA模型是具身智能领域的两种不同技术路径,世界模型通过将语言升维到视觉域,模拟所有场景,具备Dreaming想象能力[18] - 世界模型作为Agent Model可通过在线模拟和推演获得更优决策,作为Environment Model可通过离线强化学习使物理智能体获得更好泛化能力[20] - 世界模型让AI首次具备心智推演能力,能在脑中模拟因果、预判后果、优化行动,理论上能以更经济方式实现跨本体、跨场景的泛化[22] 世界模型技术路径与竞争格局 - 世界模型技术脉络可归纳为两大派系:显式物理建模和隐空间交互[25] - 显式物理建模代表包括Google Genie系列和斯坦福李飞飞创办的WorldLabs,后者采用Geometry Forcing方式引入显式物理信息[26][29] - 隐空间交互代表包括Google Dreamer系列和Meta的V-JEPA系列,后者通过采样与能量函数评估方式搜索最优执行状态[30][31] - 流形空间是全球唯一布局全域世界模型的团队,其技术路径为自下而上,先做领域模型并通过场景反馈数据不断完善模型能力[33] 流形空间技术策略与创新 - 流形空间选择从预训练开始做起,让模型真正学习物理世界的先验知识,理解因果规律,以降低后期部署成本和数据需求[35][37] - 在数据方面,流形空间采用70%互联网数据和30%真机采集,更倾向于使用第一人称视角数据和带有失败状态恢复的数据[39] - 在模型架构上,流形空间提出具身基座模型需具备推理、想象、执行三位一体的能力,并创新地在视频生成质量和动作质量间建立正相关[40] - 流形空间采用Auto-regressive+DiT混合建模的LongScape架构,其领域模型能方便地用MoE方式混合成更通用的基座模型[35] 商业化战略与市场选择 - 公司发展战略总结为“攀登高峰,沿途下蛋”,即瞄准通用具身世界模型基座的同时,将领域模型提前产品化和商业化以产生营收[42] - 在落地场景上,优先考虑机器人和无人机领域,但不考虑自动驾驶,因机器人市场更加碎片化,能容纳更多玩家[43][44] - 具体聚焦于让硬件本体拥有自主推理能力,推动机器人和无人机从人类控制阶段向智能化、自主推理方向发展[46][47] - 长期来看,世界模型产品化需轻量化,公司已将模型量化蒸馏部署到边缘端推理系统,并选择英伟达芯片,未来考虑国产芯片[47] 团队管理与未来规划 - 团队由工业界资深人士和天才00后组成,注重人才密度而非数量,管理上采用数据驱动的强化学习方式激励团队[49][51] - 计划在2025年底至2026年初正式发布第一代基于WMA路线的基座模型,融资节奏与产品研发节奏匹配[51] - 长期目标是推动Physical AI Agent向前一大步,并实现自研加上赋能的机器人数量超过市场总量的10%[51]
95后AI才女,官宣加入小米,雷军千万年薪挖人
36氪· 2025-11-12 20:14
罗福莉入职小米事件 - 小米创始人雷军于2024年12月底亲自出面,以千万年薪招揽AI领域关键人才罗福莉,旨在由其领导小米AI大模型团队[1] - 罗福莉作为95后研究员,是DeepSeek-V2关键开发者之一,并在国际顶会发表8篇论文,于2025年11月12日正式官宣加入小米Xiaomi MiMo团队[1][3][8] - 罗福莉此前已在学术和社区层面与小米产生关联,包括于2025年9月评论小米语音大模型开源项目,10月在一篇由北京大学与小米大模型核心团队联合署名的论文中担任通讯作者[5][7] 罗福莉的专业背景与价值 - 罗福莉拥有北京师范大学计算机专业背景,后保研至北京大学计算语言学研究所,曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,负责多语言预训练模型VECO等开发工作[10] - 其在多模态交互、大模型轻量化部署等领域的深厚积累,被认为能助力小米AI在复杂场景理解和个性化推荐方面取得进展[14] - 罗福莉评价其参与开发的DeepSeek-V2模型的中文水平处于国内外闭源模型第一梯队[10] 小米的AI与生态战略 - 小米在2025年10月的智能网联汽车大会上明确AI大模型是智能网联汽车的未来趋势,其核心战略为构建“人车家全生态”[13] - 小米于2025年4月推出首个开源推理大模型Xiaomi MiMo,该模型能处理文本、图片、语音信息,优势在于端侧优化,在手机、汽车等硬件上延迟低、功耗小并支持本地部署[8] - 2025年第二季度,小米智能电动汽车及AI等创新业务分部实现收入213亿元人民币,毛利率达26.4%[13] 全球AI人才竞争态势 - 全球各大厂商在AI领域展开激烈人才争夺,供需比例严重失衡,估算仅为1:10[20] - 华为于2024年12月以最高档201万年薪招募华中科技大学博士左鹏飞[15] - 截至2025年8月中旬,Meta从OpenAI、谷歌、苹果、xAI等企业挖走50多名核心员工,部分员工薪酬达九位数天价[16][17] - 拥有顶尖高校背景和丰富行业经验的90后、00后正成为AI人才争夺的主流[20]
Meta首席AI科学家Yann LeCun被曝将离职,投身“世界模型”创业
国际金融报· 2025-11-12 20:12
公司核心管理层变动 - AI领域领军人物、首席AI科学家杨立昆计划在未来数月内离职并创办AI初创公司[1] - 此前"PyTorch之父"Soumith Chintala已宣布将于11月17日离开Meta[1] - 公司聘请28岁的亚历山大·王领导全新的"超级智能实验室"[1] 公司AI战略调整 - 公司从长期基础研究转向更追求产品快速落地的实用主义路线[1] - 新战略要求FAIR实验室更多地服务于公司产品,减少可能帮助竞争对手的对外研究发表[2] - 公司正将全部资源押注在能够快速提升产品体验的大语言模型上[3] 公司组织架构与资源投入 - 公司于夏季斥资143亿美元聘请亚历山大·王,并收购其创立的Scale AI公司49%的股份[1] - 公司亲自组建TBD Lab,开出高达1亿美元的薪酬从竞争对手处招募人才,包括ChatGPT核心研究员赵晟佳[2] - 今年10月公司启动涉及约600人的内部裁员,FAIR实验室成为"重灾区",而TBD Lab未受影响[3] 技术路线分歧 - 杨立昆认为大语言模型虽然有用,但永远无法像人类一样推理和规划,无法通往AGI[3] - 杨立昆主张AI的终局是能理解物理世界的"世界模型",并预测其将在3-5年内成为主流[3] - 杨立昆的创业计划将持续聚焦"世界模型"研究[4] 行业竞争格局 - 公司面临OpenAI和谷歌等科技巨头的外部竞争[1] - 谷歌DeepMind以及英伟达也在积极布局"世界模型"领域[4] - 斯坦福大学李飞飞已为其初创公司World Labs筹集约2.3亿美元,致力于赋予AI"空间智能"[4]
李飞飞揭大模型“死穴”:不会空间智能,再能聊也是纸上谈兵
36氪· 2025-11-12 19:47
当前AI的局限与空间智能的定义 - 当前人工智能被困在由文本和二维图像构成的“扁平世界”里,与立体的、受物理规律支配的现实世界严重脱节[1] - 空间智能被视为打破认知隔膜的关键,是AI从“对话工具”蜕变为“行动伙伴”的转折点,代表了人工智能演进的下一个前沿[1] - 当前AI在自主机器人发展、科学研究效率革命以及创意赋能方面缺乏深度理解,其根本原因在于缺乏人类与生俱来的空间智能[2] - 空间智能是人类通过“感知-行动”循环与物理世界互动的根本能力,驱动日常行为、非语言沟通、想象力与创造力,是文明重大突破的基石[4] 当前AI空间能力的不足 - 尽管多模态大型语言模型具备基础空间感知能力,最先进机器人能在受限环境中操控物体,但AI的空间能力仍远未达到人类水平[5] - 最先进的多模态大型语言模型在估算距离、方位、尺寸及“心理旋转”等任务上表现几乎与随机猜测无异,无法走出迷宫、识别捷径或预测基本物理规律[5] - AI生成的视频往往在几秒后失去连贯性,模型对世界的理解是表面与割裂的,缺乏人类整体性、关联性和基于直觉的认知[5] - 缺乏空间智能导致AI无法有效驾驶汽车、操控机器人、提供沉浸式互动体验,也无法加速材料科学与医学领域的探索进程[5] 下一代AI与世界模型的技术路径 - 构建具有空间智能的人工智能需要转向发展“世界模型”,其核心是能理解、推理并生成在语义、几何、物理和动态规则上都保持一致的复杂世界[8] - 世界模型需具备三种基本能力:生成式能力以创造感知、几何和物理动态一致的模拟世界;多模态能力以处理图像、视频、文本、动作;交互式能力以根据动作预测世界下一个状态[10] - 构建世界模型面临远超语言模型的挑战,因为“世界”遵循的规则更复杂,其表征的维度与复杂性远非一维序列信号可比[10] - World Labs致力于取得根本性进展,包括定义新的通用训练目标函数、破解大规模训练数据难题以及开发新的模型与表征架构[12] 空间智能的应用前景与产业影响 - 空间智能的应用将分阶段深化:短期赋能创意工具如World Labs的Marble平台,变革电影、游戏、建筑及工业设计等领域的故事讲述与空间叙事方式[15] - 中期而言,机器人技术是空间智能具身化的核心实践,世界模型通过生成高保真度模拟数据能极大扩展机器人学习的边界,实现可泛化的理解、推理与交互能力[15] - 长期看,空间智能将辐射至科学、医疗保健与教育等领域,模拟实验、辅助诊断、创造沉浸式学习体验,加速人类发现[18] - 空间智能将重构人机关系,使AI从依赖屏幕与文本的“工具”转变为能感知上下文、理解意图并主动协作的“场景伙伴”[20] 产业生态的演进与投资视角 - 高德地图董事长刘振飞指出,空间智能将如云计算一样,成为360行与物理世界交互的标配基础设施,推动AI从对话工具蜕变为行动伙伴[20] - 群核科技联合创始人黄晓煌将空间智能视为继大语言模型之后至关重要的新领域,是机器从自动化迈向“具身智能”的必经之路,并预言未来机器人数量可能达到700亿台[21] - 英诺创新空间创始合伙人邓永强提出“AI新大陆”概念,将空间智能提升至文明演进高度,预判2025年将成为相关技术规模化落地的关键元年[22] - 空间智能是涵盖三维环境感知与重建、定位与姿态估计、空间关系理解等复杂技术体系,其发展需要技术、伦理与商业的协同进化[24][25]
雷军挖来前DeepSeek大将,大模型团队40人合影曝光,疑进军具身智能
36氪· 2025-11-12 16:31
罗福莉加盟小米事件 - 原DeepSeek核心成员罗福莉官宣加盟小米Xiaomi MiMo团队,宣告全力奔赴AGI [1] - 罗福莉朋友圈配图包括40人同框,并提及“智能终将从语言迈向物理世界”,暗示其主攻方向为“世界模型”与“具身智能” [1] - 罗福莉曾参与DeepSeek-V2研发,此前在阿里巴巴达摩院主导开发多语言预训练模型VECO并推动AliceMind开源 [4] 罗福莉背景与加盟过程 - 罗福莉为95后,本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所 [4] - 去年年底被曝获小米千万年薪挖角,今年10月14日小米与北京大学联合署名的论文中罗福莉以通讯作者身份出现 [6] - 今日朋友圈官宣坐实加盟传闻 [6] 小米Xiaomi MiMo团队与技术进展 - Xiaomi MiMo是小米开源的首个推理大模型,于今年4月推出,仅用7B参数规模在数学推理和代码竞赛测评集上超越OpenAI o1-mini和QwQ-32B-Preview [7] - 小米持续扩充MiMo生态:5月开源多模态大模型Xiaomi MiMo-VL,9月19日开源首个原生端到端语音模型Xiaomi-MiMo-Audio [7] - 多模态融合是世界模型基础,MiMo已实现跨模态信息整合,技术报告显示MiMo-Audio通过ICL实现少样本泛化,预训练阶段出现“涌现” [7] 小米在机器人及具身智能领域布局 - 小米旗下资本于11月7日向北京具身创企深朴智能进行种子轮融资2亿元 [8] - 自2014年投资石头科技起,截至今年9月底,雷军及小米旗下资本在机器人领域已累计投资近30家相关企业 [8] - 投资企业涵盖人形机器人、核心零部件、工业机器人、服务机器人等多个细分领域,包括宇树、九号等明星创企 [9][10] - 近年小米未推出自主研发的机器人新品 [8]
Meta首席AI科学家LeCun被曝将离职创业,与扎克伯格“超智能”路线理念分歧
硬AI· 2025-11-12 13:00
公司AI战略重塑 - 公司决定加速AI产品迭代,减少长期基础研究投入,源于其Llama 4模型表现不及竞争对手[2][6] - 公司进行重大人事重组,图灵奖得主Yann LeCun计划在未来数月离开,凸显其与公司在AI发展路径上的根本分歧[3] - 公司首席人工智能科学家Yann LeCun主张开发全新一代AI系统“世界模型”,认为当前以大语言模型为核心的AI路线永远无法实现人类级智能[3][5] 战略路径根本分歧 - Yann LeCun长期专注于基础性AI研究,主张开发通过视频和空间数据理解物理世界的“世界模型”系统[5] - 公司当前战略以LLM为核心,强调快速产品化和组建“超智能”团队,与LeCun的研究主张明显不符[5][6] - LeCun离职后将创立自己的初创公司,专注于推进其在世界模型方面的工作,并已开始为新项目筹集资金[9] 人事变动与资源投入 - 公司今年夏天斥资143亿美元聘请28岁的Alexandr Wang领导新的“超智能”团队,并收购其数据标注初创公司Scale AI 49%的股权[7] - 公司AI研究副总裁Joelle Pineau已离职,AI研究部门裁员约600人,反映出AI战略的急剧转型[11] - 公司以数亿美元年薪吸引新一代AI领军人物,并从OpenAI和Google等竞争对手挖来人才,组建专属团队TBD Lab[8][11] 竞争压力与转型背景 - 公司面临来自华尔街的日益增长的压力,需要证明其在成为“AI领导者”方面的数十亿美元投资将获得回报并推动收入增长[11] - 公司的Llama 4模型表现不及OpenAI和Anthropic,市场反响平淡,促使战略调整[3][6] - 人事动荡与高薪引才并存,反映出公司在AI竞争压力下向产品化快速转型的决心[11]
华为投资物理 AI:首家国产世界模型公司“极佳视界”新一轮融资
搜狐财经· 2025-11-12 12:35
融资动态 - 极佳视界完成新一轮亿元级A1轮融资,投资方包括某知名产业方和华控基金 [1] - 此前在8月底,公司已完成Pre-A及Pre-A+连续两轮数亿元人民币融资 [1] - 本轮融资的“某知名产业方”为华为哈勃 [1] 公司业务与技术 - 极佳视界是一家成立于2023年的物理AI公司,专注于世界模型驱动的物理世界通用智能 [3] - 公司产品线包括世界模型平台GigaWorld、具身基础模型GigaBrain、通用具身本体Maker等全栈软硬件产品 [3] - 公司宣称是国内第一家专注“世界模型”的科技公司 [3] - 世界模型是用于模拟环境动态并预测未来状态的人工智能核心技术框架 [3] 行业趋势与战略 - 世界模型技术有望成为具身智能、自动驾驶等物理AI方向的主导路线 [3] - 华为智能汽车解决方案BU CEO靳玉志曾表示,华为更看重能实现真正自动驾驶的WA路径,而非VLA路径 [3] - WA路径省掉Language环节,直接通过视觉等信息输入控车 [3]
华为刚投的物理AI:首家国产世界模型公司
量子位· 2025-11-12 12:08
华为投资动态 - 华为哈勃与华控基金联合投资物理AI公司极佳视界 完成亿元级A1轮融资[2] - 这是极佳视界两个月内连续完成的第三轮融资 也是华为哈勃首次投资主业定位为"世界模型"的公司[2][28] 极佳视界公司概况 - 公司成立于2023年 是国内第一家"纯血"物理AI公司 创业目标为世界模型[4] - 产品覆盖自动驾驶世界模型 具身基础模型到世界模型平台的全栈软硬件[4] - 应用落地领域包括自动驾驶和具身智能 与华为押注方向一致[4] 技术产品进展 - 2024年发布国内首个支持原生16秒超长时长视频生成模型"视界一粟YiSu"[5] - 2023年推出全球首个真实世界驱动的自动驾驶世界模型DriveDreamer[9] - 2024年DriveDreamer升级4D版本 联合多家研究机构实现4D驾驶场景重建效果增强[11] - DriveDreamer系列为自动驾驶和具身智能提供数据生成和闭环仿真解决方案 已签约多家头部主机厂 服务客户几十余家[12] 核心团队背景 - 创始人兼CEO黄冠为清华大学自动化系AI方向博士 拥有微软 三星 地平线等公司算法经历及连续创业经验[9] - 联合创始人兼首席科学家朱政论文被引数达1 7万+ h-index为50 其代表作SiamRPN和DaSiamRPN是深度学习时代最具影响力目标跟踪算法[15][16] - 另一位联合创始人孙韶言曾任阿里云总监 地平线数据闭环产品线总经理[17] - 合伙人兼工程副总裁毛继明曾任百度 嬴彻架构师 曾担任百度Apollo仿真技术负责人[18] 华为技术布局 - 华为在自动驾驶领域偏好世界模型而非VLA路径 强调从视觉直接到决策的端到端方式[21] - 华为智能汽车解决方案BU CEO靳玉志表示更看重WA路径 省掉Language环节直接通过视觉信息输入控车[22] - 华为与高校合作的世界模型研究还扩展到更大范围 如联合推出的WorldGrow可单卡30分钟生成272㎡室内场景[26] - 结合此前对具身智能公司千寻智能的投资 华为在空间智能和世界模型上的布局正在连点成线[28]
李飞飞万字长文爆了!定义AI下一个十年
创业邦· 2025-11-12 11:08
文章核心观点 - 空间智能是人工智能的下一个前沿领域,其核心是构建能够理解、推理并与复杂物理世界互动的“世界模型” [8][16][26] - 世界模型需具备生成式、多模态和互动性三大核心能力,以解锁超越当前大语言模型的机器空间智能 [27][29][30] - 空间智能的应用将重塑创意产业、机器人技术和科学研究,其发展需要整个AI生态系统的集体努力 [38][44][48] 空间智能的定义与重要性 - 空间智能是人类认知的基石,使我们能够通过感知与行动的循环来理解和互动物理世界 [18][21] - 该能力驱动着从日常活动(如停车)到专业领域(如科学发现)的推理与规划 [18][21] - 当前AI在空间任务上表现不佳,例如估算距离或心理旋转物体,其能力远未达到人类水平 [22] 构建世界模型的技术框架 - 世界模型必须能生成遵循物理定律且在几何和动态上保持一致的世界 [27] - 模型需处理多模态输入,如图像、视频、文本指令和动作,并预测完整的世界状态 [29] - 当给定动作或目标时,模型应能输出与之协调的世界下一个状态 [30] - 技术挑战包括定义新的通用训练任务函数、利用互联网规模的数据以及开发新的模型架构 [32][33][34] 当前进展与案例 - World Labs已开发出名为Marble的平台,能通过多模态提示生成并维持一致的三维环境 [37][40] - 该平台展示了实时生成性帧基模型等创新架构,旨在实现高效生成和空间持久性 [35][37] 应用领域与前景 创意产业 - 空间智能将变革故事叙述和设计,使创作者能快速构建可探索的三维世界,不受预算或地理限制 [40][42] - 应用包括为电影、游戏、建筑和工业设计提供新的叙事维度和沉浸式体验 [42][43] 机器人技术 - 世界模型将通过模拟数据弥合训练差距,规模化机器人学习,以理解、导航和互动物理世界 [44] - 未来机器人可作为人类协作者,在实验室或家庭等场景中扩展劳动力,但需与人类目标对齐 [45] 科学、医疗与教育 - 在科学研究中,空间智能可模拟实验、测试假设并探索人类无法触及的环境 [48] - 医疗健康领域有望通过分子相互作用建模和医学影像分析加速药物发现与诊断 [48] - 教育将受益于沉浸式学习体验,使抽象概念触手可及,并支持安全的技能练习 [49]
李飞飞聊AI下一个十年:构建真正的空间智能
自动驾驶之心· 2025-11-12 08:04
文章核心观点 - 空间智能是人工智能的下一个前沿,旨在构建能够理解和交互物理及虚拟世界的“世界模型”,这将重塑创造力、机器人技术和科学发现等领域[5][16] - 当前以大语言模型为代表的AI在抽象知识处理上表现出色,但在空间理解、物理推理和与环境交互方面存在根本性局限,与人类能力相距甚远[5][14][15] - 实现空间智能需要构建具备生成性、多模态性和交互性的世界模型,这是一项超越以往AI挑战的复杂任务,需要新的训练方法、大规模数据和模型架构[17][21][22] 空间智能的定义与重要性 - 空间智能是人类认知的基石,支撑着从日常行为(如停车、接钥匙)到专业活动(如消防员救援、科学发现)的物理世界互动[10][13] - 该能力是人类想象力和创造力的基础,从史前洞穴壁画到现代电影、游戏和工业设计,都依赖于基于空间的想象力[10] - 在人类文明进程中,空间智能在关键科学发现(如埃拉托色尼计算地球周长、沃森和克里克发现DNA双螺旋结构)中扮演了核心角色[11][12] 当前AI在空间智能方面的局限 - 最先进的多模态模型在估算距离、方向、大小等基本空间任务上表现仅略高于随机水平,在“心智旋转”测试中能力极为有限[14] - AI生成的视频虽令人惊叹,但往往在数秒后便失去连贯性,无法预测基本物理规律,也无法识别捷径或穿越迷宫[14] - 当前AI对世界的理解是割裂的,缺乏人类那种将事物在空间上的关系、意义及彼此关联进行整体性理解的能力[15] 构建空间智能世界模型的核心框架 - **生成性**:模型需能生成在语义、几何和物理层面保持一致的虚拟世界,并且对当前世界的理解必须与过去状态保持连贯[18] - **多模态性**:模型应能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并预测或生成完整的世界状态[19] - **交互性**:当动作或目标成为输入时,模型需能生成与先前世界状态、物理规律相一致的下一个世界状态,甚至预测实现目标所需的后续行动[20] 实现世界模型的技术挑战与研究方向 - **新的通用训练任务函数**:需要定义能反映几何与物理规律的通用目标函数,其复杂程度远超语言模型中的“下一token预测”[23] - **大规模训练数据**:需研发能从互联网海量二维图像或视频帧中提取深层空间信息的算法,并利用合成数据及深度、触觉等额外模态[24] - **新型模型架构与表征学习**:需突破现有MLLM与视频扩散模型范式,探索具备三维或四维感知能力的分词、上下文和记忆机制[25] 空间智能的潜在应用与影响 - **创造力与叙事**:工具如World Labs的Marble平台正赋能电影制作人、游戏设计师和建筑师快速创建可自由探索的三维世界,颠覆传统创作流程[32][33] - **机器人技术**:世界模型将通过提供可扩展的训练数据解决方案,缩小模拟与现实差距,加速具备泛化能力的机器人的发展[35][36] - **科学、医疗与教育**:空间智能系统能模拟实验、加速药物发现、实现沉浸式学习,在拯救生命和加速科学发现方面具有深远影响[38][39][40]