世界模型
搜索文档
数字经济双周报(2025年第20期):科技巨头联手布局,全球AI算力联盟加速成型-20251113
银河证券· 2025-11-13 17:07
核心观点 - OpenAI与亚马逊AWS达成合作,涉及380亿美元投资,标志着全球AI算力格局进入多云协作新阶段[1][5] - 该合作补齐OpenAI在北美供应链最后一环,微软、甲骨文、谷歌、亚马逊四大云厂商全面嵌入其算力生态[1][5] - OpenAI计划未来30年投入1.4万亿美元建设AI算力基础设施[1][5] - AI产业竞争重回算力为王轨道,决定性优势正重新集中于算力供给与资本投入[11] 全球AI算力联盟动态 OpenAI算力生态布局 - 除AWS外,OpenAI已绑定美股多家科技巨头:与微软Azure有2500亿美元合作计划至2027年,另规划3000亿美元算力投资[6] - 与云服务商CoreWeave签署224亿美元GPU合作协议[6] - 预计2026年实现400亿美元营收,2027年进行IPO,估值可能达6000亿美元[8][9] - 2025年营收预计251.4亿美元,同比增长123.1%[9] 技术架构与部署 - AWS将为OpenAI提供Amazon EC2 UltraServers,配备GB200和GB300 GPU集群[5] - 计划2026年前部署50万个GPU,重点支持agentic workloads[5] - 采用HBF存储架构应对AI推理时代容量瓶颈[32] 中国AI发展动态 政策支持体系 - 部委层面推出"人工智能+"制造、交通、医疗三大体系化行动,构建1+N+X政策体系[13] - 设立510亿元政策性金融工具支持AI产业发展[15] - "十五五"规划将人工智能+纳入科技自立自强战略重要地位[16] 产业与资本布局 - 地方政府设立产业基金,如某地计划2027年形成100个AI应用场景[14] - 资本市场支持力度加大,2025年AI领域投资规模显著增长[15] - 国产基础大模型进入思考智能阶段,Kimi K2 Thinking模型在部分测试中表现优于GPT-5[33] 美国AI产业进展 算力与芯片竞争 - 英伟达市值突破5万亿美元,持续强化AI生态垄断地位[18] - AMD推出AI200/AI250芯片,预计2027年市场份额达36%[19] - 谷歌与NextEra Energy合作布局AI算力电力供应[19] 应用与投资趋势 - 2025年消费级AI设备出货量预计406.5万台,同比增长64.2%[22] - AI音乐、AI伴侣等应用领域融资活跃,如Fireworks AI获2.54亿美元融资[21] - Meta计划2025年投入720亿美元用于AI研发[21] 欧洲AI战略布局 科技主权建设 - 欧盟设立Scaleup Europe Fund和EIC计划,2026年前投入140亿欧元支持AI创新[23] - 启动RAISE项目,投入1.07亿欧元建设AI科研基础设施[25] - 德国电信与英伟达合作建设Industrial AI Cloud,计划2026年覆盖50%工业客户[26] 监管与治理 - 推出生成内容标签准则,加强AI内容治理[25] - 英国DSIT部门投入5.5亿英镑支持AI与量子技术发展[24] 技术前沿突破 世界模型与具身智能 - 英伟达推出Omniverse Cosmos世界模型平台[32] - 小鹏发布人形机器人IRON,算力达2250TOPS,集成VLT/VLA/VLM技术[34] - Neuralink脑机接口从功能验证迈向产品线化,预计2029年实现商业化[33] 存储与架构创新 - OCP推广HBF架构,预计2026-2027年成为主流[32] - HBF相比NAND和HBM更适合AI推理场景[32] 全球新兴市场布局 中东地区 - 沙特、阿联酋等国家加速AI算力建设,如Humain项目规划6GW算力设施[27] - G42与Humain合作布局agentic AI应用[27] 亚太地区 - 韩国推进AI三大强国战略,SK集团计划部署2.6万个GPU[28] - 日本软银与OpenAI成立SB OAI Japan合资公司,投资22.5亿美元[29] - 印尼Indosat计划2028年前投入200亿美元建设AI基础设施[30] 智库观点与行业预测 IDC预测 - 2026年70%企业将建立AI治理与智能体编排体系[35] - 2029年30%IT预算将用于AI相关投资,80%企业将采用AI优先战略[35] - 2025年全球AI智能体市场规模将达406.5亿美元[35] 行业研究报告 - OECD调查显示31%中小企业已部署AI技术,39%计划近期部署[35] - 布鲁金斯学会预测2030年AI算力需求将占数据中心总需求的21%[36] - 中国AI4LS行业规模2025年预计达600亿元,2023年为470亿元[39]
图灵奖得主杨立昆离职创业,Meta股票蒸发1400亿
钛媒体APP· 2025-11-13 16:38
事件概述 - 图灵奖得主、Meta首席科学家Yann LeCun(杨立昆)即将从Meta离职创业,此消息导致Meta股价下跌1.5%,市值蒸发1400亿元 [1] 离职核心原因 - 离职根本原因在于与公司在AGI(通用人工智能)技术路线上的根本分歧:公司管理层重金押注当前热门的LLM(大语言模型)路线,而杨立昆则认为LLM是AGI的岔路,主张“世界模型”才是正确方向 [1][9] - 公司内部组织架构调整后,杨立昆需向年轻其30多岁的新任首席AI官Alexandr·Wang汇报,其领导的FAIR实验室自主权被削弱,团队核心成员(如田渊栋的强化学习与规划团队)被裁撤 [6][7] - 在Llama模型的开源策略上存在分歧,杨立昆坚持开源,而公司内部激进派出于商业利益考虑倾向闭源 [7] Meta面临的竞争压力与战略调整 - 2025年公司面临竞争压力:以DeepSeek为代表的竞争者在MoE(混合专家模型)架构上实现突破,挑战其在开源领域的领先地位;Meta自身的Llama4模型系列市场反馈平淡,表现不及ChatGPT和Gemini;Meta AI聊天机器人未获市场认可 [4] - 财务上,公司三季度财报显示,2025年用于AI军备竞赛的资本支出提升至700亿美元 [5] - 组织上,经过4次架构调整,资源集中支持新成立的“超级智能实验室”(MSL),由Alexandr·Wang领导 [6] 历史贡献与合作蜜月期 - 杨立昆于2013年受扎克伯格邀请加入Facebook(现Meta),担任首席人工智能科学家,并一手创建FAIR(Facebook人工智能研究院) [11] - 蜜月期期间,FAIR拥有极大自主权,专注于基础科学研究与顶级论文发表,其研究成果(如卷积神经网络CNN架构)成为公司社交应用图像识别等核心功能的技术基石 [11] - 在其开源思想影响下,Meta发布的Llama系列大型语言模型等成果均采取开源策略,助力公司在开发者生态中建立强大影响力 [12] - 2018年杨立昆获得图灵奖,将Meta在基础AI研究领域的声誉推向顶峰 [12] 技术路线分歧详情 - 杨立昆批评LLM为“黑暗中的文字匠”,认为其缺乏常识、无法推理、不懂物理世界,仅是基于海量文本的概率预测,依靠数据堆砌无法实现AGI [14][16] - 他提出“世界模型”路线,主张AI应通过观察世界(如视觉信息)来学习物理直觉和因果关系,构建模块化架构(感知、世界模型、记忆、行动),而非将一切揉进单一巨型网络 [15][17] - 杨立昆承认“世界模型”是一个需要10年开发的长期愿景,无法满足公司对快速产品追赶的需求 [17]
主打空间智能!“AI教母”李飞飞发布首款商用世界模型
华尔街见闻· 2025-11-13 14:21
产品发布与核心功能 - World Labs公司正式发布首款商业产品Marble,该产品由多模态世界模型驱动,能够利用文本、照片、视频或3D布局等多种输入形式生成可编辑和下载的3D交互环境 [1] - 与限量预览版相比,正式版Marble支持更大规模的多模态输入,并推出了名为Marble Labs的创意中心 [4] - 产品核心差异化在于能生成持久化、可供下载的3D环境,显著减少场景变形和不一致性,并允许用户将成果导出为高斯泼溅、网格或视频等专业格式 [6] - 产品强调创意控制,输入端支持上传多张图片或短视频以生成更逼真的数字孪生体,编辑端推出了名为"Chisel"的实验性3D编辑器,允许用户先搭建粗略空间结构再通过文本提示填充视觉风格 [8][13] 商业模式与市场定位 - 产品采用免费增值与付费订阅结合的模式,订阅方案分四档:免费版(每月4次生成)、标准版(20美元/月)、专业版(35美元/月)和旗舰版(95美元/月,含75次生成及商业使用权) [11] - 短期目标市场锁定在游戏开发、影视特效(VFX)和虚拟现实(VR)三大行业,为创作者提供资产生成工具 [4][14] - 该产品是世界中模型赛道首个投入商业应用的产品,相较于谷歌的Genie模型(仍处于研究预览阶段)及其他初创公司的免费演示版,取得了先发优势 [6] 公司背景与战略愿景 - 公司由斯坦福大学教授李飞飞联合创办,自2024年创立以来已完成约2.3亿美元融资,估值突破10亿美元,投资方包括a16z、英伟达NVentures、AMD Ventures和Intel Capital等 [15] - 产品发布背后的宏大构想是实现"空间智能",即赋予机器理解、导航并与三维世界交互的能力,这被视为实现真正通用人工智能的关键 [12][15] - 具备空间智能的世界模型预计将分阶段变革行业:短期赋能创意产业,中期推动具身智能机器人发展,长期在科学、医疗和教育等领域引发革命 [17]
小鹏成“最像特斯拉的中国公司”?
第一财经资讯· 2025-11-13 12:22
公司战略升级 - 公司战略定位从“未来出行探索者,面向全球的AI汽车公司”升级为“物理AI世界的出行探索者,面向全球的具身智能公司”,旨在超越汽车AI化,拥抱数字世界与物理世界融合的“物理AI”时代 [2] - 业务版图覆盖物理AI时代的技术底座,包括模型、芯片、基础设施及上层终端(如汽车、Robotaxi、人形机器人、飞行汽车) [2] - 该战略使公司被市场视为最像特斯拉的中国公司,截至2025年11月7日,公司市值达214亿美元,与理想汽车相近,高于蔚来汽车的170亿美元 [3] - 在科技日展示第二代IRON人形机器人后,公司美股股价于11月6日盘中一度上涨超14%,市值再度超越理想汽车 [3] 第二代VLA模型技术 - 第二代VLA模型采用V+L到A的架构,将语言信号作为视觉信号的并行输入,共同决策动作,以减少第一代VLA模型两次语言转换带来的信息损耗 [5][6] - 模型开发投入3万张卡算力、1亿视频Clips(相当于普通人驾驶6.5万年遇到的极限场景之和)及20多亿元训练费用,于今年二季度跑通 [5] - 模型架构与特斯拉在ICCV 2025分享的框架类似,均未完全抛弃语言信号,而是将其与多模态感知信号融合决策 [7] - 公司自动驾驶产品高级总监确认第二代VLA既是VLA模型,也是世界模型,使用VLA数据训练世界模型 [9] - 据称,第二代VLA使公司自动驾驶升级节点提前近两年,在复杂小路场景的平均接管里程提升13倍(20公里复杂小路仅需接管1次),并涌现出未特意开发的能力(如红灯变绿前缓慢蠕动、见人招手自动停下) [11] - 计划于2026年第一季度向Ultra车型全量推送第二代VLA,并评估向Max车型迁移的可行性 [11] Robotaxi业务布局 - 公司计划于2026年推出3款Robotaxi车型并启动试运营,成为国内第一家进军Robotaxi市场的造车新势力 [12] - Robotaxi针对L4智驾系统设计,采用前装量产模式,搭载第二代VLA模型,不依赖高精地图和激光雷达,技术路线与特斯拉对标 [12] - 商业模式上,公司不扮演运营商角色,车辆将接入高德出行平台;同时计划推出面向C端用户的私人模式L4汽车,以分摊BOM成本及研发费用 [15] 人形机器人战略调整 - 第二代IRON人形机器人具备性别设定、仿人脊椎、仿生肌肉及全包覆“皮肤”,科技日展示其猫步行走能力引发市场关注 [16] - 公司战略重心从工业场景(如拧螺丝)转向导览、导购、导巡等服务场景,因手部硬件(灵巧手)技术难度高、成本高昂(一个手成本可请工人工作几年) [18][20] - 公司暂避开了行业公认难度最高的manipulation(交互控制)技术,优先发展locomotion(移动控制),认为工厂及家庭场景落地尚需3-5年 [18][20] - 公司强调人形机器人项目的核心是“如何商业量产”,而非融资或作秀 [20] 行业技术对比与挑战 - 特斯拉Robotaxi业务于2024年6月在奥斯汀启动试运营,使用改装Model Y,Cybercab车型计划2025年4月量产;其车辆仍配安全员,实际进度未达L4 [14] - 特斯拉人形机器人Optimus因手部及前臂技术难题量产延期,最初计划2024年量产5000台,后降至2000台,实际仅生产几百台;第三代原型机发布延至2026年第一季度 [19] - 从L2辅助驾驶到商业可行的无人L4自动驾驶需跨越技术及商业鸿沟,而非渐进过渡;纯视觉方案与多传感器融合路线的技术可靠性之争尚无定论 [15]
95后AI才女,官宣加入小米!雷军千万年薪挖人
搜狐财经· 2025-11-13 12:20
罗福莉入职小米事件 - 罗福莉于2024年12月底被报道获雷军千万年薪招揽,以领导小米AI大模型团队[1] - 罗福莉于11月12日通过朋友圈正式确认已加入小米Xiaomi MiMo团队[3][5] - 罗福莉是95后,拥有北京大学计算语言学研究所硕士学位,曾在阿里巴巴达摩院和DeepSeek母公司幻方量化任职,是DeepSeek-V2关键开发者之一,在国际顶会发表8篇论文[1][13] 小米AI战略与业务进展 - 小米核心战略为“人车家全生态”,AI大模型是智能网联汽车的未来趋势[16] - 小米在今年4月推出首个开源推理大模型Xiaomi MiMo,能处理文本、图片、语音信息,优势在于端侧优化,在手机、汽车等硬件上延迟低、功耗小且支持本地部署[10] - 2025年第二季度,小米智能电动汽车及AI等创新业务分部实现收入213亿元人民币,毛利率达26.4%[16] - 罗福莉在多模态交互、大模型轻量化部署领域的积累可能提升小米AI在复杂场景理解和个性化推荐的能力[16] 全球AI人才竞争态势 - 行业估算显示当前AI人才供需比例仅为1:10,供需关系严重失衡[20] - 华为于去年12月以最高档201万年薪招募华中科技大学博士左鹏飞[18] - 截至今年8月中旬,Meta已从OpenAI、谷歌、苹果、xAI等企业挖走50多名核心员工,部分员工薪酬达九位数天价[18] - 拥有顶尖高校背景和丰富行业经验的90后、00后正成为AI人才争夺的主流[20]
“AI教母”李飞飞发布首款商用世界模型
第一财经· 2025-11-13 10:15
产品发布与特点 - World Labs公司正式推出首款产品Marble 由多模态世界模型提供支持 能通过单张图片 一段视频或一句文本提示创建高保真 持久的3D世界 [2] - Marble正式版功能扩展 支持大规模多模态输入 同步推出名为Marble Labs的创意中心 并开放免费增值与付费订阅服务 [5] - Marble提供四档订阅方案 免费版支持4次生成 标准版每月20美元 旗舰版每月95美元包含75次生成 [5] - Marble的差异化优势在于生成持久化 可下载的3D环境 显著减少场景变形与不一致性 支持导出为高斯泼溅 网格或视频格式 [5] 技术理念与行业定位 - 空间智能被定位为人工智能的下一个前沿 是机器实现真正智能的关键突破 [6] - 世界模型需具备生成性 多模态性和交互性三种核心能力 以构建环境内部表征 [8] - Marble是目前世界模型赛道中首个投入商用的产品 行业评测认为其交互效果不错但细节精细度需提升 [8] - 竞争对手如谷歌Genie处于有限研究预览阶段 Decart与Odyssey仅推出免费演示版本 [8] 应用前景与发展规划 - 短期内空间智能将赋能电影 游戏和建筑领域的创作者 快速生成可探索的3D环境 [8] - 中期将推动具身智能机器人发展 通过高仿真训练使其成为人类在家庭 实验室中的协作伙伴 [8] - 长远看空间智能有望在科学 医疗和教育领域引发革命 通过模拟实验 辅助诊断和沉浸式学习增强人类能力 [8] - 公司第一阶段专注于构建对三维性 物理性及空间和时间概念有深入理解的模型 随后将支持增强现实技术和机器人技术等领域 [9] 公司融资与市场地位 - World Labs在2024年创办 短短几月内完成约2.3亿美元(约合人民币16亿元)融资 估值迅速突破10亿美元(约合70亿元)成为AI领域最新独角兽企业 [9] - 公司投资方阵容包括a16z Radical Ventures 英伟达NVentures AMD Ventures和Intel Capital等科技与风投界重量级玩家 [9]
“AI教母”李飞飞发布首款商用世界模型 空间智能更近了
第一财经· 2025-11-13 09:37
公司产品发布 - 李飞飞创立的World Labs公司于11月13日正式推出首款产品Marble,这是一个由多模态世界模型支持、能通过单张图片、视频或文本提示创建高保真持久3D世界的平台 [1] - 产品正式版功能扩展,支持大规模多模态输入,同步推出名为Marble Labs的创意中心,并开放免费增值与付费订阅服务 [4] - Marble提供四档订阅方案,免费版支持4次生成,标准版每月20美元,旗舰版每月95美元包含75次生成并可解锁全部功能 [4] - 与实时模型RTFM的差异在于,Marble生成的是持久化、可下载的3D环境,支持导出为高斯泼溅、网格或视频格式,显著减少场景变形与不一致性 [4] 技术理念与行业定位 - 李飞飞认为空间智能是人工智能的下一个前沿,是机器实现真正智能的关键突破,其核心是构建具备生成性、多模态性和交互性的世界模型 [5] - 相较于谷歌Genie仍处于有限研究预览阶段,以及竞争对手Decart与Odyssey仅推出免费演示版本,Marble是世界模型赛道中首个投入商用的产品 [5] - 行业评测认为Marble整体交互效果不错,但细节精细程度还需要提升 [5] 市场应用前景 - 短期内空间智能将赋能电影、游戏和建筑等领域的创造力,提供快速生成可探索3D环境的工具 [5] - 中期将推动具身智能机器人发展,使其成为家庭和实验室中的协作伙伴 [6] - 长期有望在科学、医疗和教育领域引发革命,通过模拟实验、辅助诊断和沉浸式学习增强人类专业能力 [6] 公司融资与发展规划 - World Labs在2024年创办后短短几月内完成约2.3亿美元(约合人民币16亿元)融资,估值迅速突破10亿美元(约合70亿元),成为AI领域最新独角兽 [6] - 公司投资方包括a16z、Radical Ventures、英伟达NVentures、AMD Ventures和Intel Capital等科技与风投界重量级玩家 [6] - 公司第一阶段专注于构建对三维性、物理性以及空间和时间概念有深入理解的模型,随后将支持增强现实技术和机器人技术等领域 [6]
“AI教母”李飞飞发布首款商用世界模型,空间智能更近了
第一财经· 2025-11-13 09:31
产品发布与核心功能 - World Labs公司于11月13日正式推出首款产品Marble,该产品由多模态世界模型提供支持,被官方称为“构建空间智能未来的基础”[1] - Marble模型能通过单张图片、一段视频或一句文本提示创建高保真、持久的3D世界[1] - 与实时模型RTFM的差异化在于,Marble生成的是持久化、可下载的3D环境,显著减少场景变形与不一致性,并支持导出为高斯泼溅、网格或视频格式[4] - 产品正式发布时功能得到扩展,支持大规模多模态输入,并同步推出了名为Marble Labs的创意中心[4] 商业模式与定价 - Marble采用免费增值与付费订阅服务模式,免费版支持4次生成,仅限文本和图像输入[4] - 标准版订阅价格为每月20美元,支持多图、视频输入及高级编辑功能[4] - 旗舰版订阅价格为每月95美元,包含75次生成,可解锁全部功能[4] - Marble是世界模型赛道中首个投入商用的产品,而竞争对手如谷歌的Genie仍处于有限研究预览阶段,Decart与Odyssey仅推出免费演示版本[5] 技术理念与行业前景 - 公司创始人李飞飞认为,空间智能是人工智能的下一个前沿,是实现机器真正智能的关键突破[5] - 空间智能即人类用以理解、导航并与三维世界交互的底层能力,构建的世界模型需具备生成性、多模态性和交互性三种核心能力[5] - 短期内,空间智能将赋能电影、游戏和建筑领域的创造力,提供快速生成可探索3D环境的工具[5] - 中期将推动具身智能机器人发展,长远看有望在科学、医疗和教育领域引发革命[6] 公司发展与融资 - World Labs由李飞飞在2024年创办,并在短短几月内完成约2.3亿美元(约合人民币16亿元)的融资[6] - 公司估值迅速突破10亿美元(约合70亿元),成为AI领域最新的独角兽企业[6] - 公司投资方阵容包括a16z、Radical Ventures、英伟达NVentures、AMD Ventures和Intel Capital等科技与风投界重量级玩家[6] - 公司第一阶段将专注于构建对三维性、物理性以及空间和时间概念有深入理解的模型,随后将支持增强现实技术和机器人技术等领域[6]
腾讯研究院AI速递 20251113
腾讯研究院· 2025-11-13 00:08
生成式AI行业动态与巨头战略 - Meta首席AI科学家LeCun因AI战略分歧将离职,其领导的FAIR实验室被边缘化,公司战略重心转向快速推出模型和AI产品 [1] - LeCun坚信大模型无法通往AGI,离职后将成立新公司专注推进“世界模型”研究,目前正在进行早期融资洽谈 [1] - Meta今年已进行超4次架构调整,由28岁的Alexandr Wang领导全新的“超级智能”团队 [1] AI模型技术突破与应用 - 谷歌AI Studio神秘模型成功识别200多年前的“天书”账本,字符错误率仅1.7%,词错误率6.5%,达到人类专家级准确度 [2] - 该模型展现出抽象推理能力,能纠正原账本书写格式错误,并在18世纪非十进制货币系统等极端场景下表现出色 [2] - AI语音公司ElevenLabs发布Scribe v2 Realtime模型,实现150毫秒超低延迟和93.5%高准确率,覆盖90多种语言 [3] - ElevenLabs成立于2022年,目前拥有7000万用户,月均生成3000万份文档,公司估值达33亿美元 [3] AI产品功能更新与市场策略 - OpenAI即将为ChatGPT网页版推出群聊功能,支持文件上传和图像生成,且群聊的自定义指令与个人设置完全独立以保护隐私 [4] - 此举被解读为OpenAI意图获取企业对话数据以改进模型,并可能推出原生AI生产力套件以取代现有工具 [4] - AI演示工具Gamma以21亿美元估值完成6800万美元B轮融资,50人团队实现年经常性收入1亿美元 [7] - Gamma全面开放API并发布提示词指南,目前已积累7000万用户,其中付费用户超60万,公司自2023年起持续盈利 [7] AI在创意与内容生成领域进展 - LiblibAI旗下Lovart推出分层图像编辑功能,可将像素位图一键拆分为多个可编辑图层,支持中英文识别 [5] - AI生成虚拟歌手“Breaking Rust”的歌曲登上Billboard乡村数字单曲销售榜冠军,月度听众达180万 [6] - 过去几个月至少有6位AI或AI辅助艺术家出现在Billboard榜单,引发关于真人创作竞争力的行业讨论 [6] 资本市场与初创公司融资 - 物理AI公司极佳视界完成亿元级A1轮融资,由华为哈勃等机构投资,这是该公司两个月内完成的第三轮融资 [7] - 极佳视界产品覆盖自动驾驶世界模型等全栈软硬件,已与多家头部主机厂签约定点合作,并发布了国内首个自动驾驶世界模型 [7] 开发者生态与编程语言趋势 - GitHub报告显示TypeScript以约4.2万名贡献者优势首次超越Python,成为使用最广泛的语言 [7] - TypeScript在2025年贡献者数量增长超100万(同比增长66%),主要驱动力来自开发框架和AI辅助开发 [7] - Python在AI和数据科学领域仍保持主导地位,拥有260万贡献者(同比增长48%) [7]
锦秋基金被投企业流形空间3个月融资亿元,证明世界模型也需要预训练 |Jinqiu Spotlight
锦秋集· 2025-11-12 20:44
公司概况与融资动态 - 锦秋基金是一家12年期的AI Fund,以长期主义为核心投资理念,专注于投资具有突破性技术和创新商业模式的通用人工智能初创企业[5] - 锦秋基金已完成对Manifold AI(流形空间)的投资[4] - 流形空间成立3个月便连获种子轮和天使轮两轮共亿元融资,成为世界模型领域的一匹黑马[6] 世界模型技术理念与优势 - 世界模型旨在打造一个能理解并预测物理世界的大脑,其核心是找到一种既简单又通用的方案[7] - 斯坦福大学教授李飞飞提出世界模型应具备三项核心能力:生成式、多模态、交互性[7] - 世界模型与VLA模型是具身智能领域的两种不同技术路径,世界模型通过将语言升维到视觉域,模拟所有场景,具备Dreaming想象能力[18] - 世界模型作为Agent Model可通过在线模拟和推演获得更优决策,作为Environment Model可通过离线强化学习使物理智能体获得更好泛化能力[20] - 世界模型让AI首次具备心智推演能力,能在脑中模拟因果、预判后果、优化行动,理论上能以更经济方式实现跨本体、跨场景的泛化[22] 世界模型技术路径与竞争格局 - 世界模型技术脉络可归纳为两大派系:显式物理建模和隐空间交互[25] - 显式物理建模代表包括Google Genie系列和斯坦福李飞飞创办的WorldLabs,后者采用Geometry Forcing方式引入显式物理信息[26][29] - 隐空间交互代表包括Google Dreamer系列和Meta的V-JEPA系列,后者通过采样与能量函数评估方式搜索最优执行状态[30][31] - 流形空间是全球唯一布局全域世界模型的团队,其技术路径为自下而上,先做领域模型并通过场景反馈数据不断完善模型能力[33] 流形空间技术策略与创新 - 流形空间选择从预训练开始做起,让模型真正学习物理世界的先验知识,理解因果规律,以降低后期部署成本和数据需求[35][37] - 在数据方面,流形空间采用70%互联网数据和30%真机采集,更倾向于使用第一人称视角数据和带有失败状态恢复的数据[39] - 在模型架构上,流形空间提出具身基座模型需具备推理、想象、执行三位一体的能力,并创新地在视频生成质量和动作质量间建立正相关[40] - 流形空间采用Auto-regressive+DiT混合建模的LongScape架构,其领域模型能方便地用MoE方式混合成更通用的基座模型[35] 商业化战略与市场选择 - 公司发展战略总结为“攀登高峰,沿途下蛋”,即瞄准通用具身世界模型基座的同时,将领域模型提前产品化和商业化以产生营收[42] - 在落地场景上,优先考虑机器人和无人机领域,但不考虑自动驾驶,因机器人市场更加碎片化,能容纳更多玩家[43][44] - 具体聚焦于让硬件本体拥有自主推理能力,推动机器人和无人机从人类控制阶段向智能化、自主推理方向发展[46][47] - 长期来看,世界模型产品化需轻量化,公司已将模型量化蒸馏部署到边缘端推理系统,并选择英伟达芯片,未来考虑国产芯片[47] 团队管理与未来规划 - 团队由工业界资深人士和天才00后组成,注重人才密度而非数量,管理上采用数据驱动的强化学习方式激励团队[49][51] - 计划在2025年底至2026年初正式发布第一代基于WMA路线的基座模型,融资节奏与产品研发节奏匹配[51] - 长期目标是推动Physical AI Agent向前一大步,并实现自研加上赋能的机器人数量超过市场总量的10%[51]