世界模型
搜索文档
刷完英伟达今年所有的项目后,我们推荐这几个......
自动驾驶之心· 2025-12-24 11:29
英伟达的战略定位与市场表现 - 公司已成为人工智能基础设施领域的首要巨头,其市值在2025年10月底达到5万亿美元,是3年前的11倍[2] - 公司已完成从图形芯片到人工智能巨头的演进,关键节点包括1999年推出GeForce 256、2006年CUDA问世、2012年支持AlexNet、2020年开始发布高端计算GPU以及2021年开始发布端侧芯片[2] - 公司的战略野心已超越硬件公司范畴,在2025年于自动驾驶、具身智能、大模型和世界模型等最热门的人工智能赛道上产出了多篇重量级工作[2] 世界模型与仿真平台 (Cosmos系列) - **Cosmos平台**:作为世界基础模型平台,旨在为物理人工智能提供可高效微调的世界仿真基础,其核心贡献包括构建了大规模视频数据管理流程、提出高效视频标记器、开发基于扩散与自回归的可扩展世界基础模型架构,并展示了模型在多种物理人工智能任务中的后训练适应性[39] - **Cosmos-Predict2.5**:新一代物理人工智能视频世界基础模型,与其控制网络变体Cosmos-Transfer2.5基于流匹配架构,统一了文本、图像、视频到世界的生成能力,在视频质量、指令对齐与长视频生成一致性上实现显著提升[17] - **Cosmos-Transfer1**:一个基于扩散模型的多模态可控世界生成框架,通过自适应空间-时间控制权重机制,能根据不同模态输入生成高质量的世界仿真视频,特别适用于机器人仿真到现实迁移与自动驾驶数据增强[37] - **Cosmos-Reason1**:旨在赋予多模态大语言模型“物理常识”与“具身推理”能力,通过定义层次化的物理常识与具身推理本体,并采用“监督微调+强化学习”的两阶段训练范式,使模型能基于视频输入进行长链条思维推理[32] 具身智能与机器人 (GR00T & Isaac Lab) - **GR00T N1**:一个面向通用人形机器人的开放式视觉-语言-动作基础模型,采用双系统架构,并通过构建包含真实机器人数据、仿真轨迹、人类视频与神经生成视频的“数据金字塔”进行大规模预训练,实现了跨机器人平台的强泛化能力[35] - **Isaac Lab**:一个GPU加速的机器人学习仿真框架,构建了集高保真物理、照片级渲染与模块化环境设计于一体的GPU原生仿真平台,旨在系统性解决机器人学习中的数据稀缺、仿真到现实鸿沟及大规模多模态策略训练等核心挑战[6] 多模态大语言模型 (Nemotron系列) - **Nemotron-H系列**:采用创新的混合Mamba-Transformer架构,用计算和内存需求恒定的Mamba层替代绝大部分自注意力层,在保证与顶尖开源Transformer模型相当或更优精度的前提下,实现了高达3倍的推理速度提升[27][28] - **Nemotron Nano 2**:一款面向推理任务的高效混合架构语言模型,通过结合Mamba-2层与自注意力层,在保持高精度的同时,实现了最高达6倍的推理吞吐量提升,并支持128k长上下文推理[26] - **Nemotron Nano V2 VL**:一个高效的120亿参数视觉语言模型,通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化,在文档理解、长视频推理等多模态任务中实现了领先性能[12] 自动驾驶 (Alpamayo-R1) - **Alpamayo-R1**:一种融合因果推理与轨迹规划的视觉-语言-动作模型,旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈,通过结构化因果链数据集、模块化架构与强化学习后训练,显著提升了规划安全性与决策可解释性[13][16] - 在闭环仿真与实车测试中,相比仅预测轨迹的基线模型,Alpamayo-R1在挑战性场景中规划准确率提升最高达12%,脱轨率降低35%,近距离接触率降低25%,推理质量与推理-动作一致性分别提升45%与37%[16] 底层技术与训练优化 - **NVFP4训练方法**:针对大型语言模型预训练的挑战,提出并验证了一种基于新型4位浮点格式NVFP4的高效训练方法,通过混合精度、随机哈达玛变换等关键技术,成功在120亿参数模型上进行了长达10万亿token的稳定训练,首次证实了4位精度在万亿token规模预训练中的可行性[19] - 在120亿参数模型的预训练中,使用NVFP4格式的验证损失与FP8基线全程紧密吻合,相对误差小于1.5%[19] - 对比实验证明,NVFP4在达到相同训练损失时,所需的训练token数比MXFP4少约36%[19] 数字人与生成式人工智能应用 - **Audio2Face-3D**:一个基于深度学习的端到端音频驱动三维面部动画系统,能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画,并支持多身份适配与流式推理[21]
深度解析世界模型嵌入具身系统的三大技术范式
具身智能之心· 2025-12-24 08:25
文章核心观点 - 一篇关于具身智能领域世界模型架构集成的综述文章,首次从架构集成视角将现有研究划分为三大范式,旨在解决传统反应式系统缺乏预测和泛化能力的问题 [1][3][8][13] 世界模型的价值与引入背景 - 传统具身指令跟随系统将语言、感知和动作视为分离组件,纯反应式方法面临缺乏前瞻性和泛化性差两大瓶颈 [8][13] - 世界模型源于人类认知科学,其核心思想是构建能预测未来的内部模型,为智能体带来样本效率提升、长程推理能力、安全性增强及主动规划能力 [8] 架构融合的分类框架 - 根据世界模型与策略模型之间的耦合强度,提出了一个包含两个独立维度的分类框架 [11] - **梯度流动**:策略优化目标的梯度能否直接反向传播以更新世界模型参数 [14] - **信息依赖**:策略输出动作时是否显式依赖于世界模型预测的未来状态 [14] - 基于这两个维度,将相关工作分为耦合强度由弱到强的三大范式:模块化架构、顺序架构和统一架构 [11][12] 范式一:模块化架构 - 关键词为独立、互操作、弱耦合,世界模型和策略作为两个独立单元,无梯度流动,策略不依赖未来状态 [16] - 世界模型作为世界模拟器,关注动作与状态间的因果变化,让智能体能在内部根据动作预演未来 [16] 范式二:顺序架构 - 关键词为分层、意图生成、中等耦合,先由世界模型预测未来状态,策略再基于该状态预测动作 [17] - 梯度传递分为两个阶段,世界模型作为决策生成器,核心任务是生成一个有价值的未来目标状态,从而简化后续控制问题 [17][18] 范式三:统一架构 - 关键词为端到端、联合优化、强耦合,将世界模型和策略集成到一个端到端网络中 [19] - 两者融合为统一大网络,在同一个损失目标下训练,使网络能在同一条计算路径中预测未来状态并输出合适动作,无需显式区分模拟与决策步骤 [19][20][21] 未来研究方向 - **世界模型的表征空间选择与耦合**:未来趋势是融合视觉空间与状态空间,通过统一潜变量平衡表达能力与推理效率 [23] - **结构化意图的生成与表达**:世界模型应生成可解释的未来结构,并与语言和符号推理结合,以显式刻画任务分解、物体关系与因果依赖 [23] - **指导具身智能的脆弱性**:需引入可达性判别、可行性过滤等机制以降低失效风险,并权衡解释性与最优性 [24] - **统一的世界-策略模型构建范式**:需探索如何将大规模预训练模型以最小代价转化为统一决策系统,关键难点在于状态空间对齐和表示粒度选择 [24]
7000亿豪赌,扎克伯格买了众叛亲离
创业邦· 2025-12-23 18:51
Meta在2025年的AI战略与内部动荡 - 2025年对Meta而言是充满挑战与剧变的一年,公司为争夺AI时代主导权而全力加速 [3] - 扎克伯格警告员工为“紧张激烈”的一年做好准备,并进行了大刀阔斧的AI部门重组,形成了以超级智能实验室(MSL)为核心的新架构 [4][5] - 公司投入了数百亿美元,与OpenAI、谷歌等对手展开AI军备竞赛,并悄然推进多项关键项目,以期在图像、视频和语言模型上实现突破 [5][6] - 扎克伯格的领导风格转向强硬,其“窒息式”的微管理导致内部出现混乱 [8][10] 新一代AI模型项目:Mango与Avocado - 公司正在开发图像和视频生成AI模型“Mango”以及大语言模型“Avocado”,预计2026年发布,标志着从Llama系列的增量更新转向更具野心的长期布局 [11][12] - 这些模型是Meta超级智能实验室(MSL)的首批重要成果,旨在帮助公司在AI竞赛中占据一席之地 [14] - “Mango”项目的启动部分源于Llama 4模型的失利,该模型发布前性能不及预期,发布后在基准测试中落后于竞争对手并被指责操纵排行榜 [15][16][17] - “Avocado”模型将聚焦于“高级代码生成”能力,目标是发布时达到谷歌Gemini 2.5的性能水平,并在夏天达到Gemini 3的水准 [19] - 公司还在早期探索旨在“理解物理现实”的“世界模型”研发路径 [20] 高层人事变动与内部矛盾 - 为组建MSL团队,扎克伯格从OpenAI挖来超过20位研究员,并引入Scale AI创始人、28岁的Alexandr Wang担任核心角色 [14] - Alexandr Wang对扎克伯格的“微操型”管理风格大为不满,认为其过度掌控正在扼杀创新空间 [31][32] - 图灵奖得主、首席AI科学家Yann LeCun因被要求向Alexandr Wang汇报而感到不满,这成为其离职的关键导火索之一 [21][41] - 过去一年,Meta持续上演裁员潮,多位资深高管离职,包括首席法务官、首席营收官、研究副总裁、亚太区负责人等 [34][39][40] - 部分被挖角来的顶级AI人才仅在岗数月便辞职,新高管如商业AI负责人Clara Shih上任不到一年也离职了 [35][43] - 公司内部存在论资排辈文化,空降高管如Alexandr Wang面临更大压力,且其资历与管理能力受到部分员工质疑 [36][37] 巨额资本投入与战略重心转移 - 公司过去在元宇宙部门烧掉了700亿美元,2025年该部门将裁员30%的虚拟现实员工 [45][46] - 2025年,Meta的资本支出预计将达到至少700亿美元,远高于上一年的390亿美元 [48] - 为支付新数据中心和芯片的巨额成本,公司利用复杂金融手段融资,包括在2025年10月底发行了总额高达300亿美元的企业债 [51][53] - 扎克伯格宣布明年计划在AI上再投入可能超过1000亿美元,但未明确说明技术如何整合进现有业务并变现 [51] - 扎克伯格认为AI是创造最大价值的技术平台,担心动作太慢会错失机会,因此不惜重金投入 [54][55][56] 面临的挑战与不确定性 - AI未来的商业模式尚不明朗,在开源与闭源、广告变现等路径上存在不确定性 [57] - 广告圈人士指出,公司缺乏能将AI与广告变现能力打通的关键人物 [58] - 2025年8月,公司内部政策文档被曝光,其AI聊天机器人政策被前员工批评为“最不负责任的决策之一” [62] - 外界压力可能使扎克伯格变得更加焦虑和多变,导致战略频繁调整 [63]
聊天机器人只是过客?谷歌押注“世界模型”,寄希望智能眼镜成为AI真正“杀手级”应用
华尔街见闻· 2025-12-23 18:30
公司战略重心调整 - 谷歌正在调整其人工智能战略重心,试图超越当前主导行业的聊天机器人范式,押注于能够理解物理世界的“世界模型”,以寻求AI技术的下一个质的飞跃 [1] - 公司计划于2026年推出新款AI智能眼镜,旨在通过“世界模型”技术与Meta等竞争对手展开差异化竞争 [1] - 该设备由谷歌与三星合作制造,旨在理解三维空间、物理对象间的关系以及环境动态,而不仅仅是描述画面 [1] 技术路径与行业竞争 - 在谷歌的战略版图中,以ChatGPT为代表的大语言模型并非通往通用人工智能的唯一路径 [3] - 尽管OpenAI和Meta全力押注于基于海量网络内容训练的聊天机器人,并在算力上投入数千亿美元,但公司坚持认为基于模拟和物理环境训练的“世界模型”将引领AI的下一次飞跃 [3] - 谷歌正采取对冲策略,既投资于现有的聊天机器人技术,也在可能改变范式的“世界模型”技术上重注布局 [3] - 公司通过合并AI部门并由Hassabis统一领导,以及重新聘请Transformer架构共同发明人Noam Shazeer等措施加强内部整合与竞争力 [4] 产品进展与市场表现 - 随着Gemini 3模型的成功发布,谷歌在性能榜单上拔得头筹,并在用户规模上实现对OpenAI的强有力追赶 [1] - Gemini模型拥有超过6.5亿的月活跃应用用户,以及通过谷歌搜索获得的约20亿用户 [4] - 计划于明年推出的智能眼镜预计将配备透镜显示屏,用于导航和翻译等功能,并可能具备记忆物品位置、理解三维环境并预测动态的能力 [7] 商业化前景与行业意义 - 谷歌面临巨大的商业化压力,急需证明其AI技术能通过广告以外的途径变现,计划推出的智能眼镜承载了这一厚望 [7] - 如果基于世界模型的智能眼镜成功,将不仅仅是硬件业务的复苏,更可能标志着AI应用从单纯的语言处理向物理世界交互的范式转变 [2] - 该产品若获得市场认可,将有望洗刷谷歌Glass曾留下的糟糕声誉,并可能成为AI领域的真正“杀手级”应用,确立公司在下一代计算平台中的领导地位 [7] - 这不仅关乎谷歌能否找到AI时代的“杀手级”应用,也将决定Hassabis能否成功转型为定义谷歌下一个时代的商业架构师 [2]
研报掘金丨中邮证券:维持昆仑万维“增持”评级,前瞻布局世界模型,持续关注AI算力芯片进展
格隆汇APP· 2025-12-23 14:29
公司AI战略与产品布局 - 公司前瞻布局世界模型,世界模型是一类能够对现实世界环境进行仿真,并基于文本、图像、视频及运动等多模态输入生成视频、预测未来状态的生成式人工智能模型 [1] - 2025年8月,公司进一步打造并开源Matrix-3D,其可实现从单图像生成可漫游的高质量三维场景,适用于游戏、影视、虚拟现实及具身智能等多个领域 [1] - 公司持续迭代AI产品,多款产品保持行业领先,后续伴随产品落地,有望形成新增长动能 [1] 核心技术进展与优势 - 目前Matrix-3D已在多个评估指标上优于360DVD、Imagine360、GenEx等主流模型,并取得全景视频生成任务的SOTA成绩,技术稀缺性与领先性凸显 [1] - 公司持续关注AI算力芯片进展 [1] 市场估值 - 以12月19日收盘价计算,对应PE分别为-114/3951/183倍 [1]
机器人学习现状!PI团队内部员工分享(从数采到VLA再到RL)
具身智能之心· 2025-12-23 08:03
文章核心观点 - 截至2025年12月,机器人学习领域的主流系统几乎全部基于行为克隆技术,其核心是通过监督学习模仿人类专家的演示数据[5] - 当前的行为克隆系统面临分布外状态、误差累积、数据收集瓶颈以及无法自我提升等根本性挑战,导致其在实际应用中并不好用[39][40] - 尽管强化学习在理论上能克服行为克隆的局限,但在真实机器人场景中,由于无法从同一状态反复执行、缺乏强基础策略以及仿真与现实差距等问题,其应用仍面临巨大障碍[53][55][62] - 未来的发展路径可能依赖于高质量世界模型的构建,以及持续改进的人类示范数据收集系统,但实现通用、鲁棒且高效的机器人学习仍需长期研究[71][73] 现代机器人学习技术栈剖析 - **数据来源**:当前行为克隆系统的数据主要来自三种方式:主从控制方案、智能演示手套以及直接的人类示范视频[7] - **主从控制方案**:通过人类操作主臂直接控制从臂机器人,其优点是能记录全套传感器数据且动作在运动学上可行,但缺点是操作速度比人类徒手慢得多,可达10倍[8][9] - **智能演示手套**:人类手持配备简化传感器的设备进行操作,通过SLAM和逆运动学重建状态与动作,优点是更易上手、示教更快、部署成本更低,但存在严重的域差距和运动学可行性问题[10][11][18] - **直接人类示范**:来源广泛,如YouTube视频或工厂工人佩戴摄像头记录,数据规模巨大且产生于完整人类速度,但存在巨大的状态与动作重建差距,且轨迹往往在运动学上不可行[12][13][19] 行为克隆的核心挑战与应对 - **分布外状态问题**:由于真实世界与训练数据的微小差异、任务本身的不确定性与多模态性,以及动作预测误差的递归累积,策略在实际执行时会逐渐偏离训练分布[16][17][21] - **DAgger方法**:为解决OOD问题,不能仅用专家数据训练,必须引入DAgger风格的方法,即收集策略在失败状态下的恢复数据,训练模型学会从错误中恢复[26] - **DAgger的实践**:构建DAgger数据是一个高度迭代、耗时且需要大量人工判断的“艺术”过程,通常在预训练好的基础策略上进行,旨在提升策略的鲁棒性[29][30][32] - **DAgger的局限**:虽然能提高平均任务完成速度和鲁棒性,但无法提升策略在最理想情况下的执行速度,且随着策略变鲁棒,评估其性能所需的时间会急剧增加[37][33] 超越行为克隆:强化学习的困境 - **理论优势**:强化学习能实现自我提升、自主探索并从糟糕状态中脱困,达到甚至超过人类水平的执行速度,是理想的替代方案[40][45] - **与LLM强化学习的差异**:大语言模型的强化学习成功依赖于能从完全相同的状态无限次执行,且拥有非常强的基础策略,这两个条件在真实机器人领域均不具备[46][47][53] - **仿真中的强化学习**:在仿真器中训练可避免物理限制,但仿真器是现实世界的糟糕仿制品,存在物理简化、视觉差距等问题,导致严重的sim-to-real差距,策略迁移后表现糟糕[55][56] - **真实世界中的强化学习**:直接学习策略的真实执行数据面临核心障碍,即无法回答“反事实”问题,必须依赖仿真或学习高质量的世界模型/Q函数来想象不同动作的结果,但这仍是开放研究难题[62][64][68] 未来预测与创业建议 - **技术预测**:未来2年内,视觉语言动作模型将被视频模型骨干取代;10年内,能很好模拟通用开放世界交互的世界模型将出现,策略可通过从世界模型中抽取获得;传统仿真引擎将作为数据生成器,但核心是端到端学习的[71] - **数据的重要性**:接近专家级的示范数据对微调世界模型至关重要,而真实机器人的执行数据仍是实现超人级性能所必需的[76] - **创业方向建议**:构建软硬件一体的人类示范系统是确定可靠的方向,能有效降低数据收集痛点并证明能产出高质量策略的公司将成为极具吸引力的合作伙伴或收购对象[73] - **应避免的创业方向**:数据标注是高度商品化的人力套利业务;预训练数据销售是苦生意且需证明有效性;评估必须内部完成,无法外包;通用的机器人数据平台不可能出现[76]
智能驾驶行业专题:Robo-X的产业趋势、市场空间和产业链拆解
2025-12-22 23:47
行业与公司 * **行业**:智能驾驶行业,特别是L4级自动驾驶(Robo-X)及其细分赛道(Robotaxi、RoboVan、Robotruck、RoboBus、RoboSweeper)[1] * **公司**:涉及多家自动驾驶技术公司、主机厂及零部件供应商,包括文远知行、小马智行、萝卜快跑、90智能、新石器、百犀牛、德赛西威、穿行致远、路佳创新、和玉石科技、西迪支架、易控支架、希景科技、主线科技、青舟智航、仙途智能、深蓝科技、享界汽车、优驾创新、苏通巨创、禾赛科技、图达通、沪光股份、科博达、华扬集团、均胜电子、地平线、黑芝麻、博通、易保能科技、耐世特、上汽、广汽、吉利、小鹏、特斯拉、Waymo、百度阿波罗等[3][4][5][14][15][23][25] 核心观点与论据 * **市场空间巨大**:预计2030年全球L4级自动驾驶市场空间达万亿级别[1][2] 国内Robotaxi在共享出行领域的潜在替代市场规模为2,360亿元,RoboVan在物流配送领域为1,645亿元[1][2] Robotruck市场规模预计从2024年的15亿元增长至2030年的900亿元[3][21][22] RoboBus对应市场规模150-350亿元[23] RoboSweeper对应市场规模113-225亿元[24] * **商业化加速在即**:行业在政策、技术、成本共同推动下,预计2026年迎来商业化元年[2] L2/L2+渗透率提升带动零部件成本下降,L4硬件共通性进一步降低成本[2][10] 无人化可显著降低人力成本、提高运营效率并延长每日运营时间[10] * **技术驱动发展**:强化学习和世界模型是L4级自动驾驶的底层技术,解决了传统模仿学习存在的数据稀缺、不平衡及模块依赖问题,提高了系统泛化决策能力[1][7][8][9] * **Robotaxi成本与盈利优势显著**:无安全员的Robotaxi每公里运营成本仅0.81元,比传统燃油网约车低58%,比传统电动网约车低43%[1][13] 当运营车辆规模达到1,000台时,有望实现营业利润转正(月收入1,200万元,月成本707万元)[1][14] * **各细分赛道应用明确**:Robotaxi提供共享出行服务[1][2] RoboVan/无人配送车解决末端物流人力短缺和效率低下问题,降低最后一公里配送成本[3][16] 相比传统物流车,无人配送车每年可节省约5.56万元[3][20] Robotruck应用于干线物流,可优化路线、减少油耗和事故率[3][21] RoboBus应用于机场、园区及城市微循环公交[23] RoboSweeper应对环卫劳动力短缺[24] * **主流商业模式为合作**:主机厂、自动驾驶公司和出行服务商之间的合作是主流商业模式,例如吉利与文远知行及优步,上汽与Momenta及享道出行等[1][14] * **政策支持全球性放宽**:全球多地政府(如中东、东南亚、欧洲)逐步放开自动驾驶限制并明确监管框架[1][6] 中国北京、上海、广州、深圳等城市已开启ROS服务,武汉、重庆等城市也在开放[1][6] 国家邮政局等部委出台政策支持无人配送行业发展[17][18] 其他重要内容 * **2025年国内Robotaxi规模**:假设车队规模达7,000台,在共享出行市场占比0.6%,潜在替代空间巨大[11][12] * **企业布局动态**:特斯拉已于2025年6月22日在德州奥斯汀上线无人驾驶出租车,累计行程超40万公里[1][15] Waymo在全美部署超2,500台Robotaxi[15] 小鹏计划2026年推出三款车型[15] * **技术方案细节**:主流Robotaxi公司普遍采用激光雷达加Orin域控制器的方案,算法基于RBEV和Transformer以适应复杂城市环境[19] * **无人配送车具体参数**:运行速度不超过40公里/小时,适用于5-20公里短距离运输[16] 假设2025年轻卡、微卡年销量分别为190万和45万辆,如可替代70%市场,潜在空间达1,001-6,455亿元[20] * **投资关注环节**:整车销售与运营、数据获取(传感器)、数据传输、数据处理(芯片、域控制器)、数据应用(执行部件)等产业链环节均有值得关注的公司[5][25]
赵何娟对话张宏江:世界模型已是兵家必争之地|2025 T-EDGE全球对话
钛媒体APP· 2025-12-22 22:52
文章核心观点 - 人工智能发展进入新阶段,超级智能的出现将首次导致技术革命“消灭工作”而非仅替代岗位,对社会经济结构构成根本性挑战 [2][8][78][79] - 大模型技术发展远未到顶,预训练模型的Scaling Law仍有空间,而推理模型的Scaling Law则刚刚开始,技术演进正沿着“预训练模型-推理模型-智能体”的主线快速推进 [12][13][16][17] - 行业竞争格局未定,OpenAI与Google各有优势,未来可能多种生态共存,而下一代模型(如世界模型、AI科学家)的探索已吸引巨额资本押注 [4][20][34][41] - AI基础设施(算力、能源、数据中心)的投入是构建下一代数字时代的基石,当前不存在整体性泡沫,但算力仍是核心瓶颈 [42][44][47][48][51] - 应用层面,编程和内容生成已成为明确的爆款方向,具备强自主运营能力的智能体(Agent)预计将在2026年开始大量涌现 [52][53][54][55] 技术发展趋势与模型演进 - **发展主线**:过去三年AI发展呈现清晰的三部曲:预训练模型、推理模型、智能体,模型能力持续向上突破,推理模型与智能体的边界正在模糊 [13][14][15][18] - **Scaling Law 现状**:预训练模型的Scaling Law还远远没有到达顶点,其效率虽不如三五年前,曲线变平缓,但投入产出依然成正比,而推理模型的Scaling Law其实还有很长的路要走 [16][17][19] - **下一代模型探索**:行业正在寻找Transformer之外的新架构突破口,世界模型和“AI科学家”(用AI改善AI)是重要方向,硅谷已有相关初创公司在人未到齐、网站未上线时估值就达40亿至50亿美元 [4][20][22][23] - **模型能力评估**:评判模型能力不能只看传统“跑分”,需更关注其完成实际任务的生产力,推理模型能够“慢思考”的时长是衡量智力上限的重要标志 [24][25][26] 行业竞争与市场格局 - **OpenAI vs Google**:两者竞争激烈,各有优势。Google凭借全栈能力、强大执行力在Gemini 3.0上实现了爆发,其AI三要素(算法、人才、数据)结合良好;OpenAI则拥有约8亿周活跃用户的ChatGPT应用生态和先发优势,但面临内部动荡及在预训练模型上投入不足的挑战 [34][35][36][37] - **生态模式**:未来AI时代可能像移动互联网时代一样,封闭的全栈生态(如苹果)与开放的生态体系(如安卓)共存,现在给OpenAI、英伟达下结论为时过早 [40][41] - **芯片竞争**:Google使用自研TPU训练出Gemini 3.0,引发了TPU是否会打败GPU的讨论,给英伟达股价带来压力,但最终哪种体系胜出尚待观察 [40] 基础设施与资源瓶颈 - **核心瓶颈**:算力依然是AI发展的根本瓶颈,电力、数据中心(IDC)建设是满足算力需求的前提 [42][44][47] - **美国基建挑战**:美国IDC建设速度慢,从立项到运行需约三年,电网能力是主要卡脖子环节,而非能源本身短缺 [43][44] - **算力密度单位**:行业开始用“兆瓦”作为算力集群的新单位,1兆瓦电力约对应50万张GPU(H200)的算力 [44] - **中国算力制约**:DeepSeek团队明确表示其模型性能受限主要因为算力不足,加算力后模型能力仍有持续提升空间 [46][47] 应用落地与投资热点 - **已确认的爆款应用**:To C端的ChatGPT和To B端的AI编程(如Cursor)已成为明确爆款,AI生成内容在金融、体育等领域的新闻报道占比已超过50% [52][53][60] - **智能体(Agent)爆发点**:随着推理模型能力提高,预计在未来12到24个月内AI会有非常大突破,2026年将出现大量具备强自主运营能力的Agent [54][55][56] - **垂类机会**:编程、客服、媒体内容生成、企业工作流自动化是可能快速发展的垂类赛道 [57][59][60][62] - **端侧AI现状**:当前的AI手机、AI眼镜等硬件主要聚焦于智能交互,真正的智能仍在云端,端侧生成式模型驱动尚未成熟,自动驾驶是特例因其车载算力充足 [63] 机器人赛道与具身智能 - **存在泡沫**:中国的机器人赛道被认为是AI领域泡沫最多的,中国可能有上百家机器人公司,而美国仅约十家左右 [65][66] - **发展挑战**:在世界模型取得突破之前,具身智能很难做到通用,这不是三到五年的事,而是五到十年的事 [66][73] - **中美差异**:中国在机器人本体制造和供应链上有显著优势(一次升级仅需一周,美国需两个月),但大部分本体仍处于遥控状态,缺乏自主执行通用任务的泛化能力 [67][72] - **务实路径**:特斯拉机器人可能实现百万台量产,因其专注于工业场景中的“一类任务”机器人,而非通用机器人,这在特定领域已具重大意义 [68][69][75] 社会经济影响与未来挑战 - **就业冲击本质**:超级智能将“消灭工作”本身,而不仅仅是替代某个岗位,这是人类首次面临技术革命减少整体工作机会的挑战 [2][78][79] - **创造与消灭的循环**:AI会创造新工作机会(如图片需求增加),但这些新机会最终可能仍由AI自身满足,而非转移给人类 [78] - **贫富差距与超级个体**:在大模型驱动的Agentic Economy时代,会出现“一人的独角兽”式超级个体,个人能力和收入差距将进一步拉大 [9][85] - **潜在解决方案探索**:社会开始探讨全民基本收入(UBI)、新的税收体系(向机器人或公司利润征税)以及让公民分享技术成长红利的投资账户等方案 [82][83] - **未来职业形态**:自由职业者、非全职工人招聘可能成为主流,人们需要具备机器难以替代的特定技能,并保持好奇心和创造力以应对变化 [86][88][89]
昆仑万维(300418):前瞻布局世界模型,持续关注AI算力芯片进展
中邮证券· 2025-12-22 19:09
投资评级与核心观点 - 报告对昆仑万维维持“增持”评级 [10] - 报告核心观点认为,昆仑万维前瞻布局世界模型,AI能力保持行业领先,商业化水平有望持续加强,同时算力需求高增明确,需关注其芯片业务进展 [5][6][7][8] 公司基本情况与市场表现 - 公司最新收盘价为39.99元,总市值为502亿元,总股本为12.55亿股 [4] - 公司52周内最高价为49.98元,最低价为27.23元 [4] - 公司资产负债率为17.9%,市盈率为-30.76 [4] - 截至报告发布时,公司股价在过去一年中表现弱于传媒行业指数 [3] 事件回顾与行业背景 - 2025年12月11日,AI视频生成公司Runway发布了其首款通用世界模型GWM-1,进军“世界模拟”产业赛道 [5] - 世界模型被视为通向AGI(通用人工智能)的重要技术路线,能够使AI具备类似人类的认知和推理能力,目前Google、DeepMind、Meta等头部机构均在积极推进相关研究 [6] 公司技术布局与领先性 - 昆仑万维是国内首个同时推出3D场景生成与可交互视频生成模型的企业,于2025年2月推出了世界模型-Matrix系列 [6] - 2025年8月,公司进一步打造并开源Matrix-3D,可实现从单图像生成可漫游的高质量三维场景,在多个评估指标上优于360 DVD、Imagine360、GenEx等主流模型,并取得全景视频生成任务的SOTA成绩 [6] - 2025年11月,公司推出SkyReels V3多模态视频生成模型,在声音画面同步、画面质量等关键指标上已接近主流闭源SOTA视频模型 [7] - 2025年11月,公司发布Mureka V7.6与Mureka O2模型,其中Mureka在音乐质量与提示词遵循等维度上已超过海外头部AI音乐产品同期表现水平 [7] - 2025年11月,公司发布轻量化版本R1V4-Lite,在单一模型中统一实现了主动图像操作、外部工具调用与多模态深度研究三大能力 [7] 商业化前景与算力需求 - 公司AI产品已广泛覆盖办公协同、3D场景生成、AI社交及短剧等多个应用领域 [7] - 伴随AI产业演进,视频、图像等新模态应用加速落地,算力需求持续增长 [8] - 根据新华网报道,预计2025年中国智能算力规模将达到1037.3 EFLOPS,较2024年增长43%;2026年规模有望进一步提升至1460.3 EFLOPS,体量或将达到2024年的两倍 [8] - 公司持续推进AI芯片研发,关键模块的设计与验证进展顺利,产品落地后有望形成新增长动能 [8] 财务预测与估值 - 预计公司2025年营业收入为71.42亿元,同比增长26.14%;2026年营业收入为80.09亿元,同比增长12.14%;2027年营业收入为88.86亿元,同比增长10.94% [9][12] - 预计公司2025年归母净利润为-4.40亿元,2026年转正为0.13亿元,2027年增长至2.74亿元 [9] - 预计公司2025年每股收益(EPS)为-0.35元,2026年为0.01元,2027年为0.22元 [9] - 以2025年12月19日收盘价计算,对应2025/2026/2027年市盈率(PE)分别为-114倍、3951倍和183倍 [10][12] - 预计公司毛利率将从2024年的73.6%调整至2025-2027年约67.6%的水平 [13]
硅谷停电干崩谷歌Robotaxi,马斯克贴脸热嘲:特斯拉就没事
量子位· 2025-12-22 17:30
文章核心观点 - 一次因大规模停电导致的交通信号灯失灵事件,暴露了Waymo自动驾驶系统在极端场景下的运营漏洞和技术短板,引发了对其所代表的L4终局式技术路线的质疑 [1][3][7] - 特斯拉及其代表的L2渐进式路线借此事件彰显了其优势,马斯克公开表示其Robotaxi未受影响,凸显了特斯拉通过海量真实数据训练和FSD系统应对复杂场景的能力 [1][12][13] - 自动驾驶行业竞争加剧,以特斯拉为代表的“渐进式”路线玩家正加速进入Robotaxi市场,与Waymo代表的“终局式”路线展开正面竞争,行业进入“战国时代” [1][19] 事件起因与Waymo的应对 - 旧金山变电站火灾导致大规模停电,影响约13万居民,交通信号灯停止工作 [2][3] - Waymo Robotaxi将不工作的红绿灯视为停车标志而停下,但由于停电范围大、无线信号差,远程安全员无法接管车辆,导致车辆成为路障,造成交通拥堵 [3][5][7] - Waymo公司连夜用拖车移走车辆,并宣布在当地暂停运营,恢复时间未定 [5] Waymo暴露的技术与运营问题 - 车队规模超过2500辆,在行业中排名第一,但分散于各城市,收集的真实场景数据有限,这是行业共性问题 [8] - 公司技术转向“世界模型”,通过模拟环境补充数据训练,但此前未对“交通灯失灵”这类极端场景进行针对性训练,导致AI司机缺乏应对能力 [9] - 此次事件暴露了其在极端情况下的运营依赖性和技术准备不足 [7][9] 特斯拉的对比与进展 - 马斯克迅速回应,称特斯拉Robotaxi在旧金山停电事件中未受影响,并获得了大量网友支持,其推文点赞量超过6万 [12][13][15] - 支持者认为特斯拉FSD系统经过了数十亿公里行驶数据的验证,能更好地处理异常情况 [15] - 特斯拉在加州的奥斯汀已开启无人驾驶运营,摩根士丹利预测其Robotaxi车队规模将在明年突破1000辆,2030年达3万辆,2035年达到惊人的100万辆 [17] - 特斯拉在加州还注册了1655辆车用于带司机的网约车服务,这些车辆激活FSD系统进行人机共驾,以收集数据反哺Robotaxi业务 [18] 行业竞争格局演变 - 以Waymo为代表的L4终局式路线正面临来自特斯拉L2渐进式路线的实质性挑战 [1][17] - 中国自动驾驶公司如Momenta、元戎启行、地平线等也纷纷重注Robotaxi,沿着“特斯拉路线”前进 [19] - 出行平台集体转向,推出Robotaxi打车服务,行业竞争在2026年将变得前所未有的激烈 [19]