Workflow
World Model
icon
搜索文档
华为哈勃押注,成立仅半年融资三连跳,这家公司凭什么成为“世界模型黑马”?
机器人大讲堂· 2026-01-20 17:11
公司概况与融资动态 - 公司流形空间(Manifold AI)由商汤科技早期核心成员武伟博士创立,致力于通过世界模型让AI从“看见”世界迈向“推演”世界 [1][7] - 公司成立仅7个月便完成超亿元天使+轮融资,投资方包括梅花创投、君联资本、华为哈勃,老股东英诺基金继续加注 [1][2] - 自2025年5月成立以来,公司融资节奏极快,先后完成种子轮、约亿元天使轮和超亿元天使+轮,不到一年累计完成超3亿元融资 [2][4][7] 技术路径与核心产品 - 公司摒弃主流视觉-语言模型路线,独创世界模型行动路径,其自研的WorldScape世界模型通过海量第一人称视角视频预训练,使AI能根据单张图片预测物体运动与物理交互 [12][13][14] - 公司已完成室外-室内-空域的全域具身模型布局,包括面向自动驾驶的DriveScape、物理信息可控的具身模型RoboScape以及全球首个无人机专属世界模型AirScape,这些场景模型均基于同一个基座模型WorldScape迭代而来 [15] - 公司实测表明,其模型在zero-shot泛化能力上已显著超过包括pi0.5在内的经典视觉-语言-行动模型 [15] 团队管理与战略愿景 - 创始人武伟曾主导商汤“开悟”世界模型研发,团队由工业界资深人士与年轻天才组成,注重人才密度而非数量,并采用数据驱动的“强化学习”式管理方法 [7][8] - 公司发展战略被概括为“攀登高峰,沿途下蛋”,即致力于打造通用的具身世界模型基座,同时将RoboScape、AirScape等细分领域模型提前产品化与商业化以产生营收 [20] - 公司的长期目标是推动Physical AI Agent发展,并让公司“自研+赋能”的机器人总量超过市场的10% [19] 产业合作与生态意义 - 华为哈勃作为战略投资者入场,其终端设备与工业数字化布局与公司技术落地方向高度契合,有望加速世界模型在端侧设备、工业机器人、智能汽车等场景的规模化落地 [9][11] - 公司技术已率先接入NVIDIA Jetson Thor用于端侧部署,华为的加入或将为未来国产化芯片与机器人大脑的集成路线铺平道路 [11] - 行业观点认为,世界模型指向AI系统长期缺失的“物理直觉”或“物理常识”,是智能体走进真实世界的关键,未来三年将看到该技术从实验室走向仓库、工厂和家庭 [14][20][22]
我们在招募这些方向的合伙人(世界模型/4D标注/RL)
自动驾驶之心· 2026-01-12 17:20
行业阶段与平台定位 - 自动驾驶行业已进入下半场 行业面临难点与痛点需要更多参与者共同突破 [2] - 公司作为国内自动驾驶领域的技术创作平台 旨在行业激流中贡献力量 成为能为行业带来价值的平台 [2] 业务发展方向与人才需求 - 公司业务发展需要更多优秀伙伴加入 [3] - 主要业务方向涵盖自动驾驶产品经理 4D标注与数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个前沿技术方向 [4] - 岗位职责主要面向B端与C端的自动驾驶培训合作 课程开发以及原创文章创作 [5] - B端客户面向企业 高校及研究院所 [5] - C端客户面向学生及求职人群 [5] 合作方式 - 有关待遇与合作方式的进一步沟通 可通过指定微信联系 [6]
拾象 2026 AI Best Ideas:20 大关键预测
海外独角兽· 2026-01-01 13:25
文章核心观点 文章对2026年人工智能领域的发展趋势做出了20项关键预测,核心观点认为2026年将是AI技术深化、应用爆发和商业格局重塑的关键一年,涵盖新范式探索、模型竞争、多模态突破、企业级应用、硬件基础设施变革以及自动驾驶商业化等多个维度 [2][4] 技术范式与模型发展 - **新范式信号出现**:行业预计在2026年将在持续学习(Continual Learning)等新范式上出现积极信号,可能在1-2个技术路线上达成共识,出现类似Transformer的代表性工作或早期共识,这是突破当前模型代际差距的关键 [5] - **World Model路线收敛**:世界模型的技术路径预计在2026年结束“盲目探索”,达成共识,进入“GPT-2时刻”,即技术路线收敛后通过扩大规模(scaling)验证模型上限,进入爆发前夜 [4][20] - **开源模型格局变化**:预测中国公司如Qwen和DeepSeek将持续占领开源领域的SOTA(最先进水平),全球开源第一梯队将完全由中国公司占据,而美国顶尖团队因专注于闭源模型,将缺乏与之抗衡的对标产品 [4][25] - **AI参与科研深化**:预计在2026年左右,AI将更“原生地”解决第一个重大科学问题,最有可能发生在数学、物理或材料学领域,背景是OpenAI、Google等AI实验室加大了对科学领域的投入 [4][23][24] 主要参与者与竞争格局 - **OpenAI叙事反转与估值**:预测OpenAI将在2026年下半年扭转叙事,估值突破万亿美元,驱动力包括ChatGPT成为全球性入口、探索新的商业模式,以及有望在持续学习新范式上取得突破并重回SOTA地位 [4][9][10] - **xAI并入Tesla**:预测xAI将被并入Tesla,旨在打通数字与物理世界的AGI,将xAI的智能资产转化为Tesla在自动驾驶和具身机器人(如Optimus)领域的“具身智能”溢价 [4][11] - **Google市值突破**:预测Google市值将在2026年进一步冲高,突破5万亿美元,这意味着其EPS有望达到16至20美元,市场可能给予30倍以上的PE倍数,信心来源于其稳固的模型第一梯队地位、多模态积累以及广告业务的韧性 [4][34] - **M7科技巨头分化**:预测到2026年,M7巨头在AI上的收益和穿越周期能力差异将加剧,分化为三层梯队:NVIDIA和Google是核心赢家;Apple和Tesla因硬件和物理AI优势维持中间地位;MSFT、AWS和Meta可能掉队 [4][35] 产品、应用与商业化 - **ChatGPT成为全球入口**:预测ChatGPT的DAU将从当前的约4-5亿在2026年翻倍,达到8亿至10亿,成为真正意义上的“全球性入口”;同时,其Web端流量与Google的比例将从约85:15演变为至少70:30,达到“1/2个Google”的体量 [4][6] - **ChatGPT的“App-store Moment”**:预测ChatGPT将出现“应用商店时刻”,标志是诞生第一个年度经常性收入(ARR)达1亿美元的原生Killer App,实现从超级工具向超级平台的跃迁,AI将直接推荐并嵌入应用功能到对话流中 [4][7][8] - **企业级AI大年**:预测2026年是“企业级AI大年”,爆发路径分化为“Buy”(开箱即用产品,如AI-native办公工具)和“Build”(基于API深度构建Agentic工作流)。Anthropic因其作为中立、跨云的强API提供者的结构性优势,预计ARR将至少翻倍,突破200亿美元 [4][12][14] - **多模态迎来“AI Coding时刻”**:预测多模态领域将像AI编程一样开始产生规模化的商业收入,出现代表性公司,并预计在2026年诞生类似“Pokémon GO”的现象级AI多模态内容消费产品,推动软硬件协同进化 [4][15][16] - **自动驾驶规模化商业变现**:预测2026年是自动驾驶“大规模商业化大年”,全球Robotaxi车队总量可能从约2万台增长10倍,达到约30万台量级;Tesla的FSD订阅用户数预计从70万翻倍增长至150万左右,成为重要现金流来源 [4][36][37] 基础设施与硬件 - **推理算力大爆炸**:预测2026年将是推理算力“大爆发”之年,从Tokens消耗角度看预计至少有10倍增长,驱动因素包括从对话转向“长程任务”、Proactive Agents的主动行为以及多模态与世界模型应用带来的高维计算需求 [4][30][31] - **NVIDIA投入光互联与CPO并购**:预测NVIDIA将在2026年激进投入光互联领域,并可能引发全球共封装光学(CPO)领域的并购潮,NVIDIA凭借微环调制器等技术在光互联领域建立代差壁垒 [4][27][28] - **多模态引发存储革命**:预测多模态训练的爆发将硬件关注点引向存储带宽与容量,特别是eSSD;如果世界模型路径跑通,将进一步驱动存储需求,存储将从芯片外设深度融入算力核心,NVDA和Google可能推出针对视频处理的专属芯片或chiplet [4][29] 行业生态与资本市场 - **新一波数据公司崛起**:预测长程任务(Long-horizon Tasks)和多模态需求的爆发将催生新一波ARR达10亿美元的数据公司,需求来自高难度的长轨迹数据、多模态标注处理以及企业级AI落地所需的专有领域知识 [4][17] - **AI公司IPO大年**:预测美股将在2026年迎来AI公司IPO大年,SpaceX、OpenAI和Anthropic等巨型公司以及已具规模的垂直AI公司可能密集上市,反映极高的市场热度,但巨型IPO也可能成为市场情绪峰值信号 [4][32][33] - **AI公司估值共识形成**:预测随着Agent产品(如Proactive Agent、长程任务应用)的普及,2026年将形成新的、可量化的Agent产品价值评估体系,取代传统的用户留存、企业IT预算等指标 [4][26] - **Agentic Web博弈与协议**:预测Agentic Web(AI能跨越边界替用户行动)将打破现有流量分发逻辑,引发类似“3Q大战”的利益冲突,而Apple可能凭借其软硬全栈布局和强势生态,在2026年推出决定性的Agentic Web协议规范 [4][21][22]
LeCun预言成真?这有一份通往AGI的硬核路线图:从BERT到Genie,在掩码范式的视角下一步步构建真正的世界模型
量子位· 2026-01-01 10:13
文章核心观点 - 一篇题为《From Masks to Worlds: A Hitchhiker's Guide to World Models》的论文提出,构建真正的世界模型(True World Model)最有希望的技术路径是从掩码预训练出发,经过统一架构与可交互式闭环,并设计持久的记忆系统[3][4] - 论文认为,真正的世界模型并非单一模型,而是一个由生成系统、交互系统和记忆系统三大核心子系统合成的有机整体[6][8] - 掩码(Masking)是贯穿世界模型演进五个阶段的灵魂线索,它已从一个预训练技巧进化为跨模态通用的生成原则和优于自回归的“创世法则”[4][10][13] 世界模型的定义与构成 - 真正的世界模型需要是一个由三大核心子系统合成的有机整体[6] - **生成系统**:是世界的物理法则载体,负责预测下一帧、模拟世界状态演化、将隐变量映射为观测,并预测任务相关的回报[8] - **交互系统**:包含推断器和策略,是让世界“活”起来、实现可交互闭环的关键,没有它,模型只是视频而非模拟器[8] - **记忆系统**:负责通过循环状态更新确保世界在时间轴上的持久连贯,是对抗熵增的防线[8] 世界模型的演进阶段 - 论文将世界模型的演进划分为五个阶段,并用一张全景图串联起了从BERT到Genie-3的十年AI进化史[4][9] - **第一阶段:基于掩码的模型** - 确立了“Mask-Infill-Generalize(遮挡-补全-泛化)”作为构建世界模型的地基[23] - **第二阶段:统一模型** - 目标是用同一个骨干,在同一个范式下,处理和生成所有模态[24] - **第三阶段:交互式生成模型** - 模型开始响应用户动作,从“放映机”变成“模拟器”[36] - **第四阶段:记忆与一致性** - 解决长程推理中的“灾难性遗忘”和“状态漂移”问题[46][48] - **第五阶段:真正的世界模型** - 当生成、交互和记忆系统完美融合,模型将涌现出持久性、主体性和涌现性三大本质特征[51][52] 第一阶段:掩码范式的统治力 - 掩码被证明是跨模态通用的“生成原则”和优于自回归的“创世法则”[13] - **在语言领域**:以Google的Gemini Diffusion为例,离散扩散模型将掩码进化为迭代去噪过程,在生成质量和推理速度上可比肩甚至超越传统自回归基线[16][17] - **在视觉领域**:MAE通过高比例像素遮挡学习到了极强的语义表征;MaskGIT和MUSE利用掩码生成变换器实现了并行解码,在保持高保真度的同时带来极致效率;最新的Meissonic证明掩码生成变换器可在高分辨率文生图任务上与顶级扩散模型竞争[19] - **多模态普适性**:从VideoMAE的时空管道掩码到wav2vec 2.0的音频掩码,再到Point-BERT的3D点云掩码,掩码是能统一所有数据形态的通用语言[22] 第二阶段:统一架构的路径博弈 - 实现统一模型存在两大阵营的博弈:语言先验与视觉先验[25] - **语言先验建模**:主流是自回归路线,但存在处理图像全局结构的局限;新兴的掩码/离散扩散路线(如MMaDA、Lumina-DiMOO、LaviDa-O)在保持语言理解能力的同时,利用掩码的双向注意力提升视觉生成质量,被视为掩码范式在语言建模内部的一次胜利[26][28][30] - **视觉先验建模**:从视觉模型出发反向兼容文本,例如基于潜在扩散模型的UniDiffuser和基于掩码图像建模的Muddit[32][35] - Lumina-DiMOO和Muddit等工作证明,掩码/离散扩散架构能在双向上下文中实现更精细的生成控制,是让“语言逻辑”与“视觉生成”完美兼容的最大公约数[34] 第三阶段:交互式生成模型 - 此阶段模型开始响应用户动作,从预测下一帧变为可交互的模拟器[36] - **从GameGAN到Genie**:Genie-1基于MaskGIT的离散掩码生成架构,从互联网视频中无监督学习“潜在动作”,通过预测被掩码的未来帧学会物理规律[37][38] - **Genie-3的突破**:实现了720p分辨率、24fps帧率的实时交互,并能维持分钟级的连贯游玩[41] - **效率优势**:掩码架构的并行解码能力使得Genie等模型能在极短时间内生成高质量下一帧,从而闭合低延迟的“感知-行动”回路;相比之下,传统的自回归视频生成模型在实时性上捉襟见肘[42][43] - GameNGen和Matrix-Game等基于扩散的实时引擎共同证明,要造可玩的世界,掩码/扩散范式是目前最有希望的路线之一[43] 第四阶段:记忆与一致性的挑战 - 当前视频生成模型依赖隐式的KV Cache或有限的上下文窗口,在长程推理中容易导致“灾难性遗忘”和“状态漂移”[47][48] - 论文梳理了三类解决方案以构建持久的世界[49] - **外部化记忆**:如RAG和MemGPT,给模型外挂一个可读写的硬盘,让知识可编辑、可追溯[49] - **架构级持久化**:探讨Mamba这类线性时间状态空间模型以及Ring Attention等技术,试图从架构底层实现“无限上下文”[49] - **一致性治理**:针对视频生成中的漂移,利用FramePack、Mixture of Contexts以及VMem等技术,通过显式的3D结构或稀疏注意力为像素世界打上稳固的“时空桩”[49] 第五阶段:真正的世界模型与终极难题 - 当生成、交互和记忆系统完美融合,真正的世界模型将涌现出三大本质特征:持久性、主体性和涌现性[51][52] - 要到达此阶段,需攻克三大终极难题[53] - **连贯性/评估难题**:当世界是自生成的,需要新的评估体系来衡量虚构世界的逻辑自洽性[58] - **压缩/扩展难题**:世界模型必须学会“抽象记忆”,只保留因果相关的状态,否则计算量将导致系统崩溃[58] - **对齐/安全难题**:不仅要对齐世界的“物理法则”,还要对齐世界中涌现出的亿万智能体社会的“社会动态”,难度远超对齐一个ChatGPT[58] - 跨越此门槛后,世界模型将从娱乐工具升级为“科学仪器”,可用于运行经济、社会、认知等领域的虚拟实验[55]
中兴通讯崔丽:AI应用触及产业深水区 价值闭环走向完备
21世纪经济报道· 2026-01-01 07:07
文章核心观点 - AI大模型发展正从基础设施向上层应用演进,基座大模型将收敛,但垂域模型与应用将极大丰富,成为引发技术变革的关键[1] - 物理AI是重要关注窗口,正加速具身智能、自动驾驶等领域演进,但技术路线存在分歧,软性基础尚在夯实[1] - 2025年进入“Agent元年”,AI技术正从Copilot辅助模式向自主行动的Agent模式迈进,目标是全价值链的业务重构,但规模化落地仍面临挑战[6][7] - 部分行业凭借信息密集、数据结构化程度高、价值闭环快等特征,已率先借力AI完成价值闭环,进入数智化转型“深水区”[1][9][11][12] 物理AI的技术路线与分歧 - 物理AI存在两条核心路线竞争:世界模型与视觉语言模型[2] - Sora等模型标志着AI从“预测者”向“模拟者”进化,是从数据驱动到模型仿真驱动、物理对齐、通用模拟的范式转移[2] - 当前Sora仅是“视觉模拟器”,而非真正的“物理世界模型”,因其缺乏因果推理、反事实推演和物理一致性,常出现违背物理逻辑的“物理幻觉”[2] - 世界模型路线分化为“生成派”与“表征派”:生成派通过海量感官数据归纳世界规律,适合做数据工厂或仿真训练;表征派通过构建内在结构推演世界状态,适合做决策大脑和实时推理[3] - 应用于具身智能的VLA模型将控制问题转化为序列建模,优势在于零样本泛化,但缺乏因果推理且依赖训练数据覆盖度;世界模型主张构建环境内部模型进行虚拟试错,样本效率远超VLA[3] - 产业界正呈现VLA与世界模型融合的趋势,例如利用VLA进行高层策略规划,利用世界模型进行底层动作验证[4] 网络架构向AI原生演进 - 网络架构正从“云原生”向“AI原生”演变[5] - 云原生解决了互联网应用的弹性伸缩和敏捷开发需求,互联网流量以“南北向”为主,数据包小而离散,对时延抖动有一定容忍度[6] - 大模型时代流量特征转向分布式“同步计算”,带来“大象流”、丢包零容忍、微秒级时延敏感等特点,需要网络做到“万无一失”[6] - AI原生网络的核心是极致的性能无损和算网协同,具备内生智能、确定性保障和算网一体等关键特征[6] - 应用层面,云原生应用以K8S为底座,以微服务架构为代表;AI原生应用以“大模型+Agent”为底座,以Agent及Agent间通信为代表;两者将趋于融合成为云智一体原生应用[6] Agent元年的机遇与挑战 - 2025年被称为“Agent元年”,将推动千行百业更彻底转型,从效率提升转向业务重构[6][7] - Agent从实验室走向企业核心生产系统的“最后一公里”面临多重挑战[8] - 在高可靠性行业,需解决随机性模型与确定性业务之间的矛盾、确保长程任务稳定性、构建可信安全边界[8] - 核心业务中,AI“幻觉”是不可接受的风险,企业无法容忍“黑盒”在没有人类审核下做出关键决策[8] - 由于上下文窗口限制,处理跨天、跨周的复杂任务链时,模型易出现记忆丢失或逻辑断裂,导致开发复杂度指数级增长[8] - Agent使用工具可能带来沙箱逃逸、资源耗尽和数据泄露等安全风险[8] - 企业现有IT环境复杂,存在接口标准化缺失、数据孤岛等问题,同时需平衡推理维护成本与投资回报率[8] 行业应用与价值闭环 - 能率先实现AI价值规模化复制的行业具备关键特征:信息密集、数据结构化程度高、具备强反馈机制、价值闭环极快、有一定容错度、具备一定范围泛化能力[9] - 数字化转型较好的行业更容易进行智能化转型[10] - 教育、医疗、软件开发、智能制造、城市治理等行业可能率先完成价值闭环[11] - 制造业凭借高度结构化数据环境和明确效率指标,成为AI价值变现的“排头兵”[11] - 城市治理依托海量多模态数据和公共安全需求,正通过“城市智能体”模式实现从被动响应到主动预防的跨越[11] - 数智化转型进入“深水区”意味着AI从外围辅助系统进入核心生产系统,如网络运营、电网调度、城市应急指挥等[12] - “深水区”将面临“三多”:多模态数据、多厂家设备、多业务场景;“三新”:新技术、新架构、新安全威胁;“三跨”:跨领域知识融合、跨系统数据调用、跨组织流程协同[12] 技术路径:通用大模型与行业小模型的协同 - 驱动行业AI发展并非“通用基础大模型+行业精调”与“从零构建行业专属小模型”的二选一,而应采用“云边协同”的混合路径[12] - “通用基础大模型+行业精调”是构建企业“大脑”的最有效路径,解决了认知层面的通用性与专业性矛盾,能以低成本继承通用逻辑能力,解决知识密集型任务[12] - 从零构建行业专属小模型是构建企业“四肢”的可行方案,在非自然语言、极致边缘和极致隐私场景下不可或缺,解决了感知与执行层面的效率、适配和安全问题[12] - 面对工业领域的振动波谱、雷达信号、基因序列等“非自然语言”数据,通用模型的先验知识可能成为噪音,需从零构建专用的CNN或Transformer模型[13] - 对于极致时延和功耗场景,如矿山无人驾驶卡车或高速贴片机,推理时延需控制在毫秒级,算力受限于嵌入式芯片,训练一个参数量在几百万到几亿的专用小模型是唯一可行方案[13] - 面向对数据隐私和主权有极致要求的场景,如金融或核心基础设施,为确保模型无潜在偏见或后门,会选择完全物理隔离环境下的从零训练[13] - AI本身已在重塑软件工程,高效利用AI代码大模型试错,可在一定程度上加速试错和降低成本[13]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-31 08:31
行业整体动态 - 自动驾驶行业在整体下沉的关键节点竞争激烈 卷技术 卷成本 卷效率 [1] - 行业人才流动显著 上半年及当前有大量自动驾驶领域人才转行至具身智能 无人机等行业 L4/具身/无人机行业正在大批量招人 [1] - 自动驾驶作为相对成熟的AI领域 其算法人才非常受欢迎 头部企业如大疆 宇树 智元 哈啰等提供的薪资很到位 [1] - 自动驾驶从业者因具备使用大集群 解决各种复杂场景问题以及上下游协同能力强等经验 在其他相关行业备受青睐 [2] 公司业务发展 - 公司业务在年内进行了拓展 扩充了许多B端客户 并开始尝试从线上走向线下 [1] - 公司在C端的内容策略正从普适性内容逐渐转向专业化和精细化 [1] 技术发展趋势 - 自动驾驶头部技术收敛到几个大方向 包括一段式端到端 VLA 世界模型 强化学习 [3] - 行业中游厂商仍在攻坚OCC 无图技术 多传感器融合感知等领域 [3] - 相关技术公司计划在明年开放大量职位 [3] 行业社区与信息 - 自动驾驶之心付费社区的成员在年内正式突破4000人 [3] - 该社区提供技术路线发展 各类圆桌讨论 研报 职位信息等内容 [3]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-28 11:30
行业整体动态与竞争格局 - 自动驾驶行业在整体市场下沉的关键节点竞争激烈 各公司卷技术 卷成本 卷效率 [1] - 行业公司业务模式呈现多元化发展 例如从线上服务拓展至线下 从服务C端用户转向同时拓展B端客户 [1] - 面向消费者的服务内容正从普适性内容向专业化 精细化方向演进 [1] 人才市场与流动趋势 - 自动驾驶算法人才在就业市场非常受欢迎 大量人才从自动驾驶领域流向具身智能 无人机等新兴行业 [1] - 多家头部企业为自动驾驶算法人才提供具有竞争力的薪资 例如大疆 宇树 智元 哈啰等公司 [1] - 自动驾驶领域从业者因具备使用大规模计算集群 解决各种极端案例以及强大的上下游协同能力而备受其他行业青睐 [2] - 预计明年自动驾驶行业中游厂商将释放大量职位 [3] 核心技术发展方向 - 行业头部技术收敛于几个明确方向 包括一段式端到端模型 视觉语言动作模型 世界模型以及强化学习 [3] - 行业中游厂商当前技术攻坚重点集中在占用网络 无图化技术以及多传感器融合感知等领域 [3] 行业生态与信息平台 - 自动驾驶之心付费社区成员数量已正式突破4000人 该平台提供技术路线发展 行业圆桌讨论 研究报告及职位信息等内容 [3]
2026 年 AI 预测:行业将迎来断崖式迭代,最关键的下注机会在哪?
Founder Park· 2025-12-26 19:35
文章核心观点 - AI行业竞争已从单一的模型强弱转向技术体系、商业路径、基础设施和生态构建的综合博弈 [4] - 2026年将是AI应用形态“断崖式”迭代的关键年份,行业将全面拥抱Agent模式,传统的App概念可能被颠覆 [39] - 基础设施(光通信、存储、电力)是AI发展的关键瓶颈,其供需矛盾将创造投资机会 [48][53] 主要科技巨头竞争格局 Google - 在多模态任务上已建立显著的用户心智壁垒,用户在处理图片等任务时会主动从ChatGPT切换到Gemini [6] - AI搜索不仅未侵蚀传统广告收入,反而优化了经济模型,新广告形式的点击率和用户停留时长比传统搜索广告提升30%-40% [7] - 技术管线布局显示强大爆发力,特别是在视频生成与编辑领域,可能推出定义行业标准的视频编辑模型 [8] - 面临以Oracle、Nvidia和OpenAI为核心的“反Google联盟”的挑战,竞争焦点在于基础设施、芯片互联及模型生态 [9][12] OpenAI - 2026年可能是关键反转年份,看多观点认为其2025年的“停滞”主要受算力瓶颈制约,随着供应链理顺及Nvidia Blackwell算力上线,可能实现反弹 [13] - 看空观点认为其面临巨大变现压力与竞争,技术护城河收窄,用户在多模态任务上已开始向Gemini迁移 [14] - ChatGPT用户粘性依然很强,MAU已接近9亿 [13] Anthropic - 在B端市场战略卡位优势明显,比OpenAI更早、更真实地抓住了企业级业务的痛点 [15][16] - 围绕模型构建了强大的工程化能力与工具链支持(如Skills功能),帮助企业弥补LLM在实际应用中的缺陷 [16] - 在预计2026年将爆发的企业级AI(Enterprise AI)浪潮中,是被普遍低估的变量 [15] Meta - AI已为其广告效率带来3-5个百分点的实质性提升 [20] - 初步显现出AI年化收入规模可达600亿美元级别的潜力 [18] - 需警惕TikTok的竞争,其2025年利润预计达500亿美元级别,将对核心广告业务构成冲击 [22] Tesla - **Robotaxi**: 商业模式可能跑通,Cybercab整车成本约3万美元,测算显示其ROE远超传统卖车业务(单车利润2000-3000美元) [26] - **Robotaxi**: FSD安全性经历质变,新车渗透率达30%-40%,在奥斯汀实测累计行驶50万英里仅发生约7次事故,接近Waymo(8-10万英里一次事故)及人类驾驶水平 [26] - **Optimus**: 进展低于预期,因追求“第一性原理”在灵巧手等硬件环节遇瓶颈,面临中国供应链的激烈竞争,落地周期可能比预想长 [27] 下一代技术范式:World Model - World Model是区分行业领跑者与跟随者的胜负手,其突破将在端侧应用、虚拟世界、机器人及自动驾驶等领域建立巨大优势 [28] - Meta选择独特路径,通过“Segment Anything”从分割图片发展到分割声音、视频,试图以更接近人类感知的方式(原始声音和视觉输入)演化智能,以接近World Model本质 [28][31] - Google在多模态和World模型上的突破也被寄予厚望,2026年的核心看点之一是其能否推出下一代Veo模型及更好的World Model版本 [31] AI应用发展趋势 入口之争:操作系统 vs 超级应用 - 操作系统厂商(如Apple、Google)拥有天然的合规与系统权限优势 [32] - “App派”(如字节跳动的豆包、智谱)试图通过构建自身生态和推出AI手机等硬件来掌握流量分配权,被视为“掀桌子”举动 [32] - “App派”路径面临巨大执行困境:缺乏OS权限导致方案妥协(如利用“视障模式”或“截图模式”),并引发隐私与合规问题;同时,互联网大厂“既做裁判又做运动员”的角色难以建立共赢生态,易遭其他大厂封杀 [34] Agent模式兴起与端侧AI发展 - 预计2026年后,行业将全面拥抱Agent模式,AI手机和Agent服务将普及,打破传统App孤岛效应 [39] - 用户对数据主权和隐私的要求正推动计算权力向边缘侧转移,基于开源模型和本地Memory的方案具备非对称竞争优势 [40] - 端侧AI推高了消费电子硬件门槛,尤其是存储(DRAM和NAND),因本地隐私数据处理和多模态应用(如视频流Buffering)产生刚性需求 [40][41] - 长远看,AI将突破屏幕限制,驱动硬件进化为能与物理环境交互的智能终端 [42] 应用公司向上游延伸 - 智谱财报显示,其达到当前水平的年研发投入约4亿美元,表明AI应用公司在获得收入后,具备向底层研发延伸的现实可能性 [43][44] - Cursor等AI应用公司已开始从单纯做应用转向自建AI研发底座 [45] - 预计2026年前后,“应用反向进入底层研发”的趋势将越来越频繁 [47] 基础设施瓶颈与投资机会 光通信与互联 - 被视为算力产业链中“通胀度”最高的环节,需求可能迎来3-5倍的爆发式增长 [48] - 两大技术看点:Google的OCS(光路交换)技术和Nvidia下一代集群方案中大幅增加的光互联占比与创新 [48] 存储 - 正从周期趋势转向成长趋势,核心驱动力是Enterprise AI的强劲需求,以及pre-training、多模态和Long Context的需求 [49] - 用户希望AI记住所有历史交互,数据量指数级增长,压缩技术缓解有限,存储缺口巨大 [49] - 供给侧形成“攻守同盟”,厂商经营逻辑转向利润最大化,导致消费电子厂商处于被动“价高者得”的竞价模式 [50][51] - 只要AI趋势持续,存储行业将处于卖方市场,美光等厂商的业绩增长和价格上涨在2026年具有高确定性 [52] 电力 - 将成为制约AI发展的最大物理瓶颈,叙事逻辑从“卡”转向“电” [53] - 深层矛盾在于电网输配电能力的老旧与低效(尤其在美国),催生了微电网和储能的爆发性机会 [53] - 电力需求爆发将利好上游大宗商品,特别是铜和锂,预计2026年价格有较大弹性 [53] - 宁德时代(CATL)被视为“产业链之王”,AI对电力的渴求是长周期基本面驱动力 [54] AI在垂直领域的落地路径 企业服务(Enterprise AI) - 2026年将加速渗透,在金融、HR、财务等垂直领域可能出现成熟的、产生实际业务增量的AI产品 [55] - 传统SaaS行业将面临挑战,企业IT预算可能被AI模型和应用分流,2026年美股软件公司将感受到实质性竞争压力 [59] - 埃森哲等系统集成商预计将与大模型厂商紧密协作,推动AI在企业场景中的规模化落地 [59] 金融预测与支付 - AI让预测市场(如Polymarket)从感性博彩转向理性风险对冲与决策辅助 [61] - 典型场景是“对冲现实生活成本”,AI可辅助个人做出精准预测并自动执行微小对冲交易 [62][63] - 2026年Agent将在泛支付领域落地,主要方向:自动交易机器人、电商自动化管理、以及基于crypto的自动化收益策略探索 [64] 监管环境与潜在风险 - 中国大模型备案制度存在“一次性许可”特点,过程监管相对薄弱,高流量应用若输出敏感内容可能触发回溯性严查,成为行业黑天鹅事件 [65] - 这种风险可能催生新的商业角色,即由国家官方授权的厂商提供“安全合规”API,作为AI应用必须接入的“网关”,蚂蚁或阿里等大厂有望成为“合规infra”提供商 [66]
深度讨论 2026 年 AI 预测:最关键的下注点在哪?|Best Ideas
海外独角兽· 2025-12-25 20:04
文章核心观点 - 2026年AI行业竞争焦点将从“模型强弱”转向体系能力、商业路径与长期战略的综合博弈,真正的赢家需在高度不确定的环境中实现长期价值 [3][5] - 行业将迎来类似2013年移动互联网爆发的关键转折点,预计2026年后市场将全面拥抱Agent模式,传统App概念可能被颠覆 [37] 2026年AI公司竞争格局 - **Google**:在多模态任务上已建立显著的用户心智壁垒,用户在处理图片识别等任务时会主动从ChatGPT切换到Gemini [8][9] - **Google**:AI不仅未摧毁其广告经济模型,反而优化了效率,AI Mode中广告的点击率和用户停留时长相比传统搜索广告提升30%-40% [10] - **Google**:庞大的未变现Query(长尾需求)可能通过大模型转化为新收入增长点,视频生成与编辑领域(如Veo、Nano banana)技术管线布局清晰,有望出现定义行业标准的视频编辑模型 [10][11] - **Google**:面临以Oracle、Nvidia和OpenAI为核心的“反Google联盟”挑战,2026年竞争将是“Google体系”与“反Google联盟”在基础设施、芯片互联及模型生态上的全方位对撞 [11][12][14] - **OpenAI**:2026年可能是关键反转年份,看多观点认为其2025年的“停滞”主要受算力瓶颈制约,随着供应链理顺及Nvidia Blackwell架构算力上线,可能突破限制实现反弹 [15] - **OpenAI**:看空观点认为其面临巨大变现压力,若激进引入广告可能影响用户体验,且在多模态领域用户心智正迁移至Gemini,技术护城河收窄 [16] - **Anthropic**:在B端市场战略卡位优势明显,比OpenAI更早、更真实地抓住企业级AI痛点,围绕模型构建了工程化能力与工具链支持(如Skills功能) [17][18] - **Meta**:在所有科技巨头中已初步显现AI年化收入规模可达600亿美元级别的潜力,AI技术应用使其广告效率实现3-5个百分点的实质性提升 [20][22] - **Tesla**:Robotaxi商业模式可能跑通,Cybercab整车成本约3万美元,按每英里净赚1美元、年跑5-6万英里计算,一年即可回本,远超传统卖车业务(单车利润2000-3000美元) [24][26] - **Tesla**:FSD安全性经历质变,新车渗透率达30%-40%,在奥斯汀实测累计行驶50万英里仅发生约7次事故,开始逼近Waymo及人类驾驶安全水平 [27] - **Tesla**:Optimus人形机器人进展低于预期,因追求“第一性原理”路线在灵巧手等硬件环节遇瓶颈,中国供应链在迭代速度和成本控制上竞争激烈,使其短期可能不再稳居世界第一 [27] 下一代技术范式竞争 - **World Model**:被视为区分行业领跑者与跟随者的胜负手,谁能率先做出并与对手拉开代差,将在端侧应用、虚拟世界、机器人及自动驾驶等领域建立巨大优势 [28] - **Meta**:选择更贴近人类直觉的路径演化智能,持续推进Segment Anything工作,从分割图片发展到分割声音、视频,试图以原始声音和视觉作为输入训练更接近World Model本质的模型 [28][31] - **Google**:在多模态和World Model上的突破也受期待,2026年核心看点在于其能否推出下一代Veo模型及演化出更好的World Model版本 [31] AI应用发展趋势 - **入口之争**:操作系统(如Apple、Google)占据天然合规与权限优势,能深度整合系统;超级应用(如豆包、智谱)则试图通过硬件(AI手机)掌握流量分配权,但面临缺乏OS权限、隐私合规及商业生态互斥(如遭腾讯、阿里封杀)等挑战 [32][33] - **应用发展判断**:核心标准在于场景是否真正适配用户需求,当前端到端复杂任务可靠性不足(多步流程叠加后成功率可能仅50%),多数产品聚焦于“端侧效率优化”(如安排时间、整理会议记录) [36] - **形态演进**:2026年将是AI应用大井喷和“断崖式”形态迭代时刻,预计此后行业将全面拥抱Agent模式,AI手机和Agent服务将普及,打破传统App孤岛效应 [37] - **端侧AI发展**:用户对数据主权和隐私的渴求推动市场回归边缘侧,基于开源模型和本地Memory的技术方案将带来长尾回报,并倒逼硬件升级,尤其是存储(DRAM和NAND)成为刚性需求 [38][39] - **端侧AI意义**:意味着互联网交互形态质变,AI将从虚拟世界穿透到物理世界,驱动AI硬件进化为能与物理环境交互的智能终端 [39] - **应用公司向上游延伸**:智谱财报显示其研发投入约每年4亿美元,这种相对可控的成本结构可能驱动有收入的AI应用公司(如Curson、manus)向底层模型研发延伸,预计2026年前后该趋势将更频繁 [40][41] 算力与基础设施瓶颈 - **光通信与互联**:被视为2026年算力产业链中“通胀度”最高的环节,需求可能迎来3-5倍爆发式增长,关注Google的OCS技术及Nvidia下一代集群方案中光互联占比和技术创新 [42] - **存储**:正从周期趋势转向成长趋势,核心驱动力由Enterprise AI需求独立驱动,pre-training、多模态和Long Context需求引发大量存储需求,压缩技术缓解有限 [43][44] - **存储格局**:供给侧厂商形成“攻守同盟”,经营逻辑转向利润最大化,消费电子厂商处于被动“价高者得”的竞价模式且可能拿不到货,只要AI趋势持续,存储行业将处于卖方市场 [44][47] - **电力瓶颈**:2026年算力扩张的最大瓶颈将从“卡”转向“电”,电网输配电能力老旧及效率低下催生Microgrid和储能的爆发性机会,并利好上游大宗商品如铜和锂的价格弹性 [48][49] - **产业链机会**:CATL被视为“产业链之王”,AI对电力的渴求是长期基本面,需求端爆发清晰 [49] AI在具体领域的落地路径 - **Enterprise AI**:预计2026年将加速渗透,在金融、HR、财务等垂直领域可能出现成熟产品并产生实际业务增量,传统SaaS巨头将面临预算被分流甚至被取代的风险 [50][54][55] - **预测市场**:AI介入(如Polymarket)使其核心价值从博彩转向风险对冲与理性决策辅助,AI可辅助个人做出精准预测并自动执行微小对冲交易,以管理微观经济风险 [55][57] - **Agent在泛支付领域落地**:2026年潜力方向包括自动交易机器人、电商自动化管理以及利用agent进行mini points hunting等三类垂直应用场景 [58][59] 监管环境与潜在风险 - **监管错配风险**:中国大模型备案制度重心在前置审批,过程监管相对薄弱,高流量应用若输出敏感内容可能触发回溯性严查,导致安全舆情事件和严厉处罚 [60] - **新商业角色**:可能催生由国家官方授权的厂商提供“过滤性”或“安全合规”API,成为AI时代不可或缺的“合规infra”提供商,蚂蚁或阿里等具备合规背景的大厂有望获得授权 [61]
走向融合统一的VLA和世界模型......
自动驾驶之心· 2025-12-23 17:29
文章核心观点 - 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型正呈现出明显的融合趋势,其终极目标一致,旨在构建具备类人认知与决策能力的驾驶大脑 [2][5] - 两大技术路线并非对立,而是高度互补,未来将通过深度融合塑造“既会思考,又会沟通”的终极驾驶大脑,形成“感知-推理-仿真-决策-解释”的增强闭环 [19][51] VLA技术概述 - VLA是一种“视觉-语言-行动”模型,其输入为摄像头画面和人类语言指令,输出为直接的驾驶动作或轨迹,实现了从感知、理解到行动生成的端到端映射 [8][9] - 其系统架构分为三层:输入端融合多模态感知信息;中间层由视觉编码器、语言处理器与动作解码器构成,进行统一推理与决策生成;输出端直接驱动车辆 [9][10] World Model技术概述 - 世界模型是一种生成式时空神经网络系统,旨在让自动驾驶车辆具备“在脑海中预演未来”的能力,通过内部仿真评估不同决策后果,从而做出更安全、前瞻的规划 [12] - 其系统架构同样分为三层:输入端为时序多模态传感器数据;核心层负责状态编码、记忆与生成式推演;输出端提供未来场景表征,为下游规划模块提供前瞻信息 [13][14] VLA与世界模型的区别与联系 - **主要区别**:目标上,VLA侧重人车交互与可解释的端到端驾驶,世界模型侧重构建预测与仿真系统;输入上,VLA包含显式语言指令,世界模型侧重时序观测;输出上,VLA输出直接动作或轨迹,世界模型输出未来场景状态;技术上,VLA利用大模型推理能力,世界模型依赖状态编码与生成式预测 [15] - **核心联系**:技术起源背景一致,均源于对传统模块化pipeline的反思;终极目标一致,均旨在赋予机器类人的认知与决策能力;都面临解决长尾场景的挑战;技术底层均重度依赖“预训练+微调”范式与Transformer等核心架构 [16][17][18][19] VLA与世界模型的融合路径与案例 - **架构级融合**:以世界模型作为核心的“预测与仿真”引擎,以VLA作为“交互与决策解释”层,二者协同工作 [22] - **训练数据互补**:利用世界模型生成大量逼真场景数据训练VLA,同时VLA产生的语言标注数据可提升世界模型的语义理解 [22] - **形成闭环智能**:VLA做出初步决策,世界模型进行快速“脑内推演”并评估风险,再将信息反馈给VLA进行调整或解释 [22] - **3D-VLA**:由东北大学、加州大学洛杉矶分校、麻省理工学院等机构于2024年3月提出,是一个能打通3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标状态,让模型学会“想象未来” [24][25] - **WorldVLA**:由阿里巴巴达摩院、浙江大学等机构于2025年6月提出,是一个将VLA与世界模型统一于单一框架的自回归动作世界模型,实现了动作与图像的联合理解与生成,在机器人操作基准测试中动作生成成功率超过同类模型约4% [28][29][31] - **IRL-VLA**:由清华大学AIR研究院、上海交通大学等机构于2025年8月提出,是一种基于逆强化学习奖励世界模型的闭环强化学习框架,用于训练端到端自动驾驶VLA策略,在NAVSIM v2闭环驾驶基准上取得领先性能 [34][35] - **DriveVLA-W0**:由中国科学院自动化研究所等机构于2025年10月提出,通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的问题,在NAVSIM基准测试中超越多传感器基线模型,并能放大数据扩展定律 [37][38][39][40] - **WM-MoE**:由麻省理工、夏威夷大学等机构于2025年10月提出,是一个基于世界模型并融合专家混合网络与大型语言模型的运动预测框架,旨在系统性解决自动驾驶中的极端案例难题,在多个公开数据集上展现出卓越的鲁棒性和泛化能力 [42][43][45] - **FutureSightDrive**:由西安交通大学、阿里巴巴达摩院等机构于2025年11月提出,其核心创新是引入视觉时空链式思考作为中间推理步骤,让VLA模型能够进行“视觉思考”,有效弥合了感知与规划之间的模态鸿沟 [47][49][50] 行业动态与展望 - 工业界已开始布局相关融合技术,例如华为强调其世界模型能力,小鹏汽车正在开发VLA 2.0,而理想汽车在发布会上也展示了相关理解,预计未来将有更多厂商入局 [51] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路推进 [51]