World Model
搜索文档
李飞飞的反共识判断
虎嗅APP· 2026-02-08 17:42
文章核心观点 - 李飞飞提出反共识观点,认为单纯的大语言模型无法通往通用人工智能,空间智能才是AI发展的下一个前沿和更优路径 [4][5][6] - World Labs公司正致力于构建具有物理一致性的世界模型,其首款产品Marble是一个多模态空间智能模型,旨在让AI理解并与三维物理世界互动 [4][7][16] - 随着合成数据等技术的成熟,世界模型领域预计将迎来类似大语言模型的规模定律爆发时刻 [8][9] - 通用机器人是比自动驾驶更高维度的挑战,也是AI技术的“皇冠”,其成功需要空间智能的支持 [10] - AI技术的终极目标是像电力一样,成为赋能各行各业、提升人类文明的基础设施 [11][12] AGI发展路径与空间智能的重要性 - 从生物进化视角看,视觉、触觉等空间感知能力已有约5亿年演化历史,而语言仅有约50万年历史,因此空间智能是比语言更古老、更基础的智能形式 [5][14] - 如果AI只有语言能力,将被困在数字世界,只有补齐空间智能,使其具备理解、推理并与三维物理世界互动的能力,才能真正通往通用人工智能 [6][15] - 空间智能被定义为在真实3D、4D物理世界中进行理解、推理、交互和导航的基础性能力,是AI的下一个前沿领域 [13][15] World Labs的产品与技术:Marble世界模型 - Marble是公司第一代空间智能模型,能接收句子、图片、视频或简单3D输入,并将其转化为完全可导航、可交互且具有永久一致性的3D世界 [7][16] - 与Sora等视频模型不同,Marble生成的环境拥有几何结构和物理一致性,不仅仅是一段像素动画,而是拥有物理属性的虚拟空间 [7] - 该模型目前规模比GPT-5等大语言模型小几个数量级,GPT-5的训练量约在10^26 FLOPS级别 [23] - 公司采用混合数据策略来训练模型,结合互联网现有的文本、图像、视频数据、仿真模拟数据以及真实世界采集的数据,以解决物理世界数据信噪比低、难以大规模获取的瓶颈 [8][24][25] 应用场景与市场潜力 - Marble已应用于游戏开发、影视特效、机器人训练、室内设计等领域 [7][17] - 出现了意想不到的用例,如临床研究人员利用其生成个性化沉浸式环境用于治疗强迫症等心理疾病,以及用于个性化健身训练环境 [7][17][18] - 空间智能是一项横向技术,未来潜在应用领域广泛,包括医疗健康、教育、现场服务、金融服务、农业制造、仓储检测及城市规划等 [12][26] 行业发展趋势与挑战 - 世界模型领域仍处于早期阶段,在模型架构等方面仍在探索,但预计未来几年将见证其在规模定律曲线上实现飞跃 [24] - 物理世界数据(像素、体素)比文本数据更混乱、获取更难,这曾是发展瓶颈,但合成数据技术的成熟正推动该领域进步 [8][24] - 算力增强、芯片进步以及生态系统成熟(如三年前还不存在的数据供应商出现)正在加速该领域发展 [25] - 合成数据与模型生成能力可形成相互促进的飞轮效应 [25] 对关键AI技术领域的看法 - 通用机器人被视为比自动驾驶更高维度的AI技术挑战:自动驾驶是2D逻辑,核心是避障;通用机器人是3D逻辑,核心是在三维空间中以不破坏物体的方式进行精确接触操作 [10][25][26] - 实现通用机器人面临巨大挑战,包括手部模拟的高难度、视觉精准度以及空间理解的需求 [26] - 自动驾驶技术从概念到大规模城市街道运行(如Waymo)经历了漫长的旅程,预示通用机器人的发展也可能需要长期努力 [25]
Google World Model AI Accelerates Waymo Robotaxi Expansion
PYMNTS.com· 2026-02-07 07:32
Waymo发布基于Genie 3的Waymo世界模型 - 公司最新推出的Waymo世界模型基于谷歌DeepMind的通用世界模型Genie 3构建,并针对自动驾驶模拟进行了适配 [2] - 该模型利用Genie 3的世界知识,能够模拟更广泛的事件,包括极端天气、自然灾害以及罕见且安全关键的事件 [3] - 该模型使工程师能够使用简单的语言提示、驾驶输入和场景布局来修改模拟 [3] Waymo世界模型的技术优势与目标 - 该模型结合了广泛的世界知识、精细的可控性和多模态真实感,增强了公司安全地将服务扩展到更多地点和新驾驶环境的能力 [4] - 世界模型的系统旨在理解世界如何运作,而不仅仅是外观,其整合了感知、模拟、空间推理和预测,使机器能够建立因果关系的内部模型 [4] 基础模型Genie 3的技术特点 - Genie 3是一种能够生成受物理规律支配的3D环境的世界模型,人工智能体通过探索虚拟世界而非静态数据集进行学习 [5] - 谷歌DeepMind于1月29日推出了一个由Genie 3驱动的实验性研究原型“Project Genie”,它使用最新的世界模型AI来生成和探索交互式虚拟环境 [6] 行业影响与公司动态 - 华尔街对Genie 3的发布做出反应,由于担心该AI系统能够从零开始生成视频游戏,导致整个视频游戏行业市值蒸发数十亿美元 [7] - 公司于2月2日宣布在一轮融资中筹集了160亿美元,融资后估值达到1260亿美元,其母公司Alphabet作为主要投资者继续提供支持 [7]
华为哈勃押注,成立仅半年融资三连跳,这家公司凭什么成为“世界模型黑马”?
机器人大讲堂· 2026-01-20 17:11
公司概况与融资动态 - 公司流形空间(Manifold AI)由商汤科技早期核心成员武伟博士创立,致力于通过世界模型让AI从“看见”世界迈向“推演”世界 [1][7] - 公司成立仅7个月便完成超亿元天使+轮融资,投资方包括梅花创投、君联资本、华为哈勃,老股东英诺基金继续加注 [1][2] - 自2025年5月成立以来,公司融资节奏极快,先后完成种子轮、约亿元天使轮和超亿元天使+轮,不到一年累计完成超3亿元融资 [2][4][7] 技术路径与核心产品 - 公司摒弃主流视觉-语言模型路线,独创世界模型行动路径,其自研的WorldScape世界模型通过海量第一人称视角视频预训练,使AI能根据单张图片预测物体运动与物理交互 [12][13][14] - 公司已完成室外-室内-空域的全域具身模型布局,包括面向自动驾驶的DriveScape、物理信息可控的具身模型RoboScape以及全球首个无人机专属世界模型AirScape,这些场景模型均基于同一个基座模型WorldScape迭代而来 [15] - 公司实测表明,其模型在zero-shot泛化能力上已显著超过包括pi0.5在内的经典视觉-语言-行动模型 [15] 团队管理与战略愿景 - 创始人武伟曾主导商汤“开悟”世界模型研发,团队由工业界资深人士与年轻天才组成,注重人才密度而非数量,并采用数据驱动的“强化学习”式管理方法 [7][8] - 公司发展战略被概括为“攀登高峰,沿途下蛋”,即致力于打造通用的具身世界模型基座,同时将RoboScape、AirScape等细分领域模型提前产品化与商业化以产生营收 [20] - 公司的长期目标是推动Physical AI Agent发展,并让公司“自研+赋能”的机器人总量超过市场的10% [19] 产业合作与生态意义 - 华为哈勃作为战略投资者入场,其终端设备与工业数字化布局与公司技术落地方向高度契合,有望加速世界模型在端侧设备、工业机器人、智能汽车等场景的规模化落地 [9][11] - 公司技术已率先接入NVIDIA Jetson Thor用于端侧部署,华为的加入或将为未来国产化芯片与机器人大脑的集成路线铺平道路 [11] - 行业观点认为,世界模型指向AI系统长期缺失的“物理直觉”或“物理常识”,是智能体走进真实世界的关键,未来三年将看到该技术从实验室走向仓库、工厂和家庭 [14][20][22]
我们在招募这些方向的合伙人(世界模型/4D标注/RL)
自动驾驶之心· 2026-01-12 17:20
行业阶段与平台定位 - 自动驾驶行业已进入下半场 行业面临难点与痛点需要更多参与者共同突破 [2] - 公司作为国内自动驾驶领域的技术创作平台 旨在行业激流中贡献力量 成为能为行业带来价值的平台 [2] 业务发展方向与人才需求 - 公司业务发展需要更多优秀伙伴加入 [3] - 主要业务方向涵盖自动驾驶产品经理 4D标注与数据闭环 世界模型 VLA 自动驾驶大模型 强化学习 端到端等多个前沿技术方向 [4] - 岗位职责主要面向B端与C端的自动驾驶培训合作 课程开发以及原创文章创作 [5] - B端客户面向企业 高校及研究院所 [5] - C端客户面向学生及求职人群 [5] 合作方式 - 有关待遇与合作方式的进一步沟通 可通过指定微信联系 [6]
拾象 2026 AI Best Ideas:20 大关键预测
海外独角兽· 2026-01-01 13:25
文章核心观点 文章对2026年人工智能领域的发展趋势做出了20项关键预测,核心观点认为2026年将是AI技术深化、应用爆发和商业格局重塑的关键一年,涵盖新范式探索、模型竞争、多模态突破、企业级应用、硬件基础设施变革以及自动驾驶商业化等多个维度 [2][4] 技术范式与模型发展 - **新范式信号出现**:行业预计在2026年将在持续学习(Continual Learning)等新范式上出现积极信号,可能在1-2个技术路线上达成共识,出现类似Transformer的代表性工作或早期共识,这是突破当前模型代际差距的关键 [5] - **World Model路线收敛**:世界模型的技术路径预计在2026年结束“盲目探索”,达成共识,进入“GPT-2时刻”,即技术路线收敛后通过扩大规模(scaling)验证模型上限,进入爆发前夜 [4][20] - **开源模型格局变化**:预测中国公司如Qwen和DeepSeek将持续占领开源领域的SOTA(最先进水平),全球开源第一梯队将完全由中国公司占据,而美国顶尖团队因专注于闭源模型,将缺乏与之抗衡的对标产品 [4][25] - **AI参与科研深化**:预计在2026年左右,AI将更“原生地”解决第一个重大科学问题,最有可能发生在数学、物理或材料学领域,背景是OpenAI、Google等AI实验室加大了对科学领域的投入 [4][23][24] 主要参与者与竞争格局 - **OpenAI叙事反转与估值**:预测OpenAI将在2026年下半年扭转叙事,估值突破万亿美元,驱动力包括ChatGPT成为全球性入口、探索新的商业模式,以及有望在持续学习新范式上取得突破并重回SOTA地位 [4][9][10] - **xAI并入Tesla**:预测xAI将被并入Tesla,旨在打通数字与物理世界的AGI,将xAI的智能资产转化为Tesla在自动驾驶和具身机器人(如Optimus)领域的“具身智能”溢价 [4][11] - **Google市值突破**:预测Google市值将在2026年进一步冲高,突破5万亿美元,这意味着其EPS有望达到16至20美元,市场可能给予30倍以上的PE倍数,信心来源于其稳固的模型第一梯队地位、多模态积累以及广告业务的韧性 [4][34] - **M7科技巨头分化**:预测到2026年,M7巨头在AI上的收益和穿越周期能力差异将加剧,分化为三层梯队:NVIDIA和Google是核心赢家;Apple和Tesla因硬件和物理AI优势维持中间地位;MSFT、AWS和Meta可能掉队 [4][35] 产品、应用与商业化 - **ChatGPT成为全球入口**:预测ChatGPT的DAU将从当前的约4-5亿在2026年翻倍,达到8亿至10亿,成为真正意义上的“全球性入口”;同时,其Web端流量与Google的比例将从约85:15演变为至少70:30,达到“1/2个Google”的体量 [4][6] - **ChatGPT的“App-store Moment”**:预测ChatGPT将出现“应用商店时刻”,标志是诞生第一个年度经常性收入(ARR)达1亿美元的原生Killer App,实现从超级工具向超级平台的跃迁,AI将直接推荐并嵌入应用功能到对话流中 [4][7][8] - **企业级AI大年**:预测2026年是“企业级AI大年”,爆发路径分化为“Buy”(开箱即用产品,如AI-native办公工具)和“Build”(基于API深度构建Agentic工作流)。Anthropic因其作为中立、跨云的强API提供者的结构性优势,预计ARR将至少翻倍,突破200亿美元 [4][12][14] - **多模态迎来“AI Coding时刻”**:预测多模态领域将像AI编程一样开始产生规模化的商业收入,出现代表性公司,并预计在2026年诞生类似“Pokémon GO”的现象级AI多模态内容消费产品,推动软硬件协同进化 [4][15][16] - **自动驾驶规模化商业变现**:预测2026年是自动驾驶“大规模商业化大年”,全球Robotaxi车队总量可能从约2万台增长10倍,达到约30万台量级;Tesla的FSD订阅用户数预计从70万翻倍增长至150万左右,成为重要现金流来源 [4][36][37] 基础设施与硬件 - **推理算力大爆炸**:预测2026年将是推理算力“大爆发”之年,从Tokens消耗角度看预计至少有10倍增长,驱动因素包括从对话转向“长程任务”、Proactive Agents的主动行为以及多模态与世界模型应用带来的高维计算需求 [4][30][31] - **NVIDIA投入光互联与CPO并购**:预测NVIDIA将在2026年激进投入光互联领域,并可能引发全球共封装光学(CPO)领域的并购潮,NVIDIA凭借微环调制器等技术在光互联领域建立代差壁垒 [4][27][28] - **多模态引发存储革命**:预测多模态训练的爆发将硬件关注点引向存储带宽与容量,特别是eSSD;如果世界模型路径跑通,将进一步驱动存储需求,存储将从芯片外设深度融入算力核心,NVDA和Google可能推出针对视频处理的专属芯片或chiplet [4][29] 行业生态与资本市场 - **新一波数据公司崛起**:预测长程任务(Long-horizon Tasks)和多模态需求的爆发将催生新一波ARR达10亿美元的数据公司,需求来自高难度的长轨迹数据、多模态标注处理以及企业级AI落地所需的专有领域知识 [4][17] - **AI公司IPO大年**:预测美股将在2026年迎来AI公司IPO大年,SpaceX、OpenAI和Anthropic等巨型公司以及已具规模的垂直AI公司可能密集上市,反映极高的市场热度,但巨型IPO也可能成为市场情绪峰值信号 [4][32][33] - **AI公司估值共识形成**:预测随着Agent产品(如Proactive Agent、长程任务应用)的普及,2026年将形成新的、可量化的Agent产品价值评估体系,取代传统的用户留存、企业IT预算等指标 [4][26] - **Agentic Web博弈与协议**:预测Agentic Web(AI能跨越边界替用户行动)将打破现有流量分发逻辑,引发类似“3Q大战”的利益冲突,而Apple可能凭借其软硬全栈布局和强势生态,在2026年推出决定性的Agentic Web协议规范 [4][21][22]
LeCun预言成真?这有一份通往AGI的硬核路线图:从BERT到Genie,在掩码范式的视角下一步步构建真正的世界模型
量子位· 2026-01-01 10:13
文章核心观点 - 一篇题为《From Masks to Worlds: A Hitchhiker's Guide to World Models》的论文提出,构建真正的世界模型(True World Model)最有希望的技术路径是从掩码预训练出发,经过统一架构与可交互式闭环,并设计持久的记忆系统[3][4] - 论文认为,真正的世界模型并非单一模型,而是一个由生成系统、交互系统和记忆系统三大核心子系统合成的有机整体[6][8] - 掩码(Masking)是贯穿世界模型演进五个阶段的灵魂线索,它已从一个预训练技巧进化为跨模态通用的生成原则和优于自回归的“创世法则”[4][10][13] 世界模型的定义与构成 - 真正的世界模型需要是一个由三大核心子系统合成的有机整体[6] - **生成系统**:是世界的物理法则载体,负责预测下一帧、模拟世界状态演化、将隐变量映射为观测,并预测任务相关的回报[8] - **交互系统**:包含推断器和策略,是让世界“活”起来、实现可交互闭环的关键,没有它,模型只是视频而非模拟器[8] - **记忆系统**:负责通过循环状态更新确保世界在时间轴上的持久连贯,是对抗熵增的防线[8] 世界模型的演进阶段 - 论文将世界模型的演进划分为五个阶段,并用一张全景图串联起了从BERT到Genie-3的十年AI进化史[4][9] - **第一阶段:基于掩码的模型** - 确立了“Mask-Infill-Generalize(遮挡-补全-泛化)”作为构建世界模型的地基[23] - **第二阶段:统一模型** - 目标是用同一个骨干,在同一个范式下,处理和生成所有模态[24] - **第三阶段:交互式生成模型** - 模型开始响应用户动作,从“放映机”变成“模拟器”[36] - **第四阶段:记忆与一致性** - 解决长程推理中的“灾难性遗忘”和“状态漂移”问题[46][48] - **第五阶段:真正的世界模型** - 当生成、交互和记忆系统完美融合,模型将涌现出持久性、主体性和涌现性三大本质特征[51][52] 第一阶段:掩码范式的统治力 - 掩码被证明是跨模态通用的“生成原则”和优于自回归的“创世法则”[13] - **在语言领域**:以Google的Gemini Diffusion为例,离散扩散模型将掩码进化为迭代去噪过程,在生成质量和推理速度上可比肩甚至超越传统自回归基线[16][17] - **在视觉领域**:MAE通过高比例像素遮挡学习到了极强的语义表征;MaskGIT和MUSE利用掩码生成变换器实现了并行解码,在保持高保真度的同时带来极致效率;最新的Meissonic证明掩码生成变换器可在高分辨率文生图任务上与顶级扩散模型竞争[19] - **多模态普适性**:从VideoMAE的时空管道掩码到wav2vec 2.0的音频掩码,再到Point-BERT的3D点云掩码,掩码是能统一所有数据形态的通用语言[22] 第二阶段:统一架构的路径博弈 - 实现统一模型存在两大阵营的博弈:语言先验与视觉先验[25] - **语言先验建模**:主流是自回归路线,但存在处理图像全局结构的局限;新兴的掩码/离散扩散路线(如MMaDA、Lumina-DiMOO、LaviDa-O)在保持语言理解能力的同时,利用掩码的双向注意力提升视觉生成质量,被视为掩码范式在语言建模内部的一次胜利[26][28][30] - **视觉先验建模**:从视觉模型出发反向兼容文本,例如基于潜在扩散模型的UniDiffuser和基于掩码图像建模的Muddit[32][35] - Lumina-DiMOO和Muddit等工作证明,掩码/离散扩散架构能在双向上下文中实现更精细的生成控制,是让“语言逻辑”与“视觉生成”完美兼容的最大公约数[34] 第三阶段:交互式生成模型 - 此阶段模型开始响应用户动作,从预测下一帧变为可交互的模拟器[36] - **从GameGAN到Genie**:Genie-1基于MaskGIT的离散掩码生成架构,从互联网视频中无监督学习“潜在动作”,通过预测被掩码的未来帧学会物理规律[37][38] - **Genie-3的突破**:实现了720p分辨率、24fps帧率的实时交互,并能维持分钟级的连贯游玩[41] - **效率优势**:掩码架构的并行解码能力使得Genie等模型能在极短时间内生成高质量下一帧,从而闭合低延迟的“感知-行动”回路;相比之下,传统的自回归视频生成模型在实时性上捉襟见肘[42][43] - GameNGen和Matrix-Game等基于扩散的实时引擎共同证明,要造可玩的世界,掩码/扩散范式是目前最有希望的路线之一[43] 第四阶段:记忆与一致性的挑战 - 当前视频生成模型依赖隐式的KV Cache或有限的上下文窗口,在长程推理中容易导致“灾难性遗忘”和“状态漂移”[47][48] - 论文梳理了三类解决方案以构建持久的世界[49] - **外部化记忆**:如RAG和MemGPT,给模型外挂一个可读写的硬盘,让知识可编辑、可追溯[49] - **架构级持久化**:探讨Mamba这类线性时间状态空间模型以及Ring Attention等技术,试图从架构底层实现“无限上下文”[49] - **一致性治理**:针对视频生成中的漂移,利用FramePack、Mixture of Contexts以及VMem等技术,通过显式的3D结构或稀疏注意力为像素世界打上稳固的“时空桩”[49] 第五阶段:真正的世界模型与终极难题 - 当生成、交互和记忆系统完美融合,真正的世界模型将涌现出三大本质特征:持久性、主体性和涌现性[51][52] - 要到达此阶段,需攻克三大终极难题[53] - **连贯性/评估难题**:当世界是自生成的,需要新的评估体系来衡量虚构世界的逻辑自洽性[58] - **压缩/扩展难题**:世界模型必须学会“抽象记忆”,只保留因果相关的状态,否则计算量将导致系统崩溃[58] - **对齐/安全难题**:不仅要对齐世界的“物理法则”,还要对齐世界中涌现出的亿万智能体社会的“社会动态”,难度远超对齐一个ChatGPT[58] - 跨越此门槛后,世界模型将从娱乐工具升级为“科学仪器”,可用于运行经济、社会、认知等领域的虚拟实验[55]
中兴通讯崔丽:AI应用触及产业深水区 价值闭环走向完备
21世纪经济报道· 2026-01-01 07:07
文章核心观点 - AI大模型发展正从基础设施向上层应用演进,基座大模型将收敛,但垂域模型与应用将极大丰富,成为引发技术变革的关键[1] - 物理AI是重要关注窗口,正加速具身智能、自动驾驶等领域演进,但技术路线存在分歧,软性基础尚在夯实[1] - 2025年进入“Agent元年”,AI技术正从Copilot辅助模式向自主行动的Agent模式迈进,目标是全价值链的业务重构,但规模化落地仍面临挑战[6][7] - 部分行业凭借信息密集、数据结构化程度高、价值闭环快等特征,已率先借力AI完成价值闭环,进入数智化转型“深水区”[1][9][11][12] 物理AI的技术路线与分歧 - 物理AI存在两条核心路线竞争:世界模型与视觉语言模型[2] - Sora等模型标志着AI从“预测者”向“模拟者”进化,是从数据驱动到模型仿真驱动、物理对齐、通用模拟的范式转移[2] - 当前Sora仅是“视觉模拟器”,而非真正的“物理世界模型”,因其缺乏因果推理、反事实推演和物理一致性,常出现违背物理逻辑的“物理幻觉”[2] - 世界模型路线分化为“生成派”与“表征派”:生成派通过海量感官数据归纳世界规律,适合做数据工厂或仿真训练;表征派通过构建内在结构推演世界状态,适合做决策大脑和实时推理[3] - 应用于具身智能的VLA模型将控制问题转化为序列建模,优势在于零样本泛化,但缺乏因果推理且依赖训练数据覆盖度;世界模型主张构建环境内部模型进行虚拟试错,样本效率远超VLA[3] - 产业界正呈现VLA与世界模型融合的趋势,例如利用VLA进行高层策略规划,利用世界模型进行底层动作验证[4] 网络架构向AI原生演进 - 网络架构正从“云原生”向“AI原生”演变[5] - 云原生解决了互联网应用的弹性伸缩和敏捷开发需求,互联网流量以“南北向”为主,数据包小而离散,对时延抖动有一定容忍度[6] - 大模型时代流量特征转向分布式“同步计算”,带来“大象流”、丢包零容忍、微秒级时延敏感等特点,需要网络做到“万无一失”[6] - AI原生网络的核心是极致的性能无损和算网协同,具备内生智能、确定性保障和算网一体等关键特征[6] - 应用层面,云原生应用以K8S为底座,以微服务架构为代表;AI原生应用以“大模型+Agent”为底座,以Agent及Agent间通信为代表;两者将趋于融合成为云智一体原生应用[6] Agent元年的机遇与挑战 - 2025年被称为“Agent元年”,将推动千行百业更彻底转型,从效率提升转向业务重构[6][7] - Agent从实验室走向企业核心生产系统的“最后一公里”面临多重挑战[8] - 在高可靠性行业,需解决随机性模型与确定性业务之间的矛盾、确保长程任务稳定性、构建可信安全边界[8] - 核心业务中,AI“幻觉”是不可接受的风险,企业无法容忍“黑盒”在没有人类审核下做出关键决策[8] - 由于上下文窗口限制,处理跨天、跨周的复杂任务链时,模型易出现记忆丢失或逻辑断裂,导致开发复杂度指数级增长[8] - Agent使用工具可能带来沙箱逃逸、资源耗尽和数据泄露等安全风险[8] - 企业现有IT环境复杂,存在接口标准化缺失、数据孤岛等问题,同时需平衡推理维护成本与投资回报率[8] 行业应用与价值闭环 - 能率先实现AI价值规模化复制的行业具备关键特征:信息密集、数据结构化程度高、具备强反馈机制、价值闭环极快、有一定容错度、具备一定范围泛化能力[9] - 数字化转型较好的行业更容易进行智能化转型[10] - 教育、医疗、软件开发、智能制造、城市治理等行业可能率先完成价值闭环[11] - 制造业凭借高度结构化数据环境和明确效率指标,成为AI价值变现的“排头兵”[11] - 城市治理依托海量多模态数据和公共安全需求,正通过“城市智能体”模式实现从被动响应到主动预防的跨越[11] - 数智化转型进入“深水区”意味着AI从外围辅助系统进入核心生产系统,如网络运营、电网调度、城市应急指挥等[12] - “深水区”将面临“三多”:多模态数据、多厂家设备、多业务场景;“三新”:新技术、新架构、新安全威胁;“三跨”:跨领域知识融合、跨系统数据调用、跨组织流程协同[12] 技术路径:通用大模型与行业小模型的协同 - 驱动行业AI发展并非“通用基础大模型+行业精调”与“从零构建行业专属小模型”的二选一,而应采用“云边协同”的混合路径[12] - “通用基础大模型+行业精调”是构建企业“大脑”的最有效路径,解决了认知层面的通用性与专业性矛盾,能以低成本继承通用逻辑能力,解决知识密集型任务[12] - 从零构建行业专属小模型是构建企业“四肢”的可行方案,在非自然语言、极致边缘和极致隐私场景下不可或缺,解决了感知与执行层面的效率、适配和安全问题[12] - 面对工业领域的振动波谱、雷达信号、基因序列等“非自然语言”数据,通用模型的先验知识可能成为噪音,需从零构建专用的CNN或Transformer模型[13] - 对于极致时延和功耗场景,如矿山无人驾驶卡车或高速贴片机,推理时延需控制在毫秒级,算力受限于嵌入式芯片,训练一个参数量在几百万到几亿的专用小模型是唯一可行方案[13] - 面向对数据隐私和主权有极致要求的场景,如金融或核心基础设施,为确保模型无潜在偏见或后门,会选择完全物理隔离环境下的从零训练[13] - AI本身已在重塑软件工程,高效利用AI代码大模型试错,可在一定程度上加速试错和降低成本[13]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-31 08:31
行业整体动态 - 自动驾驶行业在整体下沉的关键节点竞争激烈 卷技术 卷成本 卷效率 [1] - 行业人才流动显著 上半年及当前有大量自动驾驶领域人才转行至具身智能 无人机等行业 L4/具身/无人机行业正在大批量招人 [1] - 自动驾驶作为相对成熟的AI领域 其算法人才非常受欢迎 头部企业如大疆 宇树 智元 哈啰等提供的薪资很到位 [1] - 自动驾驶从业者因具备使用大集群 解决各种复杂场景问题以及上下游协同能力强等经验 在其他相关行业备受青睐 [2] 公司业务发展 - 公司业务在年内进行了拓展 扩充了许多B端客户 并开始尝试从线上走向线下 [1] - 公司在C端的内容策略正从普适性内容逐渐转向专业化和精细化 [1] 技术发展趋势 - 自动驾驶头部技术收敛到几个大方向 包括一段式端到端 VLA 世界模型 强化学习 [3] - 行业中游厂商仍在攻坚OCC 无图技术 多传感器融合感知等领域 [3] - 相关技术公司计划在明年开放大量职位 [3] 行业社区与信息 - 自动驾驶之心付费社区的成员在年内正式突破4000人 [3] - 该社区提供技术路线发展 各类圆桌讨论 研报 职位信息等内容 [3]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2025-12-28 11:30
行业整体动态与竞争格局 - 自动驾驶行业在整体市场下沉的关键节点竞争激烈 各公司卷技术 卷成本 卷效率 [1] - 行业公司业务模式呈现多元化发展 例如从线上服务拓展至线下 从服务C端用户转向同时拓展B端客户 [1] - 面向消费者的服务内容正从普适性内容向专业化 精细化方向演进 [1] 人才市场与流动趋势 - 自动驾驶算法人才在就业市场非常受欢迎 大量人才从自动驾驶领域流向具身智能 无人机等新兴行业 [1] - 多家头部企业为自动驾驶算法人才提供具有竞争力的薪资 例如大疆 宇树 智元 哈啰等公司 [1] - 自动驾驶领域从业者因具备使用大规模计算集群 解决各种极端案例以及强大的上下游协同能力而备受其他行业青睐 [2] - 预计明年自动驾驶行业中游厂商将释放大量职位 [3] 核心技术发展方向 - 行业头部技术收敛于几个明确方向 包括一段式端到端模型 视觉语言动作模型 世界模型以及强化学习 [3] - 行业中游厂商当前技术攻坚重点集中在占用网络 无图化技术以及多传感器融合感知等领域 [3] 行业生态与信息平台 - 自动驾驶之心付费社区成员数量已正式突破4000人 该平台提供技术路线发展 行业圆桌讨论 研究报告及职位信息等内容 [3]
2026 年 AI 预测:行业将迎来断崖式迭代,最关键的下注机会在哪?
Founder Park· 2025-12-26 19:35
文章核心观点 - AI行业竞争已从单一的模型强弱转向技术体系、商业路径、基础设施和生态构建的综合博弈 [4] - 2026年将是AI应用形态“断崖式”迭代的关键年份,行业将全面拥抱Agent模式,传统的App概念可能被颠覆 [39] - 基础设施(光通信、存储、电力)是AI发展的关键瓶颈,其供需矛盾将创造投资机会 [48][53] 主要科技巨头竞争格局 Google - 在多模态任务上已建立显著的用户心智壁垒,用户在处理图片等任务时会主动从ChatGPT切换到Gemini [6] - AI搜索不仅未侵蚀传统广告收入,反而优化了经济模型,新广告形式的点击率和用户停留时长比传统搜索广告提升30%-40% [7] - 技术管线布局显示强大爆发力,特别是在视频生成与编辑领域,可能推出定义行业标准的视频编辑模型 [8] - 面临以Oracle、Nvidia和OpenAI为核心的“反Google联盟”的挑战,竞争焦点在于基础设施、芯片互联及模型生态 [9][12] OpenAI - 2026年可能是关键反转年份,看多观点认为其2025年的“停滞”主要受算力瓶颈制约,随着供应链理顺及Nvidia Blackwell算力上线,可能实现反弹 [13] - 看空观点认为其面临巨大变现压力与竞争,技术护城河收窄,用户在多模态任务上已开始向Gemini迁移 [14] - ChatGPT用户粘性依然很强,MAU已接近9亿 [13] Anthropic - 在B端市场战略卡位优势明显,比OpenAI更早、更真实地抓住了企业级业务的痛点 [15][16] - 围绕模型构建了强大的工程化能力与工具链支持(如Skills功能),帮助企业弥补LLM在实际应用中的缺陷 [16] - 在预计2026年将爆发的企业级AI(Enterprise AI)浪潮中,是被普遍低估的变量 [15] Meta - AI已为其广告效率带来3-5个百分点的实质性提升 [20] - 初步显现出AI年化收入规模可达600亿美元级别的潜力 [18] - 需警惕TikTok的竞争,其2025年利润预计达500亿美元级别,将对核心广告业务构成冲击 [22] Tesla - **Robotaxi**: 商业模式可能跑通,Cybercab整车成本约3万美元,测算显示其ROE远超传统卖车业务(单车利润2000-3000美元) [26] - **Robotaxi**: FSD安全性经历质变,新车渗透率达30%-40%,在奥斯汀实测累计行驶50万英里仅发生约7次事故,接近Waymo(8-10万英里一次事故)及人类驾驶水平 [26] - **Optimus**: 进展低于预期,因追求“第一性原理”在灵巧手等硬件环节遇瓶颈,面临中国供应链的激烈竞争,落地周期可能比预想长 [27] 下一代技术范式:World Model - World Model是区分行业领跑者与跟随者的胜负手,其突破将在端侧应用、虚拟世界、机器人及自动驾驶等领域建立巨大优势 [28] - Meta选择独特路径,通过“Segment Anything”从分割图片发展到分割声音、视频,试图以更接近人类感知的方式(原始声音和视觉输入)演化智能,以接近World Model本质 [28][31] - Google在多模态和World模型上的突破也被寄予厚望,2026年的核心看点之一是其能否推出下一代Veo模型及更好的World Model版本 [31] AI应用发展趋势 入口之争:操作系统 vs 超级应用 - 操作系统厂商(如Apple、Google)拥有天然的合规与系统权限优势 [32] - “App派”(如字节跳动的豆包、智谱)试图通过构建自身生态和推出AI手机等硬件来掌握流量分配权,被视为“掀桌子”举动 [32] - “App派”路径面临巨大执行困境:缺乏OS权限导致方案妥协(如利用“视障模式”或“截图模式”),并引发隐私与合规问题;同时,互联网大厂“既做裁判又做运动员”的角色难以建立共赢生态,易遭其他大厂封杀 [34] Agent模式兴起与端侧AI发展 - 预计2026年后,行业将全面拥抱Agent模式,AI手机和Agent服务将普及,打破传统App孤岛效应 [39] - 用户对数据主权和隐私的要求正推动计算权力向边缘侧转移,基于开源模型和本地Memory的方案具备非对称竞争优势 [40] - 端侧AI推高了消费电子硬件门槛,尤其是存储(DRAM和NAND),因本地隐私数据处理和多模态应用(如视频流Buffering)产生刚性需求 [40][41] - 长远看,AI将突破屏幕限制,驱动硬件进化为能与物理环境交互的智能终端 [42] 应用公司向上游延伸 - 智谱财报显示,其达到当前水平的年研发投入约4亿美元,表明AI应用公司在获得收入后,具备向底层研发延伸的现实可能性 [43][44] - Cursor等AI应用公司已开始从单纯做应用转向自建AI研发底座 [45] - 预计2026年前后,“应用反向进入底层研发”的趋势将越来越频繁 [47] 基础设施瓶颈与投资机会 光通信与互联 - 被视为算力产业链中“通胀度”最高的环节,需求可能迎来3-5倍的爆发式增长 [48] - 两大技术看点:Google的OCS(光路交换)技术和Nvidia下一代集群方案中大幅增加的光互联占比与创新 [48] 存储 - 正从周期趋势转向成长趋势,核心驱动力是Enterprise AI的强劲需求,以及pre-training、多模态和Long Context的需求 [49] - 用户希望AI记住所有历史交互,数据量指数级增长,压缩技术缓解有限,存储缺口巨大 [49] - 供给侧形成“攻守同盟”,厂商经营逻辑转向利润最大化,导致消费电子厂商处于被动“价高者得”的竞价模式 [50][51] - 只要AI趋势持续,存储行业将处于卖方市场,美光等厂商的业绩增长和价格上涨在2026年具有高确定性 [52] 电力 - 将成为制约AI发展的最大物理瓶颈,叙事逻辑从“卡”转向“电” [53] - 深层矛盾在于电网输配电能力的老旧与低效(尤其在美国),催生了微电网和储能的爆发性机会 [53] - 电力需求爆发将利好上游大宗商品,特别是铜和锂,预计2026年价格有较大弹性 [53] - 宁德时代(CATL)被视为“产业链之王”,AI对电力的渴求是长周期基本面驱动力 [54] AI在垂直领域的落地路径 企业服务(Enterprise AI) - 2026年将加速渗透,在金融、HR、财务等垂直领域可能出现成熟的、产生实际业务增量的AI产品 [55] - 传统SaaS行业将面临挑战,企业IT预算可能被AI模型和应用分流,2026年美股软件公司将感受到实质性竞争压力 [59] - 埃森哲等系统集成商预计将与大模型厂商紧密协作,推动AI在企业场景中的规模化落地 [59] 金融预测与支付 - AI让预测市场(如Polymarket)从感性博彩转向理性风险对冲与决策辅助 [61] - 典型场景是“对冲现实生活成本”,AI可辅助个人做出精准预测并自动执行微小对冲交易 [62][63] - 2026年Agent将在泛支付领域落地,主要方向:自动交易机器人、电商自动化管理、以及基于crypto的自动化收益策略探索 [64] 监管环境与潜在风险 - 中国大模型备案制度存在“一次性许可”特点,过程监管相对薄弱,高流量应用若输出敏感内容可能触发回溯性严查,成为行业黑天鹅事件 [65] - 这种风险可能催生新的商业角色,即由国家官方授权的厂商提供“安全合规”API,作为AI应用必须接入的“网关”,蚂蚁或阿里等大厂有望成为“合规infra”提供商 [66]