世界模型
搜索文档
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
机器之心· 2026-01-14 09:39
1X公司技术突破:NEO机器人引入世界模型 - 公司推出基于视频预训练的世界模型1XWM,并将其集成至人形机器人NEO中,标志着其从依赖远程操控或死记硬背动作,转向具备通过“想象”来规划行动的能力[3][4] - 该技术使NEO能够通过观看海量网络视频和人类第一视角录像来理解物理世界运作规律,并在接到指令时,先在脑海中生成一段“成功完成任务”的视频,再倒推出具体动作[4] - 官方承认技术存在“脑子学会了,手没学会”的挑战,即生成视频完美但实际动作可能失败的情况[5] - 相关推文在截稿时浏览量已突破500万,显示市场关注度极高[6] 技术范式:从VLA到世界模型 - 当前许多机器人基础模型采用视觉-语言-动作范式,其视觉语言模型侧重于语义理解,缺乏对物理动态的预测,导致学习简单任务也需要数万小时昂贵的机器人数据[10] - 1XWM采用世界模型驱动策略,通过文本条件下的视频生成来推导机器人动作,其核心优势在于能够借助互联网规模视频学习真实世界动力学,无需大规模机器人数据预训练或遥操作演示,即可泛化到新物体、新运动和新任务场景[11] - 这被视为机器人智能范式的一次转变,使机器人能直接受益于视频预训练的规模化能力提升[11] 1X世界模型的技术架构与训练 - 1XWM主干是一个140亿参数的文本条件扩散模型,训练分为三阶段:先在互联网规模视频数据上预训练,再用900小时人类第一视角视频进行中期训练,最后用70小时NEO机器人数据进行具身微调[16][18] - 公司采用多阶段训练策略,并利用视觉语言模型为简要的第一视角任务描述生成更详细的描述性字幕,通过“字幕上采样”提升模型对提示词的遵循能力[16] - 模型包含世界模型主干和逆动力学模型两部分:世界模型负责高保真预测场景演化;逆动力学模型则负责从生成帧中预测出精确的动作序列,并施加运动学约束以确保动作可行性[17] - 逆动力学模型在400小时未过滤的机器人数据上训练,使其能准确追踪NEO在任意状态下的运动[16] 模型能力与实验评估 - 实验评估显示,搭载1XWM的NEO能够执行多种超出既有经验的任务,包括抓取分布内与分布外的物体、操作具备复杂可供性的新物体,以及完成需要全新动作模式的任务[24] - 在需要双手协调和人机交互的任务上,NEO也展现出能力,表明此类知识来源于视频预训练和第一人称视角的人类交互训练,并因其类人身体结构而得以直接迁移[28] - 系统性实物实验显示,1XWM在多种动作原语上保持稳定成功率,但对倒液体、绘图等精细操作任务仍具挑战性[30] - 研究团队通过并行生成多个视频并执行质量最好的一个来提升成功率,该选择过程可手动完成,也可使用视觉语言模型评估器自动化[32] 关键训练要素分析 - 消融分析证实,“字幕上采样”在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与预训练文本条件更匹配,能更清晰引导动作生成[39] - 引入第一视角人类数据显著提升了在新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验[39] - 然而,在已有大量NEO数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限甚至略有负面影响[40] - 后训练数据集主要包含高质量的桌面抓取和放置数据,占比98.5%[21]
全球首个“飞行街景”亮相
环球网资讯· 2026-01-14 09:35
公司技术突破与产品创新 - 高德自研世界模型在国际权威评测基准WorldScore上综合得分位列第一 [1] - 公司推出“飞行街景”功能,依托自研世界模型,通过“物理AI”实现沉浸式、可交互的线上探店与实景导航体验 [1] - “飞行街景”利用高拟真数字还原技术,提供连续、动态且几乎真实的体验,用户可沉浸式俯瞰店铺内外部实景并提前体验沿途风景、停车条件及餐厅包厢环境等细节 [1] 产品价值与市场策略 - “飞行街景”旨在跨越线上信息与线下体验的鸿沟,让用户在出发前获得“亲临其境”的感受 [1] - 该功能为商家提供了高效、真实的新型数字化展示方式,大幅降低展示门槛 [1] - 公司推出“百万烟火好店支持计划”,将投入价值数亿元的算力资源,面向100万家商家免费开放“飞行街景” [2] - 该计划上线仅48小时,报名预约的商家数就已超过35万家 [2] 技术实现与行业影响 - “飞行街景”是“物理AI”在生活服务领域的典型应用 [2] - “物理AI”使自主系统具备在物理世界中感知、理解、推理并执行或协调复杂动作的能力 [2] - 传统制作一家店的数字实景需专业设备与人员,耗时数日,现在商家仅需用手机拍摄一段短视频和几张照片,最快几个小时内就能自动生成实景店铺 [1] 用户体验与场景拓展 - “飞行街景”为用户提供沉浸式、交互式的线上探索新方式,实现“所见即所得” [2] - 功能可帮助用户沉浸式俯瞰店铺全貌、在线体验靠窗座位、查看停车位情况,并直达深巷中的口碑好店,降低“踩雷”概率 [2] - 环境可视化促使商家更加注重卫生与环境细节,逐步构建更可信的消费场景 [2] - “飞行街景”已从餐饮延伸至文旅领域,故宫博物院等景点的“飞行街景”已上线,用户可足不出户“云游”实景 [3]
探寻世界模型最优解!SGDrive:层次化世界认知框架,VLA再升级(理想&复旦等)
自动驾驶之心· 2026-01-14 08:48
文章核心观点 - 复旦大学、上海创智学院、理想汽车、同济大学和萨里大学联合提出了一种名为SGDrive的新型自动驾驶框架,该框架通过将结构化和层次化的驾驶世界知识整合到视觉-语言模型中,旨在解决现有端到端方法在复杂场景中缺乏显式因果推理和高层理解的问题,从而提升自动驾驶的安全性和可靠性 [2][3][12][15] 背景回顾 - 端到端自动驾驶技术从UniAD、VAD到SparseDrive不断演进,但缺乏显式因果推理和高层场景理解,在复杂长尾场景中存在局限 [6] - 大语言模型和视觉-语言模型的出现,为整合先验知识和复杂推理能力以缓解传统方法不足提供了可能 [6] - 早期尝试将VLM用于驾驶规划存在局限:直接生成轨迹坐标存在精度损失,而基于扩散模型的解码器方法则未能解决VLM在空间感知、关键信息辨别和未来状态预测方面的根本缺陷 [6][9][10][11] 核心方法:层次化世界认知框架 - **整体设计理念**:SGDrive通过引入一组特殊的世界查询token,引导VLM关注驾驶相关的关键知识并预测其未来演变,从而增强VLM的3D空间感知能力 [15] - **问题定义**:框架建模为两个互补子问题:提取代表性世界知识和预测未来世界状态 [16] - **世界查询编码器**:查询token并非随机初始化,而是通过融合自车状态、历史轨迹和视觉特征进行初始化的“先验感知”查询,能有效捕获场景上下文 [17][20][21] - **层次化世界知识表征**:受人类驾驶认知启发,从三个维度组织知识: - **场景几何布局感知**:专注于感知和预测场景的3D占据结构,回答“位置能否通行”的问题,并使用VAE解码器进行重建,通过重采样策略解决场景稀疏性挑战 [22][23][24] - **安全关键智能体检测**:基于与自车轨迹的交互可能性和可见性,选择性关注可能影响驾驶安全的车辆、行人和骑行者,而非所有对象,并预测其当前和未来的3D状态 [25] - **短期驾驶目标预测**:预测约4秒后的自车目标姿态,为轨迹规划提供高层语义指导,确保驾驶行为的完整性和一致性 [28][30] - **结构化块状注意力掩码**:为防止不同层次知识间的信息泄漏,采用块状注意力机制,允许同类查询互相关注,但禁止跨类别查询互相关注,以保持表征的独立性和准确性 [31][33] - **扩散规划器**:利用扩散Transformer,以学习到的层次化世界知识为条件,从带噪声的初始化中生成平滑、连续的未来轨迹点序列 [34][35] - **两阶段训练策略**: - **阶段一(监督微调)**:训练VLM联合预测视觉问答答案、场景几何、安全关键智能体和短期驾驶目标 [36][37] - **阶段二(扩散规划器训练)**:冻结VLM作为世界模型,专门训练扩散规划器生成轨迹,实现“理解世界”与“生成动作”的解耦 [36][39] 实验结果 - **主要结果**: - 在NAVSIM v1测试集上,基于InternVL3-2B骨干的SGDrive在仅使用相机输入的方法中达到了87.4 PDMS的SOTA性能,超越了更大的通用VLM(如InternVL3-8B)4.1 PDMS,也超越了之前SOTA的驾驶VLM方法Recogdrive-8B 0.6 PDMS [39] - 在关键的碰撞相关指标NC和TTC上取得最佳分数,证明了其安全性 [3][39] - 在与强化学习框架集成后,PDMS进一步提升至91.1,超越所有现有方法 [40] - 在NAVSIM v2测试集上,SGDrive达到86.2 EPDMS,超越之前最先进的ReCogDrive-8B 2.6个百分点,并在安全指标上保持领先 [40][41] - **消融实验**: - **世界知识预测有效性**:仅表征当前多层世界状态使PDMS提升2.5个百分点,增加未来世界预测后性能进一步提升至85.5 PDMS,表明预测未来演变能增强安全意识和规划效率 [42] - **世界查询子成分有效性**:逐步添加场景、智能体、目标和未来状态信息来引导规划器,PDMS从86.0提升至87.4,且安全指标(如NC、TTC)获得改善 [43] - **结构化注意力掩码有效性**:与因果注意力相比,结构化注意力将EP从80.1提升至81.2,整体PDMS从87.1提升至87.4,产生了更清晰的任务特定嵌入和更真实的驾驶行为 [44][45] - **定性结果**: - 与RecogDrive对比显示,SGDrive在复杂交互和弯道场景中能生成更安全、无碰撞的轨迹 [46] - 可视化表明模型预测的层次化世界知识与真值标注高度对齐 [48] - 模型能根据自车运动状态(如直行高速、转弯)自适应调整感知焦点和范围,体现了对驾驶场景的有效理解 [50][51] 结论 - SGDrive框架通过将驾驶理解分解为场景-智能体-目标的层次结构,并预测其未来演化,显式地组织了VLM的表征学习 [52] - 结合结构化注意力掩码和基于DiT的规划器,该方法在NAVSIM基准测试中实现了安全驾驶方面的最先进性能 [52]
一个全新的世界模型,终于让AI视频进入了“无限流”时代。
数字生命卡兹克· 2026-01-14 08:23
PixVerse R1实时世界生成模型的技术定位与特点 - 公司推出下一代实时世界生成模型PixVerse R1 能够根据用户输入的Prompt连续、实时地生成并改变视频流剧情 用户可在过程中随时用Prompt修改视频进程 每次输入后约2秒延迟 世界剧情即随之变化 若用户不进行干预 模型可自行无限、连续地生成视觉流 公司将其称为“实时世界生成模型” [2][3] 当前“世界模型”的主流定义与分类 - 行业对“世界模型”的定义较为宽泛 指能够用可持续的内部状态预测世界变化 并可被交互和验证的模型 该术语目前常被用于指代三类方向:视频生成模型、可交互的生成世界、面向机器人和自动驾驶的物理仿真基础模型 [4] - 行业现有的世界模型代表主要分为三个方向:以Google Genie 3为代表的 一次生成后可实时导航的动态视频世界模型 可维持24fps、720p及分钟级一致性 [7][8] 以李飞飞World Labs Marble为代表的 侧重于三维空间重建、生成与模拟的3D类世界模型 其核心在于3D表示和空间一致性 [12][14] 以英伟达Cosmos为代表的 专注于为自动驾驶、机器人等提供高保真物理仿真与合成数据的基础模型平台 [19] PixVerse R1的创新方向与产品体验 - PixVerse R1为世界模型领域补上了第四个方向:实时视频生成 并提供了可实测的Demo版本 [22][23] - 产品体验需邀请码进入 每个实时生成会话限时5分钟 主要原因是实时生成对算力消耗极大 [26][35] - 用户体验反馈极为积极 产品提供了预设模板(如卡通、1944、赛博朋克等)和自定义模式 用户可通过文本或语音输入Prompt实时引导剧情发展 创造了高度互动、充满惊喜和未知乐趣的体验 被形容为一种全新的娱乐形态 [31][40][42][44][45][48][54] 实时世界生成模型预示的行业未来 - 该技术可能重塑未来娱乐内容形态 电影、综艺、游戏等可能不再是固定时长的文件 而是由世界模型驱动的、永远流动的世界时间线 [56] - 未来的内容创作模式可能是:创作者提供一个起点和世界观设定 由世界模型自主演进剧情 观众则通过一句话、一个表情或一次选择来轻微影响剧情走向 最终实现同一宇宙下的不同时间支线体验 [57][58] - 该技术的出现被认为是AI模型发展历史上具有重要意义的一步 代表了新颖且极具未来感的发展方向 [62][64]
对话大晓机器人董事长王晓刚,解码具身智能落地“三部曲”
搜狐财经· 2026-01-14 08:14
公司战略与定位 - 公司通过大晓机器人品牌进入具身智能及人形机器人赛道,强调规模化量产与体系化运营是站稳脚跟的关键[2] - 公司深耕人工智能领域11年,具备对行业应用场景的深入理解,并已提前布局本体、零部件和触觉传感器等,为机器人供应链奠定基础[5] - 公司利用其方舟平台过去十年积累的场景运营经验,将机器人与平台深度融合,形成区别于其他参与者的显著优势[6] - 公司定位为软硬一体,核心目标是输出成本更低、能切实解决用户痛点的最优产品,并联合生态伙伴协同研发生产[27][29] - 公司规划了三个市场目标:推动商业化落地(超级模组搭配机器人实现空间自主能力)、2026年起四足机器人有望大规模落地、未来两三年重点发力前置仓和零售仓储等标准化高增长场景[32] 技术体系与核心突破 - 公司构建了从“环境式数据采集-开悟世界模型3.0-具身交互”的全链路技术体系,旨在解决行业数据荒、常识差、泛化难和通用性不足等问题[2] - 公司率先发布行业首创的“以人为中心(Human-centric)”的ACE具身研发范式,为行业带来四大核心数据价值:数据维度更全面(超10个视角、8种模态、4大类物品属性)、任务覆盖更长程(分钟级、数百种原子动作)、交互精度更高(亚像素级)、采集效率更具规模化(从十万小时到千万小时)[11] - 公司发布首个开源且商业化应用的世界模型——开悟世界模型3.0,形成了跨本体的统一世界理解框架,并已面向全行业开源[2][15] - 公司发布具身超级大脑模组A1,聚焦低速复杂场景应用,结合Insta360全景感知与商汤方舟平台,构建全方位高精度环境感知体系,覆盖超10个行业和超150个智能化应用场景[23] - 开悟世界模型3.0可加载至具身超级大脑模组A1中,能力分步落地,现阶段具备空间智能自主能力,后续将叠加操作能力[26] 数据采集范式革新 - 行业面临数据量级断崖式缺口,以智能驾驶为例,特斯拉FSD V14每日训练量相当于400万小时(约500年经验),而当前具身智能真机数据量级仅为10万小时[8] - 公司提出的ACE范式中环境式数据采集可实现一年千万小时的数据收集,结合开悟世界模型3.0可达到上亿小时数据规模[12] - 环境式数据采集相比遥操采集成本更低、效率更高,无需采购单价数十万元的机器人硬件和专职人力,可实现数倍效率提升,且所用传感器、AI眼镜等为成熟量产产品,成本有下降空间[12] - 环境式数据采集具备强可复制性,工作人员佩戴设备正常作业即可完成采集,无需额外搭建实验室,使数据采集规模实现从十万小时到千万小时的两个数量级跨越[14] 开源策略与生态合作 - 公司开源开悟世界模型3.0,旨在推动技术适配与生态共建,通过云服务平台和开源生态两大板块协同布局实现商业化[15] - 开源有助于开发者便捷开展软硬件适配工作,获取海量数据反馈和丰富场景数据,反哺模型快速迭代[16] - 开源模型对国产芯片适配价值显著,开悟世界模型3.0已与沐曦股份、壁仞科技、中科曙光等多款国产芯片完成“Day 0”适配,能极大改善技术沟通与迭代效率[18] - 公司与壁仞科技达成战略合作,整合世界模型与空间智能技术及AI芯片算力优势,共同打造“算力-模型-应用”全链路国产化交付能力[31] - 公司搭建全链路自主可控的具身智能生态,与顶尖具身厂商(如智元机器人、银河通用)、硬件厂商(如Insta360、卧龙电驱)、芯片厂商、云服务商(如商汤大装置、腾讯云)、数据厂商达成战略合作,共同打通“模型-硬件-场景”产业闭环[27] 团队与行业认知 - 公司团队融合了由高校教授领衔的科研团队与具备丰富产业化落地经验的执行团队[3] - 公司首席科学家陶大程为澳大利亚科学院与欧洲科学院外籍“双院士”,团队还汇集了吕健勤、李鸿升等来自全球顶尖AI实验室MMLab的环境智能、世界模型领域开拓者[5] - 公司联合创始人王晓刚入选工信部人形机器人标准化技术委员会,牵头推进行业标准体系建设[3] - 行业标准化建设难点集中在三方面:数据共享标准缺失、安全责任与法规空白、质量标准亟待完善(当前多数机器人难以实现两年保质期)[3] - 具身智能是一条需要长期投入、持续创新的赛道,并非依靠单点突破就能成功[3] 世界模型能力与演进 - 开悟世界模型3.0是行业首个“多模态理解-生成-预测”的世界模型,集成文生世界、像驱世界、迹塑世界等多模态生成能力[19] - 该模型内置支持11个大类、54个细类共计328个标签,覆盖115个垂类具身场景,能理解物理世界因果规律,生成长时动静态交互场景,预测万千可能[19] - 世界模型将显著提升机器人对物理世界的理解能力,实现复杂长程任务,并突破任务泛化性[22] - 世界模型在底层注入大量物理规律,使其具备思维链能力,以弥合人类数据与机器人本体之间的跨本体鸿沟[22] - 具身智能算力需求将呈现螺旋式上升特征,初期扩大算力收益显著,数据价值触顶后收益递减,将倒逼行业通过新方式生成新数据开启新一轮“规模化法则”[22] 市场前景与场景落地 - 家庭场景规模化落地需等五年以后,商业化与工业场景规模化落地值得重点关注[32] - 商业服务领域如前置仓、闪购仓等场景标准化程度高、增长迅速,具备规模化推广条件,机器人实现替代可催生十万级市场规模[32] - 工业场景因产线数据敏感度高、企业开放意愿低,给通用型机器人规模化落地带来较大阻碍,可复制性较难[32] - 搭载空间智能自主能力模组的四足机器人,凭借稳定硬件基础,能突破工业应用门槛,未来在多个垂直领域具备大规模落地潜力[32] - 现阶段具身智能机器人与基于物理模型的工业机器人是互补关系,前者适合柔性产线等场景,后者凭借百分之百的可靠性持续发挥作用[34] - 具身智能赛道尚未形成头部格局,导览类机器人在行业发展初期起到关键的市场普及和教育作用[35]
2026十大AI技术趋势:从数字智能迈向物理世界
搜狐财经· 2026-01-13 22:17
文章核心观点 - 2026年被视为AI从技术演示走向规模价值的关键分水岭,技术焦点正从“单点能力突破”和参数规模竞争转向系统级智能、物理世界规律建模与真实世界应用[1][2] - AI技术演进呈现三大显著特征:从单模型能力转向系统级智能、从概念创新转向场景落地、从技术竞争转向产业融合[21][22] 2026十大AI技术趋势解读 趋势一:世界模型 - 世界模型被视为通向更高通用智能的重要路径,其核心从预测文本转向对物理规律、时序变化和因果关系的建模[7] - 以Next-State Prediction为核心的新范式,标志着AI从“预测下一个词”跨越到“预测世界的下一个状态”,开始掌握时空连续性与因果关系[7] - 该能力将成为自动驾驶、机器人、复杂决策系统的核心基础,使AI能模拟“如果这样做,世界会发生什么变化”[7][8] 趋势二:具身智能 - 具身智能在2026年将迎来从Demo到规模化应用的关键阶段,告别实验室演示,进入产业筛选与规模化落地关键期[9] - 大模型与运动控制、合成数据技术深度融合,将推动人形机器人突破Demo限制,正式切入真实工业生产与服务场景[9] - 具备闭环进化能力的企业将在商业化竞争中脱颖而出,推动具身智能成为产业升级的核心动力[9] 趋势三:多智能体系统 - 多智能体协作将成为解决复杂问题的主流方式,AI系统将从“个体”走向“组织”,不同智能体分工协作、互相校验[10] - MCP、A2A等主流Agent通信协议趋于标准化,为智能体间搭建起通用“语言桥梁”,堪称Agent时代的“TCP/IP”[10] - 在企业运营、供应链管理、复杂软件开发等领域,多智能体系统将显著提升效率与稳定性[11] 趋势四:AI科学家 - AI在科研领域的角色正从辅助工具升级为自主探索的“AI科学家”,成为AI4S的北极星方向[11] - AI将更多参与假设生成、实验设计和结果推理等高价值环节[11] - 在材料科学、生物医药、能源等领域,“AI+科研”组合有望显著缩短研发周期,成为科技创新的重要加速器[11] 趋势五:AI竞争格局重构 - C端AI“All in One”超级应用入口成为行业角逐焦点,AI时代的“新BAT”格局逐渐清晰[14] - 海外有OpenAI的ChatGPT、Google Gemini引领一体化智能助手潮流,国内字节、阿里、蚂蚁等企业依托生态优势加速布局,分别在超级应用与垂直赛道探索高盈利模式[14] - 随着基础模型能力趋同,行业竞争将从“模型参数”转向“行业理解”,真正具备壁垒的将是深度结合业务场景的行业AI解决方案[14] 趋势六:ToB端应用触底反弹 - 企业级AI应用在经历早期概念验证的“幻灭低谷期”后,正迎来关键转折[14] - 随着数据治理体系完善、行业标准接口统一,AI技术与产业需求的适配度持续提升[14] - 预计2026年下半年,一批具备可衡量商业价值的MVP产品将在垂直领域规模落地,推动ToB端AI应用实现“V型”反弹[14] 趋势七:高质量数据成为关键资源 - 高质量真实数据短缺成为AI发展的核心瓶颈,而合成数据正成为模型训练的“核心燃料”[15] - 在“修正扩展定律”的理论支撑下,合成数据占比持续攀升[15] - 在自动驾驶、机器人等领域,由世界模型生成的合成数据既能降低训练成本,又能提升模型性能,有望彻底破除“2026年数据枯竭魔咒”[15] 趋势八:推理优化成为落地关键技术 - 随着模型规模增长,推理成本成为企业落地AI的主要障碍,2026年围绕推理加速、模型压缩和动态调度的技术将持续演进[18] - 推理效率是AI大规模应用的核心竞争焦点,通过算法创新与硬件技术变革,AI推理成本持续下降,能效比不断提升[18] - 这使得在资源受限的边缘端部署高性能模型成为可能,推理优化的潜力远未触顶,将持续为AI普惠化发展注入动力[18] 趋势九:异构算力与开源生态融合 - 为打破算力垄断与供应风险,构建兼容异构芯片的软件栈至关重要[18] - 开源编译器生态正汇聚全球智慧,算子语言日益丰富,编译器技术趋于收敛[18] - AI基础设施将更加多元化,CPU、GPU、AI专用芯片协同工作成为常态,开源编译器和工具链加速成熟,这将降低企业使用AI的门槛,推动“全栈AI”能力普及[18] 趋势十:AI安全走向“机制级” - AI安全风险已从早期的“幻觉”问题升级为更隐蔽的“系统性欺骗”[18] - AI安全正朝着机制可解释、攻防自演化的方向演进,成为AI稳健发展的核心保障[19] - 技术层面,Anthropic的回路追踪研究致力于从内部破解模型机理;产业层面,安全水位成为AI落地的“生死线”,蚂蚁集团构建“对齐-扫描-防御”全流程体系,推出智能体可信互连技术及终端安全框架[19]
复盘特斯拉FSD进化史:把端到端推向无人驾驶终局
36氪· 2026-01-13 20:14
文章核心观点 - 特斯拉FSD通过V12至V14的三代端到端技术演进,实现了自动驾驶能力的跨越式提升,并在工程化、规模化方面建立了显著领先优势[7][15][45] - 特斯拉的领先源于其在算力投入、数据规模与质量、以及统一技术架构方面构建的深厚基础,这些条件难以被国内企业完全复制[69][82][83] - 国内智驾公司与特斯拉的差距正在从“代际差距”缩小为“工程效率差距”,未来竞争的关键在于如何在有限资源下找到适合自身的最优发展路径[12][86] 特斯拉FSD的技术演进与能力突破 - **V12(端到端基础版)**:通过端到端神经网络,将约30万行代码压缩至约3000行,让AI通过数据驱动学习人类驾驶行为,其能力在几个月内超越了多年的V11版本[18][19][21] - **V13(端到端完整版)**:基于HW4(AI4)硬件平台,AI算力达720TOPS,较HW3提升5倍,并增加了短期记忆与音频输入能力,实现了“车位到车位”的全场景覆盖[29][31][32] - **V14(端到端成熟版)**:模型参数提升4.5-10倍,视觉处理帧率提升至48Hz,并接入了Grok大语言模型,具备了意图理解和决策可解释性,为Robotaxi无安全员运营奠定基础[40][42][44] - **标志性成就**:搭载FSD V14的Model 3以0接管完成了从洛杉矶到南卡罗莱纳州约4400公里(2732英里)的横穿美国大陆行程,耗时2天20小时,远超2015年德尔福改装车耗时9天的记录[2][5][6] 特斯拉应对端到端技术挑战的策略 - **提升可解释性与安全性**:采用“生成式高斯泼溅”技术,在约220毫秒内重建三维环境,让工程师能理解模型的“世界观”,同时内置小型语言推理模型解释AI行为[52][54][55] - **革新训练方式**:打造“神经世界模拟器”,通过合成未来状态来验证模型优劣并生成低频极端场景进行测试,让系统理解决策后果而非单纯模仿动作[56][59][61] - **前瞻性布局**:在端到端规模化之前,就致力于构建可生成、可推演的世界模型作为基础设施,而非出现问题后打规则补丁[62][64][65] 特斯拉构建的竞争壁垒(基座) - **压强级算力投入**:转向以NVIDIA GPU为核心的Cortex训练集群,初始部署约5万张H100 GPU,2025年Q2新增1.6万张H200 GPU,整体训练能力进入数十至上百EFLOPS区间[70][72][73] - **高质量数据闭环**:截至2026年1月8日,FSD(监督版)累计行驶里程达71.73亿英里,其中城市复杂路况超25.9亿英里,车队每日数据相当于500年人类驾驶时长,并通过数据引擎高效挖掘Corner Case[76][77][78] - **统一架构与工程主义**:让同一套世界模型、感知与推理架构服务于自动驾驶、Robotaxi及人形机器人,兼容并蓄各种技术路径(端到端、世界模型、VLA等),不受单一范式束缚[67][82][83] 国内智驾行业的现状与展望 - **与特斯拉的差距**:国内头部企业(如小鹏)总算力约10 EFLOPS,年度AI投入约50亿元人民币,与特斯拉存在资源数量级差距,但技术差距已从最早的三年缩短至约一年[12][13][74] - **发展路径分化**:受资源限制,国内企业在技术路径上呈现分化,包括采用两段式端到端、引入VLA/世界模型或专注打磨中阶智驾体验等现实选择[51][85][86] - **未来竞争焦点**:差距性质转变为“工程效率差距”,竞争关键在于如何在有限资源下,将模型、数据与产品打磨扎实,并找到适合自身资源结构的最优路径(如合并资源、绑定主机厂、开拓细分场景)[86]
AI小登的尽头,是卖身老登?
搜狐财经· 2026-01-13 11:23
AI行业并购浪潮的核心驱动力 - 行业巨头通过大规模并购进行战略补强和生态布局 例如英伟达拟以200亿美元收购Groq 谷歌以47.5亿美元收购Intersect Power Meta以45亿美元收购Manus [1] - 并购的核心动机是巨头为弥补能力短板 规避内部研发的高成本和不确定性 以资本换取宝贵的时间窗口 [4][5] - 对于初创公司而言 在算力垄断和商业化压力下 出售公司从无奈选择变为理性的商业退出路径 [4][6][8] 巨头面临的挑战与战略选择 - 行业标杆如OpenAI也面临商业化挑战 其约3500万付费用户仅占周活跃用户的5% [4] - Meta等巨头虽拥有基础模型优势 但在应用层缺乏“杀手级应用” 面临战略焦虑 [4] - 巨头通过并购构建全链条生态 例如Meta通过收购Scale AI PlayAI Rivos Limitless等公司 构建“模型+数据+应用+硬件”闭环 [12] - 人才收购是核心战略之一 例如Meta收购Scale AI 49%股份后 将其创始人任命为公司首席AI官以整合顶尖人才 [12] 初创公司的生存困境与算力压力 - 英伟达在独立GPU市场占据绝对垄断地位 2025年第二季度市场份额达94% 使算力成为稀缺战略资源 [6] - AI研发是资本密集型游戏 初创公司融资主要用以维系生存 例如智谱2024年21.95亿元研发支出中 算力服务费达15.53亿元 占比超70% [15] - 产品同质化或技术路径被证伪将导致初创公司估值断崖式下跌 后续融资困难 [7] 代表性并购交易的战略逻辑 - Meta收购Manus旨在获得已验证的AI智能体技术和即时现金流 Manus上线8个月年度营收突破1.25亿美元 在GAIA基准测试准确率达86.5% [10] - 英伟达收购Groq旨在消除潜在威胁并巩固其在AI推理市场的护城河 Groq的LPU芯片对英伟达未来增长市场构成潜在颠覆 [13] - 此类互补型并购被视为双赢 巨头填补战略缺口 初创公司获得生态支持和生存保障 [9] 行业未来发展的其他路径与变量 - 巨头的核心优势在于将外部技术与自身庞大用户场景深度整合的能力 例如将Manus技术嵌入WhatsApp Instagram等数十亿用户平台 [17][18] - 行业高级人才流向市场可能孕育新方向 例如Meta前首席科学家杨立昆离职探索“世界模型” [19] - 中国新势力如月之暗面 MiniMax凭借本土市场理解和应用创新探索差异化路径 [19] - 学术界如斯坦福大学教授李飞飞推动的“AI4Humanity”理念 可能催生空间智能 具身智能等新方向 [19]
2025,AI行业发生了什么?
经济观察报· 2026-01-12 19:48
文章核心观点 AI行业在2025年进入“下半场”,发展重点从单纯追求模型规模和算力,转向重新定义问题、重塑评估方式及探索更优发展路径[4]。行业呈现出多模态融合、具身智能爆发、算力竞争升级、范式争议涌现、智能体崛起、开源生态繁荣、商业模式革新、治理规则博弈、大国竞合加剧以及年轻技术领袖掌权等十大趋势,标志着AI技术正从能力展示阶段迈向与产业深度融合的效率兑现阶段[5][6][31]。 多模融合 - 多模态AI发展从“拼装式”组合方案转向设计“原生多模态”模型,从训练之初就让模型在统一体系内处理文本、图像、音频、视频等信息[8] - 下一代AI的突破重点在于构建对真实世界的内部模型,即“世界模型”与“空间智能”,使AI能进行可推理、可行动的统一表征,并在脑中“预演”行动后果[9][10] - 多模态模型成为头部企业主战场,能力从“能看图”推进到“看得准、看得全、看得懂流程”,并能将视觉理解转化为可执行动作,越来越多地介入真实任务本身[10] - 据Gartner预测,到2030年,**80%** 的企业软件将在其产品中植入多模态AI能力[10] 具身爆发 - 具身智能(Embodied AI)在2025年真正走向市场,行业叙事从“能不能做到”转向“规模化、稳定工作、进入岗位”[12] - 国内外企业如宇树、优必选、波士顿动力、Apptronik等明确宣布产品进入量产与商业化试点阶段,按“百台级”、“千台级”规划供应链[12] - 据IDC估算,2025年全球在仓储、制造、巡检等岗位的试点应用,较2024年增长了**数倍**[12] - 人形机器人成本显著下降,据美国银行研究院数据,典型价格已降至每台约**3.5万美元**,比2023年下降至少**40%**[13] 算力竞争 - 算力竞争从“规模导向”的资本驱动资源争夺,升级为“效率导向”的长期综合博弈[16] - 部分公司如谷歌通过自研TPU芯片,在核心模型训练中大规模替代GPU,以降低对英伟达的依赖并构建自主算力体系[16] - 算力设施全面“基础设施化”,智算中心围绕AI负载设计,网络拓扑以并行训练为核心,选址需评估电力、能耗与时延[17] 范式争议 - 理论界对持续投入算力的理论基础——“规模法则”出现系统性反思,认为单纯扩大自回归大模型不会自然通向通用智能,且面临收益递减[19] - 反对者(如杨立昆、安德烈·卡帕斯、伊利亚·苏茨克维)认为未来突破更可能来自训练范式、数据结构与推理机制的创新,而非参数规模本身[19][20] - 支持者(如德米斯·哈撒比)认为规模仍是多模态和复杂推理任务的重要前提,通向更高智能需在世界模型、规划与推理结构上进行方向修正[20] 代理崛起 - AI智能体(Agent)在2025年崛起,代表产品如Manus,能够理解目标、拆解任务、调用工具并执行操作,全程无需人工干预[22] - 智能体改变了人机交互方式,从“人去找功能”转向“任务驱动系统”,显著降低了学习和使用成本[22] - 智能体的成熟得益于大模型推理能力增强以及MCP、ANP、A2A等协议使工具调用与外部系统接入标准化[23] - 智能体将重组业务流程,使组织结构从围绕“人”设计转向围绕“任务”组织,商业模式可能从按调用量付费转向按任务与结果付费[23] 开源盛世 - 开源模型在2025年从边缘力量演变为全球创新的基础设施,在性能、生态与采用率上全面逼近甚至部分超越闭源模型[26] - 近两年新发布的大模型中,开源或“开放权重”模型已占据多数,在私有部署、微调和智能体等场景中占据主导[26] - 中国力量在开源生态中表现突出,以DeepSeek与Qwen为代表的模型在工程效率、推理成本与可部署性上形成优势,2025年全球开源模型使用中,中国来源已接近**三成**[27] 商业革新 - AI行业在2025年摸索出新的商业路径,形成分工清晰的产业生态,从单一技术竞赛转向“效率兑现”[29][31] - 技术底层:算力、训练与推理被标准化为可计量的“生产要素”,通过算力租赁、API与推理服务形成稳定收入,单位成本下降、单位调用价值上升[30] - 平台服务层:“结果作为商品”(OaaS)模式崛起,定价转向按任务、流程或结果收费,成为利润潜力最大、竞争最激烈的地带[30] - 应用层:垂直行业价值释放,AI深度嵌入软件开发、企业运营、金融分析等业务流程,成为企业的长期系统投入[30] 规则博弈 - AI治理在2025年全面展开,核心矛盾在于创新与规则之间的横向张力,以及不同制度体系之间的纵向博弈[33] - 治理从“静态合规”转向“动态校准”,通过分层、分阶段、可调整的方式(如“沙盒”、“分级管理”)与技术演进保持同步[33] - 全球主要经济体治理路径分化:美国倾向将治理视为“护栏”,优先关注国家安全与极端风险;欧盟强调通过系统化规则塑造发展方向;中国强调发展秩序与场景适配,规则与产业推进同步调整[34] 大国竞合 - AI国际竞争从企业层面上升到国家层面,围绕技术路径定义权、芯片与算力供应链掌控权以及标准制定权展开[36] - 美国在核心技术(如问题定义权、模型性能)和高端芯片设计、软件生态上保持主导[36] - 中国路径强调在既有技术框架下,通过工程优化、系统集成和真实场景反馈,在训练效率、算力调度、具身智能与产业级应用上形成优势[36] - 欧盟通过基础研究网络、跨国科研项目与评测体系在关键概念与方法论层面保持影响力[36] - 竞争格局呈现“高强度竞争中的有限合作”,较量核心在于谁能构建并长期运转一整套技术与产业体系[37] 少帅掌兵 - 2025年AI行业出现年轻科学家被赋予指挥权的趋势,一批三十岁出头甚至二十多岁的技术领袖开始直接影响公司工程架构与战略路径[38][39] - 代表性案例包括腾讯任命27岁的姚顺雨为首席AI科学家,小米启用“95后”罗福莉负责核心研发,Meta引入Scale AI创始人亚历山大·王担任首席AI官[39] - 这一趋势反映了AI进入“下半场”后发展逻辑的变化:技术边界从把模型做大转向重新定义问题与评估方式,更需要来自一线、敢于快速试错的年轻技术派[4][39]
从“地大华魔”掉队,卓驭科技在智驾平权浪潮下另觅出路
第一财经网· 2026-01-12 18:24
行业竞争格局重塑 - 中国乘用车城市NOA第三方供应商市场高度集中,2025年1~10月Momenta和华为HI合计市场份额超过80%,其他供应商仅占19.2% [1] - 传统“地大华魔”一梯队出现分化,Momenta和华为占据先机,地平线凭借智驾芯片快速扩张软件版图,而卓驭科技出现掉队迹象 [1] - 行业竞争加剧,智能驾驶乘用车渗透率已超68%,高阶智驾方案正下探至10~15万元级别市场,压缩成本、精简团队成行业共识,优胜劣汰趋势明显 [2] 卓驭科技现状与挑战 - 公司主要搭载量仍依赖大众燃油车型,城市NOA主攻纯视觉方案并多搭载于捷途、宝骏等经济型品牌 [1] - 公司过于依赖单一客户大众,虽公布与红旗、一汽大众、哈弗、比亚迪等50多款车型合作,但部分合作车型市场表现不佳,如仰望U8越野玩家版已停售 [3] - 公司以“低成本”控制优势著称,但车企多将其方案用于中低配车型,高配车型需要的高价值功能投入非其所长 [3] - 在低成本赛道面临更多强势玩家挤压,如比亚迪与Momenta合作将高阶智驾下探至10万元级别,地平线计划进入10万元以内市场,华为乾崑ADS 4亦有意下探至15万元级别 [4] - 公司2024年国内ADAS市场份额不足5% [5] - 公司面临生存压力,包括账面资金紧张、原有技术路径对复杂道路环境适应性不足等挑战 [5] 公司技术方案与成本 - 公司7V纯视觉无图城区智驾方案依赖7颗摄像头和1颗高通芯片,实现100TOPS算力,成本约7000元 [5] - 行业目标是将智驾解决方案成本进一步下探至5000元区间,极致成本压缩给供应商带来巨大挑战 [5] 公司新业务拓展 - 为寻求新增长点,公司于2025年底宣布新增重卡和无人物流车业务 [6] - 规划2026年上半年量产搭载其高速NOA的重卡车型,合作企业包括徐工、陕汽、重汽 [6] - 无人物流车将应用于矿山、港口等特定场景 [6] - 新赛道竞争亦激烈,无人物流车领域价格竞争明显,部分产品起售价已降至2万元,并出现“0首付、低利息”等促销方式 [6]