Workflow
世界模型
icon
搜索文档
7.1万亿美元期权合约到期,美股“疯狂一日”即将爆发
36氪· 2025-12-19 10:45
宏观经济与货币政策 - 美国11月核心CPI同比上涨2.6%,低于预期,创2021年以来新低,通胀放缓趋势确立 [1] - 白宫国家经济委员会主任凯文·哈塞特称CPI数据“好得令人震惊”,并指出工资增速已快于物价上涨,认为美联储拥有很大的降息空间 [3] - 哈塞特认为供给侧改善将长期抑制通胀,为降息创造条件,交易员因此调整押注,市场对2026年更激进宽松路径及明年3月降息的预期显著升温 [5] 市场结构与技术分析 - 标普500在试图冲击关键水位时出现剧烈波动,纳指在逼近50日均线后触发量化基金与高杠杆多头集中减仓,抛压迅速自我强化 [7] - 根据技术监测,标普500处于6700至6900点的“负Gamma”区间,期权做市商的对冲行为会放大波动,尤其在触及6800点心理与技术关口时 [9] - 市场尾盘出现140亿美元的SPY看涨期权成交,对比看跌期权仅2.5亿美元,到期日为12月19日,深度价内期权交易活跃 [9][11] - 本周五将有超过7.1万亿美元名义价值的期权合约到期,创历史最高纪录,是“四巫日”,这种集中到期通常会放大市场交易量和波动性 [14] - 在0DTE期权占据成交总量六成的当下,这种“末日轮”博弈会干扰资产定价,导致价格短期内严重偏离基本面 [16] 市场表现与资金流向 - 标普500收涨0.8%,终结四连跌,但涨幅几乎全归属于科技七巨头,其余493只成分股表现平平,显示资金向确定性高的权重蓝筹靠拢 [12] - 市场表现呈现极度分化,科技、非必需消费品、必需消费品、通信服务、半导体等行业部分个股录得上涨,而医疗、金融、能源等板块表现不一 [13] 公司动态:Meta Platforms - Meta内部研发代号为“Mango”的新一代视频AI模型与代号为“Avocado”的下一代大语言模型,预计2026年上半年正式亮相 [17] - Meta在AI战略上频繁调整,从OpenAI挖走20多名顶尖研究人员,聘请Scale AI创始人领导新成立的“超级智能实验室” [20] - Meta内部讨论对Avocado模型可能采取专有模式,意味着可能告别长期坚持的开源传统,转向封闭商业策略 [20] - 公司同步开发视频与文本AI模型是一场防御战,旨在应对谷歌、OpenAI的竞争,Avocado重点提升编程能力,Mango直指视频生成 [21] - Meta已启动“世界模型”的早期研发,这是一种通过吸收视觉信息学习环境物理规律的AI技术,是通往具身智能和下一代机器人技术的关键 [21] - Meta在三季度将年度资本支出指引上调至700亿至720亿美元,大部分流向AI基础设施,以支撑其AI战略和“世界模型”的研发 [19][22]
LeCun创业首轮估值247亿!Alexandre当CEO
量子位· 2025-12-19 09:01
公司概况与融资计划 - 新公司名为Advanced Machine Intelligence Labs (AMI Labs),计划于2026年1月在巴黎正式启动[5] - 公司正以30亿欧元(约247亿人民币)的目标估值寻求首轮5亿欧元(约41亿人民币)融资[2][11] - 公司CEO人选并非LeCun本人,而是其老部下、医疗AI独角兽Nabla的创始人兼CEO Alexandre LeBrun[4][14] 技术路线与研究方向 - 公司研究方向是LeCun一直主推的“世界模型”,旨在让AI理解物理世界的运行规律,而非仅进行文本概率预测[3][6] - 公司认为基于自回归机制的大语言模型存在根本缺陷,是通往AGI的“死路”,其智能水平甚至不如一只狗[6] - 技术上将通过JEPA(联合嵌入预测架构)构建底座,该架构在抽象表示空间中学习预测未来状态,专注于关键信息动态变化,以具备真正的推理和规划能力[8][9] - 公司将坚持开源路线,与当前Meta逐渐转向封闭生态的背景形成对比[5] 核心团队与治理结构 - LeCun本人大概率不会出任CEO,其核心动力是“提升人类智能”,而非陷入行政管理[13] - 拟任CEO Alexandre LeBrun是LeCun在Meta FAIR实验室时期的直接下属,曾协助其管理工程团队[25] - 预计将形成“LeCun主内负责科研、LeBrun主外负责商业”的双核架构[29] - LeBrun是连续创业者,曾创立客户服务AI公司VirtuOz和语音交互平台Wit.ai,后者被Facebook(Meta)收购[23][25] 战略合作与行业背景 - 老东家Meta将与AMI Labs建立合作,但不会直接注资[12] - 公司成立的初衷是抛弃当下大模型的捷径,攻克物理世界认知的挑战[32] - LeCun视此为职业生涯的又一次豪赌,尽管已到可退休年纪,但为完成“提升人类智能”的使命而继续前行[30][31]
Google 新作背后:机器人测评Evaluation范式正在发生变化
具身智能之心· 2025-12-19 08:05
文章核心观点 - 在具身智能发展的下半场,模型评估的重要性日益凸显,并已成为技术发展的关键瓶颈[2][3] - 传统基于真实硬件或物理仿真的评估方法面临成本高、覆盖面有限和安全性风险等三重困境[4][5][6] - Google DeepMind的最新研究提出了一种评估新范式:利用视频生成模型(世界模型)作为机器人策略的通用评估器,标志着评估环境的范式变化[8][13] - 基于世界模型的评估方法,如Veo (Robotics)模拟器,能够有效预测机器人在常规任务、分布外泛化及安全性方面的表现,并与真实世界结果高度相关[27][36][61] - 尽管前景广阔,但世界模型评估在物理规律一致性、生成长度和自动化评分方面仍存在局限,未来评估将是具身智能需要解决的核心问题[65][66][72] 传统评估方法的困境 - **成本高昂**:在真实硬件上进行大规模测试费时费力,对比多个策略版本或部署多台硬件会带来额外成本[4] - **覆盖面有限**:真实场景难以穷尽所有现实情况(如干扰物、杂乱环境、光线变化),影响测评的全面性[5] - **安全性风险**:测试机器人安全性需尝试危险动作,可能损坏昂贵设备或对人类造成伤害,在现实中不可接受[5][6] 评估新范式:从传统仿真到世界模型 - **传统物理仿真的挑战**:高保真模拟需要大量真实世界资产和精细的物理建模,获取和定制海量多样物体模型困难[11];对非刚体或复杂接触动态的模拟存在局限,且存在模拟与现实之间的视觉差距(Sim-to-Real gap)[11][12] - **世界模型的核心思想**:让机器人策略在模型“想象”出的世界中运行,以预测其表现,世界模型充当内部仿真器,支持进行虚拟试验[15] - **世界模型的优势**:数据驱动的世界模型不依赖人工物理建模,而是从大规模视觉数据中学习现实动态[16];同一模型可模拟多种场景和对象,生成视觉逼真且物理合理的预测画面,为解决资产、真实性和视觉域差距问题提供新思路[17] Google DeepMind的Veo (Robotics)模拟器 - **模型基础**:基于Google的Veo2文生视频模型构建,该模型采用潜空间扩散架构,能生成高质量连贯视频[21] - **关键改造**: - **动作条件化**:模型接收当前图像观察和机器人未来的动作指令序列,通过想象动作后果来生成未来视频帧[24] - **多视角一致性**:训练模型能同时生成多个摄像头视角(如头顶、侧面、手腕)的视频,并保持时空一致性[24] - **工作流程**:输入机器人当前画面、用户文本指令和计划动作序列,模型生成展示世界变化的视频,通过分析视频内容对策略进行打分[30] Veo模拟器的三大评估场景与验证 - **常规任务评估**:在机器人熟悉的任务和环境中进行测试,使用ALOHA 2双臂机器人平台执行5项基本任务[32][33];Veo模拟器能够非常准确地预测GROD模型8种不同策略的优劣排名,模拟结果与现实世界表现一致[36] - **分布外泛化评估**:利用生成式AI的图像编辑能力,创造从未见过的测试场景,无需重新布置真实场地[43];创造了四种维度的变化:背景颜色、添加小型干扰物(3-4英寸毛绒玩具)、添加大型干扰物(10-12英寸毛绒玩具)、替换操作物体为陌生物体[44];主要发现包括模拟器能生成符合物理规律的高保真视频,并成功预测出更换操作物体对性能影响最大,更换背景次之,添加干扰物影响较小的泛化难度排名[46][48] - **安全性红队测试**:在模拟器中安全地测试潜在危险行为,例如指令目标旁有人手或危险物品的场景[51];模拟结果预测了不安全行为(如撞到人手、压碎屏幕),并在现实中用道具复现后得到证实,证明其可作为部署前的安全过滤器[52] - **验证方法**:进行了超过1600次真实世界机器人评估实验,将每条真实轨迹与模拟视频对比[57];关键指标显示预测与现实强相关:皮尔逊相关系数高达0.88-0.91,Mean Maximum Rank Violation数值极低表明排名一致性高[60][61];模拟器预测的相对排名准确,但绝对成功率通常比现实略偏保守[62] 世界模型评估的局限性与未来展望 - **当前局限性**: - **物理规律一致性**:视频生成在涉及精细物体接触时可能出现幻觉(如物体穿模、凭空出现或消失),物理仿真在此方面更擅长[65] - **生成时长限制**:目前生成视频片段仅约8秒,模拟长周期复杂任务需要实现长时程生成,而当前模型在长时间滚动上易累积误差[66] - **自动化评分**:视频评分仍部分依赖人工观看打分,而传统仿真或实验可直接获取环境状态进行量化[66] - **未来展望**:评估是具身智能下半场需要解决的核心问题,公平的跨模型评价、评估任务与指标设置、以及结果的可复现性均有待深入讨论[69][70][71];具备有效评估能力是训练出最佳模型的关键[72]
《环球时报》记者探访2025人工智能创新大会:AI下一程,从“单点突围”到“生态共进”
环球网· 2025-12-19 06:49
中国AI产业发展路径与挑战 - 人工智能正成为驱动新质生产力发展的核心引擎,但单纯依靠堆规模的传统模式已不足以维持高速迭代,协同与融合成为推动技术进步与产业升级的关键路径 [1] - 中国在国家战略层面推动“AI+”,大模型驱动的应用已渗透几乎所有行业,但发展面临“性能墙”与“生态墙”双重制约,包括高端算力供给不足、软硬件适配不畅、技术标准不一、应用成本高昂,成为中小企业发展的显著壁垒 [2] AI计算开放架构与生态建设 - 光合组织提出“开放计算”主题,旨在通过打造AI计算开放架构,整合产业链企业优势,从技术“单点突围”走向产业“生态共进” [2] - 中国智算产业面临两大挑战:突破算力瓶颈(涉及高端AI芯片禁运、先进制程工艺瓶颈、EDA软件禁售等)和实现算力普惠(封闭系统售价高昂、自主生态不成熟、算力资源供需错配等) [3] - 光合组织选择借鉴安卓模式,构建由大量企业分工合作的开放系统,其开放架构不排斥国外产品,旨在降低开发门槛、加速应用落地和提升系统性能 [3] 大规模智能计算系统创新 - 中科曙光在HAIC2025首次以真机形式展示了scaleX万卡超集群,这是面向万亿参数大模型、科学智能等复杂场景打造的大规模智能算力基础设施方案 [4] - scaleX万卡超集群在超节点架构、高速互联网络、存储性能优化、系统管理调度等方面实现多项创新突破,单机柜算力密度提升20倍,部分技术与能力已超越海外同类产品 [4] - 该系统极大降低了智算集群的整体拥有成本,硬件上支持多品牌AI加速卡,软件兼容主流计算生态 [4] - AI超集群通过高速总线和统一内存,将千万个GPU连接在一起像一块芯片一样工作,统一存取内存,调度算力密度非常高,从而极大提升实际算力,克服了传统集群因通信瓶颈导致的效率下降问题 [7] AI技术未来发展方向 - 单纯依靠堆叠算力已逐步逼近AI的效率极限,未来发展需要底层技术创新 [6] - 当前多模态模型普遍存在“缝合式融合”短板,难以形成对真实物理世界的系统性理解,制约了其在复杂真实场景中的可靠应用 [6] - 未来AI总体算力发展可概括为“两超”(超节点和超高密度)、“一开放”(开放生态)、“两融合”(“超算、智算、通算”融合以及“算、存、网、电、冷、管、软”融合) [6] - scaleX万卡超集群代表的AI超集群是未来非常被看好的方向 [6] 产业合作与“AI+”应用落地 - 商汤科技、大晓机器人与中科曙光达成战略合作,共同推进世界模型在国产算力平台上的高效训练与推理 [6] - 大晓机器人发布的新一代“开悟”世界模型(Kairos 3.0)支持多视角、长时序、复杂动态环境下的场景建模与交互生成,并已与scaleX万卡超集群等产品完成深度适配 [6] - “AI+”已有多领域落地成果,包括地理科学领域的多模态语言大模型“坤元”,以及AI在国产新能源汽车设计测试中的工业应用 [8] - HAIC2025大会展示了“AI+交通”、“AI+医卫”、“AI+安全”、“AI+工业”、“AI+能源”、“AI+软件服务”等成果展区,例如甘肃省利用车纹识别大模型打造的“5G+智慧公路” [8]
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 17:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
商汤科技、大晓机器人与中科曙光正式达成战略合作,将共建国产化“算力基础设施+世界模型+具身智能 ”生态
新浪财经· 2025-12-18 15:04
合作事件概述 - 商汤科技、大晓机器人与中科曙光于12月18日在首届光合组织人工智能创新大会(HAIC2025)主论坛上正式达成战略合作 [1] 合作核心内容 - 三方合作将围绕国产化人工智能基础设施与具身智能关键技术方向展开 [1] - 合作将依托三方各自的技术与产业优势 [1] - 三方将协同推动软硬一体的“算力基础设施+世界模型+具身智能”生态建设 [1] 合作目标与影响 - 此次合作旨在进一步加速AI能力向物理世界的延展 [1]
2026产业预判:AI智能体接管互联网,认知差异将重塑贫富格局
钛媒体APP· 2025-12-18 12:20
核心观点 - 硅谷顶级风投机构a16z发布报告,指出过去十五年构建的互联网商业基石正在崩塌,互联网的“原住民”正从人类变更为AI智能体,这将引发基础设施的“递归风暴”并终结以“屏幕时长”为核心的注意力经济,企业若无法让业务逻辑被机器“读取”将在新时代沦为数字孤岛 [1] 基础设施危机与重构 - 互联网基础设施过去服务于人类(低并发、慢速、每秒点击一次鼠标),但2026年这一假设将被推翻 [2] - AI智能体为完成目标(如“帮我订票”)可能在毫秒级瞬间触发5000个子任务、数据库查询和API调用,这种流量对传统架构而言类似DDoS攻击,现有云服务和数据库架构将显得笨重脆弱 [3] - 行业将迎来关于算力与网络的基建竞赛,能解决机器产生的“递归风暴”和海量并发拥堵的公司将成为下一个时代的基建巨头 [3] - 对于深耕边缘计算、高性能数据库的企业而言,这是十年一遇的重构红利 [4] - 非结构化数据(如PDF、视频、日志)的治理是当前企业最大痛点,未来巨头将是能帮AI清洗并结构化这些数据以消除“幻觉”的公司 [4][5] 商业与变现模式剧变 - 过去互联网公司靠争夺用户注意力(Screen Time)和停留时长赚钱,AI时代屏幕时长KPI宣告死亡,取而代之的是结果导向的ROI [6] - 未来产品定价将从“按人头付费”转向“按结果付费” [7] - 搜索引擎优化(SEO)已死,生成式引擎优化(GEO)将主导未来,内容的受众将主要是AI智能体 [7] - 视觉设计重要性下降,“机器可读性”成为核心,企业需要优化智能体提取信息的效率,整个内容创作和营销体系的底层逻辑将发生根本逆转 [7] B2B与SaaS领域演进 - 在B2B领域,未来将出现“多智能体协作网络”,买方的AI、卖方的AI、律师的AI和银行的AI将在同一平台上自动谈判、核对合同、同步流程,人类仅做关键决策 [9] - 这种能高速处理信息不对称的协作网络将构建新一代软件极难被跨越的护城河,SaaS企业的核心竞争力将从功能堆叠转向生态连接能力 [9] 消费端体验与服务升维 - AI正在打破物理与虚拟的边界,a16z提出“世界模型”概念:视频将不再是流媒体,而是一个可以“走进去”的3D互动空间,基于物理规律和因果律,视频从一种媒介变成了一种有生命的环境 [9] - 这种技术将催生“绝对定制”的服务模式,从教育到医疗,世界不再为大众优化,只为你个人优化 [9] - 在教育领域,将诞生“AI原生大学”,课程表根据最新科研实时自动更新,教学路径根据学生反馈实时调整,实现真正的因材施教 [12] - 在医疗领域,将出现“健康MAUs”新人群,医疗将从“低频、高成本的救治”转变为“高频、订阅制的预防”,商业模式从维修身体转向保养生命 [12] 企业战略与个体能力要求 - 未来的企业护城河不再是精心设计的UI界面,而是数据结构的可读性以及对用户结果的“高效交付” [10] - 对于个体职场人,当死记硬背与基础执行的价值因AI介入而贬值时,定义问题、设计工作流以及驾驭多智能体协作的系统性能力将成为新的稀缺资源 [10]
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]
67页深度 | 智能驾驶行业专题:Robo-X的产业趋势、市场空间和产业链拆解【国信汽车】
车中旭霞· 2025-12-18 09:09
文章核心观点 - 在政策支持、技术进步(强化学习+世界模型)和硬件成本下降的共同催化下,L4级自动驾驶(Robo-X)预计将在2026年迎来商业化元年时刻 [3][18] - Robo-X行业是长赛道、大空间,中国自主厂商正在崛起,预计到2030年全球L4市场空间将达上万亿元人民币 [4] - 文章通过系列深度报告和点评,重点分析了小马智行和文远知行等领先企业的商业化进展,并拆解了Robo-X各细分领域的产业趋势、市场空间及产业链 [1][2] 行业趋势与催化因素 - **政策催化**:全球主要国家和地区均在不断放开对自动驾驶的限制并明确监管框架,为商业化扫清障碍 [12] - **美国**:2024年12月,美国国家公路交通安全管理局(NHTSA)发布“自动驾驶汽车安全、透明与评估计划”,简化完全无人驾驶汽车豁免申请流程,并取消2500辆的上限 [13] - **中国**:2024年6月,工信部等四部门发布通知,确定首批9个进入智能网联汽车准入和上路通行试点的联合体 [14] - **欧盟**:2025年3月发布《汽车行业行动计划》,计划建立自动驾驶“单一市场”,并在2027年前共同投入约10亿欧元推动发展 [14] - **中东**:迪拜目标在2030年实现25%的交通出行由自动驾驶车辆完成,并于2023年7月向文远知行发放了中东首个国家级全域自动驾驶路跑牌照 [14] - **东南亚**:新加坡自2013年推出“新加坡自动车计划”,2017年修订道路交通法允许公共道路测试 [14] - **技术催化**:强化学习结合世界模型正构建L4级自动驾驶的技术底层,解决传统L2级模仿学习的能力边界固化、意图理解缺失和开环训练缺陷等问题 [11] - **世界模型**:作为“虚拟驾驶沙盒”和“生产车端模型的数字工厂”,其核心包括场景数据生成器、驾驶行为评估体系、高真实性仿真系统及数据挖掘工具,能生成合成数据以更合理地训练AI模型,提升系统稳定性和泛化能力 [9][11] - **强化学习优势**:通过与环境的交互学习最优策略,避免了模仿学习对专家行为的依赖以及数据稀缺、不平衡等问题,是实现L4级“泛化决策”的关键 [11] - **成本催化**:随着L2/L2+级自动驾驶汽车渗透率提升,相关零部件成本下降,而L4与L2/L2+的零部件存在共通性,进一步降低了L4级自动驾驶硬件的成本 [3][18] - **融资活跃**:2025年截至10月底,国内无人驾驶领域公开超49起“亿元级别”投融资事件,融资总额近218亿元人民币,热门赛道集中在无人配送、无人环卫和矿山无人驾驶等领域 [16][17] 市场空间测算 - **总体空间**:参考文远知行招股说明书,预计2030年全球L4市场空间上万亿元人民币 [4] - **Robotaxi(自动驾驶出租车)**: - **全球市场**:预计2030年市场规模达5450亿美元,2025-2030年复合年增长率(CAGR)为106% [24][25] - **中国市场**:预计2030年市场规模达2010亿美元,2025-2030年CAGR为111% [24][25] - **国内替代空间**:2025年国内出租车和网约车年化市场规模合计2360亿元,假设Robotaxi车队规模7000台,则其在共享出行中占比仅0.6%,潜在替代空间巨大 [4][27][30] - **Robovan(自动驾驶物流车)**: - 国内可替代的轻/微卡潜在市场空间为1645亿元,2025年Robovan在物流配送车中占比约2% [4] - **Robotruck(自动驾驶卡车)**: - 假设2024、2030年国内年销量分别为0.1万台和6万台,重卡售价150万元,则对应市场规模分别为15亿元和900亿元 [4] - **Robobus(自动驾驶巴士)**: - 国内公交年化市场规模150-350亿元,Robobus在其中占比在2%以内 [4] - **Robosweeper(自动驾驶环卫车)**: - 国内环卫车年化市场规模113-225亿元,2025年Robosweeper在其中占比约4.7% [4] 竞争格局与主要玩家 - **Robotaxi**:自动驾驶公司如文远知行、小马智行、萝卜快跑(百度)商业化落地加速 [4] - **Robovan**:代表性玩家包括九识智能、新石器、白犀牛、川行致远(大华股份子公司)、佑驾创新、驭势科技等 [4] - **Robotruck**:玩家包括希迪智驾、易控智驾、小马智行、主线科技、西井科技等 [4] - **Robobus**:玩家包括文远知行、轻舟智航等 [4] - **Robosweeper**:代表性玩家有仙途智能、深兰科技等 [4] 重点公司分析 - **小马智行**: - 作为全球无人驾驶领先企业,其Robotaxi商业化落地正在加速 [1] - 2025年单二季度收入同比增长76%,单三季度收入同比增长72%,规模化运营持续推进 [1] - **文远知行**: - 作为全球L4级自动驾驶产品及解决方案先行者,商业化落地加速推进 [1][2] - 2025年单三季度收入同比增长144% [2] - 与Uber达成战略合作,计划未来五年新增15座国际城市部署Robotaxi服务,并获得了东南亚出行平台Grab的数千万美元股权投资 [23] 商业模式与运营分析 - **商业模式**:目前常见的Robotaxi商业模式主要有三种 [37] - **模式一(主机厂+自动驾驶公司+出行服务商)**:综合各方实力加速市场化,分担成本并共享数据与乘客资源,例如吉利+文远知行+Uber、上汽+Momenta+享道出行 [37][38] - **模式二(主机厂+自动驾驶公司)**:自动驾驶公司自主组建车队并运营 [38] - **模式三(主机厂+出行服务商)**:出行服务商自研L4系统并基于自有平台运营 [38] - **成本效益**: - **购车成本**:Robotaxi造车成本约为传统网约车的3倍(例如30万元 vs 13万元) [28][29] - **运营成本**:无安全员的Robotaxi每公里运营成本仅0.81元,比传统燃油网约车低58%,比传统电动网约车低43% [28][29] - **盈亏平衡测算**:假设拥有1000台Robotaxi(单车成本25万元),每车每天20单(客单价20元),配备200名安全员(人均月薪7000元),在不计研发和保险等前期投入的情况下,单月收入1200万元,成本707万元,模型显示可实现盈亏平衡 [36][39] - **发展路径**:中国Robotaxi发展从测试、试运营(2022年底已允许无人化测试),到2025年实现初步规模化运营,预计2030年有望成为用户采纳率较高的常态化出行方式 [33][34] - **全球进展**:全球Robotaxi商业化发展分为三个梯队,中国、中东、欧洲市场处于全球领先地位(第一梯队),已成功进行无主驾安全员的小规模商业化应用 [35]
未来智造局|当AI走进物理世界:从一场技能赛看具身智能的“能”与“不能”
新华财经· 2025-12-18 00:53
文章核心观点 - 文章通过2025全球开发者先锋大会上的机器人演示,揭示了具身智能领域在技术进阶与商业化落地上取得的显著成果,同时也暴露了其在精细操作、环境泛化及工业稳定性方面存在的技术鸿沟,并指出了未来从模仿走向推理、统一全身协同以及解决数据与生态瓶颈的进化方向 [1][2][3][7][8][9] 从机器人的“能”看技术进阶 - 中国具身智能领域在过去一年“快步疾行”,例如智元远征A2人形机器人完成了无间断百公里跨省行走,证明了其移动稳定性 [2] - 行业商业化“大单”频现,机器人已真正进入工厂负责分拣、上下料等工作 [2] - VLA(视觉-语言-动作)模型的应用大幅提升了机器人大脑、小脑与本体的协同度,使其能理解人类指令并适应陌生环境,例如在插花比赛中能识别不同花材并完成任务,在餐厅服务中能识别可抓取位置并控制握力 [2] - 硬件方面取得进步,例如2025年首次将精细触觉反馈引入实用化产品,使灵巧手能感知力的大小和方向,并完成从感知到力控的闭环,实现精细抓握 [3] 从机器人的“不能”看落地鸿沟 - 在叠衣服等处理柔性物体的任务中,机器人面临巨大挑战,为覆盖一件特定样式衣服的堆叠状态分布,需要采集高达200小时的遥操作数据 [4] - 环境干扰(如光照变化、物体倒影)容易导致机器人操作不准,暴露了当前具身智能在物理场景理解上泛化性不足的短板 [4] - 在拧螺丝等精细操作上,机器人仍需人类遥操作辅助,其力觉反馈灵敏度不足以捕捉螺纹咬合瞬间的微小震动,且当前VLA模型对摩擦力、扭矩等物理特征的理解依然浅薄 [5][6] - 在工业搬运场景中,虽然技术相对成熟,但动作磕绊、箱子重心不稳等情况仍时有发生,距离稳定工业落地仍有差距,需要工程化方案解决实际问题 [7] 从“进化路标”看未来 - 行业研究范式尚未收敛,正在探索如“世界模型”等技术路径以解决大语言模型在物理世界三维空间建模与动态因果推理上的局限 [8] - 2025年11月,李飞飞教授创立的World Labs推出首款产品Marble,以多模态“世界模型”为核心,可从单张图像等生成持久性三维数字孪生空间 [8] - 技术演进需从“模仿”走向“推理”,将推理、规划与控制纳入同一闭环框架,并需从局部技能走向全身协同,统一全身控制与手部精细操作规划 [8] - 行业未来需走出“数据匮乏”,探索新收集技术并构建可规模化的数据工厂,同时需结束“各自为战”,通过建立开放基准与安全规范,鼓励算法开源与复现,以铺平产业化之路 [9]