Workflow
世界模型
icon
搜索文档
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2025-12-09 08:03
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为端到端等前沿技术的大规模量产起点将在明年[2] - 当前智能驾驶前沿技术发展放缓,行业量产方案趋于同质化,L2级智能驾驶正走下沉路线[2] - 随着明年L3级法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场现状与规模 - 二十万元以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在该价格区间的销量占比不足三分之一[2] - 搭载端到端量产方案的车型占比则更低[2] - 地平线公司宣布将进军10万元级市场,表明高阶智能驾驶正迅速向更多国民车型下沉[2] 技术落地与产业影响 - 端到端技术不仅仅是一个算法,其成熟落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套体系支持[2] - 端到端技术的成熟被视为更大规模量产的开端[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 近几个月,行业对端到端和VLA技术的学习与入门需求显著增加[3] 行业培训与人才需求 - 为应对技术升级需求,出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等关键模块[3] - 另有课程专注于VLA领域,内容从视觉语言模型作为解释器,覆盖到模块化、一体化及主流的推理增强型VLA[11] - 课程要求参与者具备一定的自动驾驶基础、了解Transformer大模型、强化学习、BEV感知等概念,并拥有Python和PyTorch编程能力[10]
智驾国产芯片格局变化
2025-12-08 23:36
行业与公司 * **行业**:智能驾驶(智驾)芯片与算法行业,涉及乘用车及Robotaxi/Robotone领域[1] * **主要公司**: * **整车厂**:蔚来、小鹏、理想、小米、比亚迪、奇瑞、吉利、长城、丰田、大众[1][3][4][5][6][7][9][10][11][12][13] * **芯片供应商**:英伟达、地平线、高通、黑芝麻、TI[1][4][7][9][10][11][12][17][22] * **算法/方案供应商**:Momenta、元戎[7][9][11][18][23][24][25] 核心观点与论据:车企智驾方案规划(2025-2026) * **蔚来汽车**:智驾方案全栈自研,主推世界模型但效果相对落后[1][3] 明年主要任务是提升车位到车位功能的接网率及处理复杂案例[1][3] 自研9031芯片已在ET9使用,明年将扩展至ET6、ET5、ES6和E6等车型,高端车型搭载两颗,中低端车型搭载一颗[3] 乐道和萤火虫系列预计仍将使用英伟达方案[1][3] * **小鹏汽车**:中高端车型(如G6、G7)将搭载自研图灵芯片,中端车一般配备两颗,高端车配备3至4颗,算力达1,000多TOPS[1][3] 算法重点在于VLA和世界模型的迭代,深度融合BL模块[1][3] 计划在Robotic业务线中使用4颗图灵芯片,优化Robot Taxi的通行效率和安全性[1][5] 还在开发第二颗算力高达2000多TOPS的高端芯片,但难度较大[21] * **理想汽车**:自研M100苏马赫芯片预计2026年Q2量产,首发于L9、I8等高端改款车型[1][5] AD Max系统将存在M100与地平线混合方案并存的情况[1][5] AD Pro系统继续采用地平线方案,但可能升级至G6H版本[1][5] 算法方面坚定走VOL路线,借鉴特斯拉架构[1][5] * **小米汽车**:计划在所有高端车型上采用英伟达42系列芯片[1][6] 自研玄戒O2芯片因未满足车规要求且量产难度大暂缓使用[6] 明年算法将采用以世界模型为主、语言模型辅助的架构,解决停车场出入、道路标识牌识别及城市通勤问题[1][6] * **比亚迪**:高端方案将升级至英伟达索尔方案,首发于仰望U8改款车型,由Momenta提供R6大模型plus版本算法[1][7] 终端方案天翼云B1有两个版本,一个继续使用Orin 3OX低成本方案,另一个可能使用地平线G6P[7] 计划大量采用Orin方案并替换地平线GLM低成本方案[1][7] 2026年Q3/Q4有望推出玄机芯片对标地平线G6M,应用于部分天使之眼C系列改款车型[2][8] * **奇瑞汽车**:2026年智能驾驶方案分多个层次[4][9] 猎鹰500系列主要采用地平线和高通8650平台,地平线方案占约60%份额[4][9] 猎鹰700系列采用双Orin X平台,供应商主要是Momenta[4][9] 猎鹰900系列使用Sora Ultra平台,正与元戎和Momenta接洽[9] * **吉利汽车**:智能驾驶布局涵盖低、中、高端车型[10] 低端车型(如千里浩瀚H3和H5)混用黑芝麻1,000和地平线Orin芯片[10] 中端车型(千里浩瀚H7)采用单Orin X和双Orin X芯片[10] 高端车型(千里浩瀚H9)使用Soar和双Soar芯片,将在极氪旗舰车如极氪001上首发[10] * **长城汽车**:智能驾驶解决方案分为三个平台[11] 低算力平台主要使用TI TDA 4VH芯片以及地平线GLM芯片[11] 中算力平台目前与Momenta合作[11] 高算力平台包括双Orin X和Soar,其中Soar预计将在2026年取代双Orin X[11] * **合资品牌**:预计丰田、大众等合资品牌将在2026年成为增量最大的第三方芯片采购商之一[4][12] 丰田计划从2026年Q2开始在国内新能源车及插电混动车型中引入新智驾方案,2027年扩展至更多混动车型[12][13] 大众计划从2026年Q2起加速智能化,大量采用地平线G6P及G6M解决方案[4][12][13] 核心观点与论据:芯片市场格局与成本趋势 * **增量采购商**:预计比亚迪、奇瑞、吉利、长城等自主品牌,以及丰田、大众等合资品牌将在2026年成为增量最大的第三方芯片采购商[4][12] * **成本趋势**: * 2025年中算力平台(如比亚迪天链B1)单车成本约为8,000-9,000元[14] 预计2026年成本将下降约10%,降至7,000元左右[14] * 低端方案(如地平线GO6M)硬件成本每年下降5%-7%[14] 若使用自研芯片,成本可降低30%,前提是出货量足够大[14] * 目前低端纯视觉方案(如地平线Orin M)整体报价在5,000-6,000元之间[14] * 高端方案(如索尔)目前报价集中在16,000-18,000元区间,预计2026年降本幅度较小,主要依赖软件供应商降价和出货量增加[14] * **具体芯片价格**:地平线G6P目前单芯片加软件的报价约为5,000元,加上传感器等其他组件后,总体方案价格在8,000-9,000元之间[15] 预计2026年G6P芯片自身降本15%左右,如比亚迪谈判可能达到20%[15] * **软件成本**:终端市场的软件授权费用可能随着出货量增加而下降,如从2000多元降至1,600-1,700元左右[16] 核心观点与论据:技术发展、供应链与市场预期 * **国产芯片现状**: * 国产低端芯片已能满足需求,但终端高算力芯片仍是空白,目前国内尚无对标英伟达Orin4的量产上市产品[21] * 在高端领域,国产芯片与英伟达相比在生态系统、训练迁移以及算力释放率方面仍有显著差距[21] 英伟达的算力释放率可达到85%到90%,而国产高端芯片通常仅为50%至70%[21] * **供应商动态**: * **Momenta**:优先主打中算力终端市场,以满足15万元级别车型对性价比的需求[18] 正在开发性能对标英伟达高端芯片的新产品[18] 其软件能力强,可以反过来定义硬件以实现软硬结合[25] * **黑芝麻**:A1,000主要应用于吉利的千里好汉H3和H5平台上的领克系列[22] A2000则定点于东风旗下某款新能源品牌车型[22] * **算法表现**:在复杂场景(如环岛、窄路、特殊路口)中,Momenta表现优于地平线[23][24] 在人车混流场景中,两者性能相近,但Momenta在无保护左转及对向车辆礼让策略上更聪明[24] * **Robotaxi领域**:目前以英伟达为主导,但国产厂商如地平线也有希望进入,有厂商已开始考虑使用地平线G6P方案以降低成本[17] * **技术平移**:乘用车与Robot Taxi技术平移成本较低,业内普遍通过已有量产乘用车进行适配,不增加额外传感器[27] * **出货量预期**:2024年智能驾驶系统出货量约为18万套[19] 预计2025年将达到45万套[19] 到2026年则有望突破百万级别[19] 2026年的出口量大约在2万到3万左右[20] * **自研与外采逻辑**:高端车使用自研芯片可以提高利润率并打出差异化[26] 低端车采用外采方案主要是因为成本低且出货量大,可以保证质量并实现性价比[26]
达晨财智领投 极佳视界完成2亿元A2轮融资
新浪财经· 2025-12-08 23:14
公司融资与业务进展 - 具身智能公司极佳视界近期完成2亿元人民币A2轮融资 由达晨财智领投 老股东华控基金联合领投 并有首发展创投 浦耀信晔 财鑫资本 珠海科技产业集团 张科垚坤 复琢创投等机构跟投 老股东合鼎共资本超额跟投 [1][3] - 公司在3个月内连续完成Pre-A Pre-A+ A1及A2共四轮融资 累计完成5亿元人民币A轮系列融资 [1][3] - 公司已于2025年11月26日发布相应本体 布局物理AGI的终端业务 [1][3] 公司产品与技术布局 - 公司产品矩阵为物理AI全栈软硬件产品 包括世界模型平台GigaWorld(驾驶和具身) 通用具身大脑GigaBrain 通用具身本体Maker [1][3] - 公司技术采用“世界模型+行动模型+强化学习”的原生范式 其中每一环节均以世界模型为驱动 [1][3] - 公司认为以“操作与上肢”为中心 能更好与物理世界交互 数据优先的原生本体是关键需求 “传感器-执行器-数采设备-通用模型”之间可规模化的闭环迭代价值凸显 [2][4] 行业趋势与公司观点 - 行业模型架构正向通用行动模型(如VLA与世界行动模型)收敛 数据来源转向以真机数据与世界模型生成数据为核心 学习方式形成“模仿学习+强化学习+世界模型”的通用范式 [2][4] - 世界模型正成为物理AGI在数据来源 学习方式与模型架构层面的核心驱动力 [2][4] - 公司认为物理AI正在进入全新的关键时代 未来2-3年是物理AGI突破的关键窗口期 物理世界的“ChatGPT时刻”正在加速到来 [2][5]
Roblox CEO感叹AI研究进展:曾博览群书的自己都快看不懂了
搜狐财经· 2025-12-08 19:28
行业研究动态 - AI研究更新速度飞快,新论文几乎每天出现,技术概念复杂,Roblox CEO认为想真正看懂所有论文极其困难[1] - AI研究浪潮规模巨大、速度惊人,从Transformer到扩散模型再到世界模型,内容多到难以完全掌握[3] - 随着AI从学界扩展到国家战略高度,Meta、微软等公司纷纷建立自己的研究部门,并以极高薪资吸引顶尖人才[3] - AI研究变得更封闭,2023年谷歌决定减少公开发表的AI论文,公司进入要靠内部知识竞争的阶段[3] - OpenAI联合创始人认为,真正决定AI走向的仍是研究本身,现在重新回到研究时代,只不过用的是更大的计算机[3] 公司观点与战略 - Roblox CEO在创业初期几乎读遍从物理模拟到图形渲染的各类研究且都能理解,但AI时代的到来改变了一切[3] - Roblox CEO的结论是,AI在三维世界里仍然处于非常初期的阶段[3] - AI依赖的是人类制造出来的文本和图像,是用自己创造的内容训练AI,而不是用真实世界的三维原始数据[3]
达晨、华控领投,极佳视界A2轮再融2亿,押注“世界模型+行动模型”原生架构
钛媒体APP· 2025-12-08 15:17
公司融资与团队背景 - 具身智能公司极佳视界在3个月内连续完成Pre-A、Pre-A+、A1及A2四轮融资,累计融资额达5亿元,其中A2轮融资2亿元 [2] - 本轮融资由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投,老股东合鼎共资本超额追加投资 [2] - 公司创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士背景,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人兼算法副总裁,并曾在三星中国研究院、微软亚洲研究院等顶尖科研机构工作 [2] - 创始人团队在过去十年深度参与并推动了物理AI从技术萌芽到产业落地的关键演进,带领团队在FRVT、COCO、VOT等全球最具影响力的视觉AI竞赛中多次斩获冠军,并实现多项技术的大规模产业化应用 [2] 核心技术优势与历史成就 - 在自动驾驶领域,公司团队提出的BEVDet系列方法已成为全球最具影响力的BEV感知范式之一,长期稳居nuScenes榜单首位,并已实现规模化量产 [3] - 团队主导了地平线AIDI平台(业内最大规模的数据闭环系统)以及百度Apollo仿真框架的研发与商业化落地,奠定了其在智能系统工程化方面的领先优势 [3] 行业趋势与公司战略判断 - 行业正加速向通用行动模型(如VLA与世界行动模型)演进,数据来源日益依赖真机实采与高保真世界模型合成,学习范式逐步统一为“模仿学习 + 强化学习 + 世界模型”的融合架构 [3] - 公司判断物理AI正迈入决定性突破的关键窗口期,未来2至3年将是物理AGI从实验室走向规模化落地的分水岭 [3] - 随着世界模型与行动模型的持续跃迁,属于物理世界的“ChatGPT时刻”正在加速到来 [3] - 公司面向具身智能新时代,率先提出“世界模型 + 行动模型 + 强化学习”的原生AGI范式,强调以世界模型为核心驱动力,贯通数据生成、模型训练与决策执行全链路 [3] 核心产品发布:模型与机器人平台 - 公司已正式发布两大物理AGI核心模型:原生行动模型GigaBrain-0与原生世界模型GigaWorld-0,并同步推出高自由度具身智能机器人平台Maker H01,共同构建端到端的具身智能系统 [4] - GigaBrain-0是一款基于视觉-语言-动作(VLA)架构的端到端决策控制模型,可融合图像、深度、文本及本体状态等多模态输入,输出结构化的任务规划与运动指令 [5] - GigaBrain-0重点强化了3D空间感知与结构化推理能力,以提升在复杂环境中的导航精度与长序列任务执行能力,具备更强的泛化性能 [5] - GigaWorld-0是公司自研的高质量世界模型,依托“GigaWorld”平台,通过几何一致、物理准确的建模机制生成高保真、可控且多样化的具身交互数据,实现高效“数据放大” [6] - GigaWorld-0构建了目前最完整的具身训练数据体系,在三大关键泛化维度(新纹理、新视角、新物体位置)上实现近300%的性能提升 [6] - 在PBench(Robot Set)基准测试中,GigaWorld-0以最小参数量实现最高整体性能,成为当前最具性价比的世界模型方案 [6] - Maker H01是专为家庭、商业服务与轻工业等开放场景设计的高自由度具身机器人,采用双臂 + 全向全驱移动底盘架构,全身拥有20+自由度,单臂支持公斤级负载,配备多指灵巧手爪 [6] - Maker H01标准版高度约1.6米,适配多种空间环境,适用于物品取放、巡检、接待、实验协助、仓储搬运等真实业务场景 [6] 产品性能与应用场景 - GigaBrain-0已成功应用于一系列高难度、长程的具身任务,在真实场景中展现出卓越的综合能力,能稳定高效地完成制作咖啡、叠衣服、整理卷纸、桌面清理、倒饮料、搬运箱子、拾取衣物等复杂任务 [5] - 在多项权威基准测试中,GigaBrain-0的任务成功率显著超越当前最先进的方法(SOTA) [5] - Maker H01不仅是可靠的作业平台,也是高效的算法验证载体,支持多种遥操作方案,并与自研“具身大脑”GigaBrain深度集成,实现抓取、搬运、协作等复杂动作的全身协同控制 [7] - 通过GigaBrain-0、GigaWorld-0与Maker H01的三位一体架构,公司正加速推动具身智能从实验室走向规模化落地,迈向真正“可用、可靠、可泛化”的物理AGI时代 [7]
哈萨比斯:DeepMind才是Scaling Law发现者,现在也没看到瓶颈
量子位· 2025-12-08 14:07
Scaling Law的现状与历史 - 谷歌DeepMind首席执行官哈萨比斯在Axios AI+峰会上力挺Scaling Law,认为其对于实现AGI至关重要[1][6] - 哈萨比斯指出,Scaling Law最早的发现者并非OpenAI,而是DeepMind团队,其内部在2017至2018年期间的研究已发现相关规律,并称之为“Chinchilla Scaling Laws”[6][14][17] - 基于对Scaling Law有效性的确认,DeepMind调整了研究方向并投入更多资源,这被认为是其在大模型领域取得成功、推动Gemini从1.0演进到3.0时代的关键[18] Scaling Law与AGI(通用人工智能)的关系 - 公司认为,无论AGI最终形态如何,Scaling都将是其中的关键组成部分,且当前Scaling尚未到达极限,有必要继续沿此路线将系统推向最大化[21][22] - 哈萨比斯提出,单靠Scaling Law也有可能达成AGI,因为大量数据和计算资源的投入是展现类人智慧能力的合理途径[7][23] - 同时,他也猜测实现AGI可能还需要一两个类似Transformer或AlphaGo级别的重大突破,并预测这个时间点可能在5到10年内[24][26] 对未来12个月AI发展的预测 - **多模态融合**:完整的多模态融合将是主流演进方向,谷歌DeepMind正全力推进,旨在通过交叉融合图像、视频、文本和音频来全面提升模型的推理和创造力[27][28][30] - **视觉智能突破**:以谷歌Nano Banana Pro等图像模型为例,视觉理解能力有显著进展,未来将在更丰富的分析、故事讲述和分步视觉推理方面继续探索[31][32][33] - **世界模型普及**:世界模型是行业关注重点,也是哈萨比斯个人的工作重点,例如谷歌8月上线的世界模型Genie 3,预计下一年该领域将持续受到业界关注[35][36][37] - **Agent可靠性提升**:哈萨比斯认为,现有Agent系统尚不完全可靠,但预计再有一年时间,Agent将能开始接近于可靠地完成委托任务[38][39][40] Gemini的发展与目标 - Gemini 3的成功验证了Scaling Law的有效性,其全网爆火被视为谷歌打了一场漂亮的翻身仗[4][5] - Gemini 3的独到之处在于个性化的深度、简洁的回答、温和反驳不合理观点的能力,并能一键式生成商业级游戏,展现了其基座架构在理解高层次指令和输出高精度细节方面的优势[43][44][45][46] - 公司对Gemini设定的最终目标是成为“通用万能助手”或“通用助手”,下一代Gemini将延续现有优势,出现在更多设备上并无缝融入日常生活,其使用频率将变得和使用手机一样频繁[9][41][46][47]
死磕技术的自动驾驶黄埔军校,又更新了这些技术进展......
自动驾驶之心· 2025-12-07 10:05
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区,该社区定位为国内首个自动驾驶全栈技术交流平台,汇集学术界与工业界资源,为从业者及学习者提供全面的技术内容、学习路线、行业资讯及求职内推服务 [8][25] - 社区核心价值在于降低行业入门壁垒,通过体系化的知识梳理和专家互动,帮助成员应对技术快速迭代和行业竞争,目标是打造一个近万人的技术分享与交流聚集地 [8][26] 社区概况与规模 - 社区已运营超过三年,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [8] - 目前社区成员已超过4000人,成员来自近300家机构与自动驾驶公司,目标在未来2年内做到近万人的规模 [8][104] - 社区成员背景多元,包括上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、小米汽车等头部公司 [25] 内容体系与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,内容全面覆盖从基础到前沿的各个领域 [11][14] - 技术方向具体包括:自动驾驶感知(如BEV感知、3D目标检测)、规划控制、端到端自动驾驶、VLA(视觉-语言-动作模型)、世界模型、多传感器融合、自动驾驶仿真、3DGS(3D Gaussian Splatting)、NeRF、扩散模型、Occupancy Network、视觉语言模型(VLM)、在线高精地图等 [11][16][25][34][45][47][49][51][53][56][58][60][64][65] - 提供了近60个自动驾驶相关数据集的汇总,包括通用CV数据集、感知数据集、轨迹预测数据集,并详细梳理了自动驾驶VLM的预训练、微调及思维链数据集 [43] - 汇总了近40个开源项目,涵盖3D目标检测、BEV感知、世界模型、自动驾驶大模型等多个领域,助力快速上手实践 [41] 学习资源与课程 - 社区提供原创的系列视频教程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划与轨迹预测、自动驾驶数据工程、2D/3D目标跟踪、自动驾驶仿真、端到端自动驾驶及大模型技术等八大方向 [17] - 为入门者准备了全栈方向的学习课程,包括数学基础、计算机视觉、深度学习、编程等资料,以及经典书籍和课程课件汇总,适合0基础学习者 [16][19] - 设有“自动驾驶100问”系列专题,内容涉及TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定、3D&4D毫米波雷达等工程实践问题 [16] 行业交流与活动 - 社区不定期邀请一线学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播,内容可反复观看 [12][92] - 直播分享主题前沿,例如:完全开源性能SOTA的端到端VLA模型“Impromptu VLA”、基于快慢神经符号系统的道路拓扑推理、让自动驾驶用自然语言交流的V2X研究、通用3D检测基础模型“DetAny3D”、基于扩散模型的规划算法“Diffusion Planner”等 [93] - 社区内部建立了与多家自动驾驶公司的岗位内推机制,可第一时间将成员简历推送给心仪公司 [17] - 日常交流问题涵盖技术学习、职业发展、行业趋势等,例如:端到端自动驾驶如何入门、多传感器融合就业前景、业内公司跳槽选择、博士研究方向等 [11][15][30] 社区特色与附加价值 - 社区致力于解答成员的各类实用问题,并提供快速解答,方便应用到实际项目中 [11] - 汇总了国内外自动驾驶与机器人领域的高校实验室和公司信息,为成员升学、求职提供参考 [35][37] - 打造了一个交流+技术分享的聚集地,旨在让初学者快速入门,让进阶者提升技能,并结交行业人脉 [8][26]
烧光700亿后,扎克伯格戳破元宇宙泡沫
新浪财经· 2025-12-06 14:24
文章核心观点 Meta Platforms Inc 正在进行一次重大的战略调整,核心是从高投入、低回报的元宇宙业务全面转向以人工智能为核心驱动力的新硬件时代 这一系列举措包括大幅削减元宇宙部门预算、引进高端设计人才、支持基础AI研究的独立探索 标志着公司对华尔街压力的务实回应和资源向更高回报领域聚焦的决心 [1][2][12][17][32] 预算撤回与人员调整 - 公司高管正考虑在2026年对元宇宙部门(Reality Labs)的预算进行高达30%的大规模削减 削减将主要集中于Meta Horizon Worlds社交平台和Quest VR头显硬件部门 [4][19] - 自2021年初以来,Reality Labs已累计亏损超过700亿美元 此次预算是公司在投入数百亿美元进行AI军备竞赛背景下 对市场压力的直接回应 [5][20] - 大幅财政收缩预计将最早于2026年1月启动裁员 涉及元宇宙部门约10%至30%的员工 [7][22] - 节省下来的资金预计将流向Reality Labs内部其他未来主义项目 主要是AI眼镜和其他可穿戴设备的研发 公司认为竞争对手在虚拟现实方面努力放缓 因此可以将资源投向更具商业潜力的领域 [8][22] 高端人才引进与设计战略 - 公司重金引进了苹果前UI设计负责人艾伦·戴伊 他将于12月31日加入并担任Reality Labs的首席设计官 直接向首席技术官汇报 表明设计美学被提升至战略核心地位 [8][23][24] - 艾伦·戴伊将领导一个全新的“创意工作室” 其使命是融合设计、时尚与科技以定义下一代AI产品与体验 核心工作是将苹果在用户界面的顶尖经验应用于Meta的AI硬件 [8][25] - 此次引援进一步确认了公司资源正从虚拟社交世界转向设计驱动、具备AI能力的高端可穿戴设备 Meta的Ray-Ban Meta智能眼镜已获得超出内部目标的销量成功并集成了AI助手功能 [8][26] 技术路线分歧与独立探索 - 公司首席AI科学家、图灵奖得主杨立昆宣布将于年底离开Meta 在欧洲创办专注于“世界模型”的新AI公司AMI 他公开批判硅谷主流生成式AI路线 认为当前大语言模型缺少实现人类级别智能的关键要素 [2][9][17][27] - 杨立昆的新公司AMI将采用一种“非生成式”的AI架构 专注于开发能够感知环境、理解物理世界、拥有持久记忆并能规划复杂行动序列的系统 [10][29] - 尽管杨立昆强调Meta首席执行官扎克伯格喜欢该项目 但双方一致认为其潜在应用已超出Meta的兴趣范畴 因此决定成立独立组织 AMI将与Meta建立合作关系并开放技术 但不会接受Meta投资以确保研究独立性 [11][30] 战略聚焦与未来方向 - 公司通过大幅削减元宇宙预算 将资源释放并集中投入到AI基础设施建设和已见市场回报的AI硬件上 以应对紧迫的AI军备竞赛 [12][32] - 引入以艾伦·戴伊为代表的顶尖设计人才 旨在确保下一代AI硬件在人机交互美学上拥有绝对优势 [12][32] - 允许杨立昆在基础AI理论上独立探索 是一种分散技术押注的高级风险管理策略 避免将所有未来赌注放在生成式模型单一赛道上 [12][32] - 消息公布后 公司股价应声大涨 市场反应积极 此次战略调整预示着公司正在快速摆脱元宇宙困境 全面转向一个以AI驱动、由顶级设计美学定义的新硬件时代 [6][12][21][32]
英伟达2025年技术图鉴,强的可怕......
自动驾驶之心· 2025-12-06 11:04
英伟达公司发展里程碑与战略定位 - 公司于1993年成立,已完成从图形芯片到AI巨头的演进,市值在2025年10月底达到5万亿美元,是3年前的11倍 [2] - 发展关键节点包括:1999年推出GeForce 256,2006年CUDA问世,2012年支持AlexNet,2020年开始发布高端计算GPU,2021年开始发布端侧芯片(ORIN/Thor)[2] - 公司是AI基础设施的第一巨头,但其野心不局限于硬件,2025年在自动驾驶、具身智能、大模型和世界模型等最热AI赛道上产出了多篇重量级工作 [2] Cosmos系列世界基础模型平台 - 该系列从2025年1月开始布局,是面向物理AI的世界基础模型平台,衍生出Cosmos-Transfer1、Cosmos-Reason1、Cosmos-Predict2.5等工作,为下游自动驾驶和具身智能奠定基座 [5] - **Cosmos-Predict2.5**:新一代物理AI视频世界基础模型,基于流匹配架构统一了文本、图像、视频到世界的生成能力,并引入物理AI专用VLM——Cosmos-Reason1进行文本嵌入与细粒度控制 [17] - Cosmos-Predict2.5构建了包含2亿精选视频片段的大规模训练数据集,并针对机器人、自动驾驶等五大领域进行专项数据整理 [17] - 其控制网络变体Cosmos-Transfer2.5支持多模态控制信号输入,模型规模减小3.5倍的同时实现更高生成质量,支持长达120秒的长视频连贯生成 [17] - 模型支持多摄像头同步视频生成(如自动驾驶7视角),并实现基于相机轨迹的视角重渲染 [17] - 采用基于VLM奖励模型的强化学习对生成质量进行对齐优化,并使用时步蒸馏技术将推理步数大幅减少至4步 [17] - 全面开源2B与14B规模的预训练与后训练模型,在PAI-Bench等物理AI基准测试中取得领先性能 [17] - **Cosmos-Transfer1**:基于扩散模型的多模态可控世界生成框架,通过自适应空间-时间控制权重机制,根据不同模态输入生成高质量世界仿真视频 [37] - Cosmos-Transfer1构建了面向自动驾驶的高质量数据集RDS-HQ,包含360小时的高清地图、3D检测框与LiDAR同步标注 [37] - 通过基于NVIDIA GB200 NVL72系统的并行推理策略,在64块GPU上实现5秒720p视频的实时生成 [37] - **Cosmos-Reason1**:旨在赋予多模态大语言模型“物理常识”与“具身推理”能力,通过定义层次化的物理常识本体与二维具身推理本体,采用“监督微调+强化学习”的两阶段训练范式 [32] - Cosmos-Reason1构建了包含约4M视频-文本对的训练数据集,以及包含604个问题的物理常识推理基准和涵盖6个数据集、610个问题的具身推理基准 [32] - 实验表明,经过物理AI SFT后,模型在物理常识和具身推理基准上的性能较基线VLM提升超过10%,进一步的物理AI RL训练能在多数任务上再带来超过5%的性能提升 [33] Nemotron系列AI智能体模型 - Nemotron系列是公司为代理式AI时代打造的“数字大脑”,通过提供开放、高效、精准的模型和工具,让企业能够快速构建专业AI智能体 [5] - **Nemotron Nano V2 VL**:一个高效的12B视觉语言模型,通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化,在文档理解、长视频推理等多模态任务中实现了SOTA性能 [12] - 该模型将上下文长度从16K扩展至128K,支持长视频、多页文档等复杂场景理解 [12] - 集成Efficient Video Sampling技术提升视频处理吞吐量,支持FP8与FP4量化,适用于资源受限环境 [12] - 在OCRBench v2、MMMU、ChartQA、Video-MME等45个多模态基准测试中表现优异 [12] - 公开发布包含超过800万样本的Nemotron VLM Dataset V2,以及NVPDFTex等标注工具 [12] - **Nemotron Nano 2**:面向推理任务的高效混合架构语言模型,结合Mamba-2层与自注意力层,在保持高精度的同时,实现了最高达6倍的推理吞吐量提升,并支持128k长上下文推理 [26] - 采用FP8混合精度训练配方与分阶段课程学习策略,在20T token上完成预训练 [26] - 通过基于Minitron的轻量级剪枝与蒸馏策略,将12B模型压缩至9B,使其能够在单张NVIDIA A10G GPU(22GB显存)上以128k上下文进行推理 [26] - **Nemotron-H系列**:采用创新的混合Mamba-Transformer架构,用计算和内存需求恒定的Mamba层替代绝大部分自注意力层,在保证高精度的前提下,实现了高达3倍的推理速度提升 [27][28] - 在65k输入、1k输出场景下,吞吐量达同类Transformer的2-3倍 [29] - 提出模型压缩范式MiniPuzzle,将56B模型压缩为47B模型,仅用极少量(63B)token进行蒸馏便恢复精度,并在长上下文推理中实现额外20%的加速 [31] - 为56B大模型成功实施了以FP8精度为主的层wise混合精度预训练方案,在长达20万亿token的训练中稳定 [31] - 基于该骨干网络构建的VLM模型在多项视觉语言基准(如MMMU, MathVista)上达到SOTA水平 [31] 具身智能与机器人系列 - 公司正在深入布局具身智能,主要工作包括GR00T N1和Isaac Lab,一手具身VLA,一手仿真平台 [5] - **GR00T N1**:一个面向通用人形机器人的开放式视觉-语言-动作基础模型,采用双系统架构,通过构建“数据金字塔”进行大规模预训练 [35] - 双系统VLA架构将视觉语言模型作为慢速推理模块,与基于扩散Transformer的快速动作生成模块端到端联合训练 [35] - 数据金字塔训练策略构建了从海量人类视频、仿真与神经生成数据到真实机器人轨迹的异构数据体系 [35] - 使用单一模型权重支持从单臂机械臂到双手机巧人形机器人等多种机器人形态,在低数据场景下表现出卓越的样本效率 [35] - 公开发布了GROOT-N1-2B模型检查点、训练数据集及仿真基准 [35] - **Isaac Lab**:一个GPU加速的多模态机器人学习仿真框架,集高保真物理、照片级渲染与模块化环境设计于一体 [6] - 提出了统一且可扩展的仿真范式,将GPU并行物理、实时射线追踪渲染与通用场景描述深度集成 [6] - 设计了全面的多模态传感器仿真套件,涵盖基于物理的传感器、基于渲染的相机以及基于Warp的几何传感器 [6] - 实现了从数据生成到策略部署的端到端学习工作流支持,内置了强化学习、模仿学习等多种学习范式 [6] - 通过模块化的“管理器”架构与底层Tensor API,在保持高性能GPU原生计算的同时,为研究者提供了灵活控制 [6] 自动驾驶系列 - 2025年11月发布的Alpamayo-R1在自驾行业引起轰动,是公司在自驾VLA上的重要尝试 [5] - **Alpamayo-R1**:一种融合因果推理与轨迹规划的视觉-语言-动作模型,旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈 [13] - 提出了Chain of Causation数据集,通过人机协同标注流程构建具有因果关联的结构化推理轨迹 [13] - 设计了模块化推理VLA架构,以物理AI预训练的Cosmos-Reason为骨干,结合基于流匹配的轨迹解码器,实现99ms延迟的实时轨迹生成 [16] - 提出了多阶段训练策略,包括动作模态注入、基于CoC的监督微调以及基于大推理模型反馈的强化学习后训练 [16] - 在闭环仿真与实车测试中,相比仅预测轨迹的基线模型,Alpamayo-R1在挑战性场景中规划准确率提升最高达12%,脱轨率降低35%,近距离接触率降低25%,推理质量与推理-动作一致性分别提升45%与37% [16] 高效训练与底层技术 - **NVFP4**:一种新型4位浮点格式的高效训练方法,通过混合精度、随机哈达玛变换、二维权重缩放与随机舍入等关键技术,成功在120亿参数模型上进行了长达10万亿token的稳定训练 [19] - 在120亿参数的混合Mamba-Transformer模型上,使用NVFP4格式完成10万亿token预训练,其验证损失与FP8基线全程紧密吻合(相对误差<1.5%),下游任务准确率可比拟 [19] - 对比实验证明,NVFP4在达到相同训练损失时,所需的训练token数比MXFP4少约36% [19] - 相关工作已在NVIDIA Blackwell GPU上通过Transformer Engine获得全面支持 [19] 数字人与动画生成 - **Audio2Face-3D**:一个基于深度学习的端到端音频驱动三维面部动画系统,能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画 [21] - 提出了双网络架构设计:基于回归的轻量级网络支持低延迟单帧推理;基于扩散模型的高质量网络以流式方式生成连续30帧动画,支持多身份条件生成 [21] - 构建了基于专业演员多情感语音捕获的4D面部数据集,并采用语音转换、文本转语音对齐与静默数据插入三种增强方法提升数据多样性 [21] - 开发了可重定向的混合形状求解器,可将生成的面部顶点运动转化为标准的ARKit混合形状权重,支持将动画无缝重定向至不同角色模型 [21] - 系统支持在线流式音频输入并实时生成动画,推理延迟低,并提供丰富的后处理参数面板 [21]
对话任少卿:2025 NeurIPS 时间检验奖背后,我的学术与产业观
雷峰网· 2025-12-05 18:24
文章核心观点 文章通过报道任少卿及其团队获得NeurIPS时间检验奖,回顾了其奠基性工作Faster R-CNN的深远影响,并深入探讨了任少卿加入蔚来后,在自动驾驶全栈自研、芯片定义、数据闭环体系构建以及技术路线(如世界模型)探索等方面的实践与思考,展现了蔚来在智能驾驶领域从零开始构建核心能力的过程与战略布局 [1][2][11][13][27] 根据相关目录分别进行总结 Faster R-CNN的成就与影响 - 任少卿、何恺明、孙剑与Ross Girshick共同发表的Faster R-CNN荣获2025年NeurIPS时间检验奖,该奖项表彰经过十年检验、对学科发展产生深远影响的奠基性工作 [1] - Faster R-CNN发表于2015年,将物体检测效率提升10倍以上,开创了端到端实时精准目标检测模式,其论文已被引用超9.8万次,是AI检测领域全球最高被引论文 [2] - 该模型的核心思想已深度融入人工智能基础技术,成为驱动自动驾驶、医疗影像、安防监控、工业检测、卫星遥感等关键领域的核心技术 [2] 研究理念与团队合作 - 孙剑坚持“simple but work”的研究理念,认为做核心工作需要远见、品位和坚持 [4][6] - 任少卿与何恺明的合作紧密且高效,日常节奏包括多次集中讨论与实验推进,何恺明几乎投入100%的精力,专注于研究问题、寻找方向与突破 [6][7][8] - 团队选择深度学习方向基于几个关键判断:方法有创新性、已有初步结果和进展、结果具备泛化能力而非技巧性(trick),验证了方向的可扩展性 [10] 加入蔚来与全栈自研启动 - 任少卿于2020年8月加入蔚来,首要任务是搭建团队并启动全栈自研L2产品,支持L3和L4,同时进行芯片选型 [13] - 蔚来第二代车是全球首个量产英伟达Orin芯片(使用4颗芯片)及高线束激光雷达的车型,于2022年3月在中国量产,半年后在欧洲量产 [14] - 团队在极短时间内(从拿到芯片到量产仅6-7个月)克服了Orin芯片作为新硬件在算力(比上一代增大8倍多)、架构、散热、功耗及工具链等方面的挑战,完成了复杂的自动驾驶域控制器(ADC)架构量产 [14][15] 自研芯片的定义与考量 - 作为需求方,团队参与了自研芯片的定义,基于对技术发展的判断,早在2021年就预见到Transformer将更广泛应用,这对芯片内存带宽提出了更高要求 [16] - 蔚来自研芯片具备行业最高的带宽,以支持Transformer等模型,并为支持更高级别自动驾驶(L3/L4)预埋了热备能力,可在百毫秒内实现芯片切换且用户无感 [17] 数据闭环与高效迭代体系 - 蔚来自2020年起重点建设数据能力,认为数据的价值在于针对特定模型筛选出的“corner case”,而非简单的数据拷贝,数据筛选过程消耗大量算力 [19][20] - 公司构建了灵活调度云端和车端算力的系统,并在此基础上建立了类似互联网行业的“AB test”系统,允许在量产车上并行测试下一代算法 [21] - 通过“AB test”系统,蔚来将主动安全功能的迭代效率大幅提升,即使面对高达200万公里一次误报(FP)的严格标准,也能实现三天迭代一次的速度 [22] - 针对超80万辆量产车的智驾接管数据,建立了自动化分析系统,能过滤掉99%以上的无效信息,仅返回0.1%-0.5%的有效数据供进一步分析,极大提升研发效率 [22] 对端到端与世界模型的技术思考 - Faster R-CNN本质是解决了物体检测任务的端到端问题,将检测速度提升至实时(10Hz、20Hz、30Hz),为视频处理和应用落地带来突破 [11] - 任少卿认为,端到端是自动驾驶技术演进的一个阶段,但并未解决所有问题,例如语言模型无法解决真实世界所需的时空认知问题 [24][25][26] - 世界模型旨在建立时空认知能力,学习物理规律和时空理解,以解决长时序决策问题,这是语言模型无法做到的 [26][27] - 蔚来于2023年决定All in世界模型,并于2024年7月首次公开发布,成为行业内率先拥抱此路线的公司之一,世界模型能支持长达10秒、1分钟甚至更长的时序推演,替代传统的规则代码(if else)处理长时序场景 [27][28][29][30]