世界模型
搜索文档
世界模型与自动驾驶小班课正式推出!特斯拉世界模型、视频OCC生成一网打尽~
自动驾驶之心· 2025-12-09 15:59
课程核心内容与定位 - 课程名称为《世界模型与自动驾驶小班课》,是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员真正理解端到端自动驾驶 [2][10] - 课程由“自动驾驶之心”公众号联合工业界大佬推出,是继《端到端与VLA自动驾驶小班课》后进一步推出的课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程讲师Jason拥有C9本科和QS50 PhD背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的研发和实战经验 [2] 课程大纲与章节详解 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、当下应用案例,并介绍纯仿真、仿真+Planning、生成传感器输入、生成感知结果等不同流派,以及它们在业界的应用、解决的问题、所处环节、相关数据集和评测 [5] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,为后续章节奠定基础,其内容是当下世界模型求职面试频率最高的技术关键词 [5][6] - **第三章:通用世界模型探讨** 聚焦通用世界模型和近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及业界广泛讨论的VLA+世界模型算法DriveVLA-W0和特斯拉ICCV上分享的世界模型模拟器 [6] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,从Wayve的GAIA-1 & GAIA-2开始,扩展到上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,兼顾经典与前沿进展,并以商汤开源的OpenDWM进行实战 [7] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法不局限于OCC生成,可较易扩展为自车轨迹规划,从而进一步实现端到端 [8] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、期望解决的问题,以及如何准备相关岗位面试和公司真正关注的内容 [9] 课程技术深度与学后收获 - 课程将详细讲解Transformer、视觉Transformer、CLIP、LLAVA、BEV感知、占用网络(Occupancy Network)、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等关键技术概念 [11] - 课程涵盖OCC生成类世界模型的多个前沿工作,包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World [12] - 学员学完本课程后,预期能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展(涵盖视频生成、OCC生成等方法),对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,并可复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目设计中,对实习、校招、社招均有助益 [13] 课程安排与面向人群 - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,辅以VIP群内答疑和三次线上答疑 [14] - 章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [14] - 面向人群需自备GPU(推荐算力在4090及以上),具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等技术的基本概念,具备一定的概率论、线性代数基础以及Python和PyTorch语言基础 [13]
3个月斩获5亿元!华为重投的具身智能机器人创企,又完成新一轮融资!
Robot猎场备忘录· 2025-12-09 08:03
温馨提示 : 点击下方图片,查看运营团队最新(12月)原创报告(共260页) 说明: 欢迎约稿、刊例合作、行业交流 , 行业交流记得先加入 "机器人头条"知识星球 ,后添加( 微信号:lietou100w )微 信; 若有侵权、改稿请联系编辑运营(微信:li_sir_2020); 正文: 梅开五度, 国内领先通用具身智能企业[极佳视界]完成2亿元级A2轮融资! 12月8日,Physical AI(物理AI)领域头部创企 [北京极佳视界科技有限公司 ](公司简称" 极佳视界 GigaAl ") 宣布完成 2 亿元 A2 轮融资 ,本轮融资由达晨财智领投, 老股东 华 控 基金联合领投,首发展创投、浦耀信晔、 财鑫资本、珠海科技产业集团 、张科垚坤、复琢创投等知名机构跟投,老股东合鼎共资本超额跟投。 | 融资历程 7 | | | | | | | 〔 导出数据, 联系商务 | © 企查查 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 序号 | 融资日期 | 融资轮次 | 融资金额 | 投资方 | | | 关联机构 | >> 来源 | | | ...
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2025-12-09 08:03
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为端到端等前沿技术的大规模量产起点将在明年[2] - 当前智能驾驶前沿技术发展放缓,行业量产方案趋于同质化,L2级智能驾驶正走下沉路线[2] - 随着明年L3级法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场现状与规模 - 二十万元以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在该价格区间的销量占比不足三分之一[2] - 搭载端到端量产方案的车型占比则更低[2] - 地平线公司宣布将进军10万元级市场,表明高阶智能驾驶正迅速向更多国民车型下沉[2] 技术落地与产业影响 - 端到端技术不仅仅是一个算法,其成熟落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套体系支持[2] - 端到端技术的成熟被视为更大规模量产的开端[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 近几个月,行业对端到端和VLA技术的学习与入门需求显著增加[3] 行业培训与人才需求 - 为应对技术升级需求,出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等关键模块[3] - 另有课程专注于VLA领域,内容从视觉语言模型作为解释器,覆盖到模块化、一体化及主流的推理增强型VLA[11] - 课程要求参与者具备一定的自动驾驶基础、了解Transformer大模型、强化学习、BEV感知等概念,并拥有Python和PyTorch编程能力[10]
智驾国产芯片格局变化
2025-12-08 23:36
行业与公司 * **行业**:智能驾驶(智驾)芯片与算法行业,涉及乘用车及Robotaxi/Robotone领域[1] * **主要公司**: * **整车厂**:蔚来、小鹏、理想、小米、比亚迪、奇瑞、吉利、长城、丰田、大众[1][3][4][5][6][7][9][10][11][12][13] * **芯片供应商**:英伟达、地平线、高通、黑芝麻、TI[1][4][7][9][10][11][12][17][22] * **算法/方案供应商**:Momenta、元戎[7][9][11][18][23][24][25] 核心观点与论据:车企智驾方案规划(2025-2026) * **蔚来汽车**:智驾方案全栈自研,主推世界模型但效果相对落后[1][3] 明年主要任务是提升车位到车位功能的接网率及处理复杂案例[1][3] 自研9031芯片已在ET9使用,明年将扩展至ET6、ET5、ES6和E6等车型,高端车型搭载两颗,中低端车型搭载一颗[3] 乐道和萤火虫系列预计仍将使用英伟达方案[1][3] * **小鹏汽车**:中高端车型(如G6、G7)将搭载自研图灵芯片,中端车一般配备两颗,高端车配备3至4颗,算力达1,000多TOPS[1][3] 算法重点在于VLA和世界模型的迭代,深度融合BL模块[1][3] 计划在Robotic业务线中使用4颗图灵芯片,优化Robot Taxi的通行效率和安全性[1][5] 还在开发第二颗算力高达2000多TOPS的高端芯片,但难度较大[21] * **理想汽车**:自研M100苏马赫芯片预计2026年Q2量产,首发于L9、I8等高端改款车型[1][5] AD Max系统将存在M100与地平线混合方案并存的情况[1][5] AD Pro系统继续采用地平线方案,但可能升级至G6H版本[1][5] 算法方面坚定走VOL路线,借鉴特斯拉架构[1][5] * **小米汽车**:计划在所有高端车型上采用英伟达42系列芯片[1][6] 自研玄戒O2芯片因未满足车规要求且量产难度大暂缓使用[6] 明年算法将采用以世界模型为主、语言模型辅助的架构,解决停车场出入、道路标识牌识别及城市通勤问题[1][6] * **比亚迪**:高端方案将升级至英伟达索尔方案,首发于仰望U8改款车型,由Momenta提供R6大模型plus版本算法[1][7] 终端方案天翼云B1有两个版本,一个继续使用Orin 3OX低成本方案,另一个可能使用地平线G6P[7] 计划大量采用Orin方案并替换地平线GLM低成本方案[1][7] 2026年Q3/Q4有望推出玄机芯片对标地平线G6M,应用于部分天使之眼C系列改款车型[2][8] * **奇瑞汽车**:2026年智能驾驶方案分多个层次[4][9] 猎鹰500系列主要采用地平线和高通8650平台,地平线方案占约60%份额[4][9] 猎鹰700系列采用双Orin X平台,供应商主要是Momenta[4][9] 猎鹰900系列使用Sora Ultra平台,正与元戎和Momenta接洽[9] * **吉利汽车**:智能驾驶布局涵盖低、中、高端车型[10] 低端车型(如千里浩瀚H3和H5)混用黑芝麻1,000和地平线Orin芯片[10] 中端车型(千里浩瀚H7)采用单Orin X和双Orin X芯片[10] 高端车型(千里浩瀚H9)使用Soar和双Soar芯片,将在极氪旗舰车如极氪001上首发[10] * **长城汽车**:智能驾驶解决方案分为三个平台[11] 低算力平台主要使用TI TDA 4VH芯片以及地平线GLM芯片[11] 中算力平台目前与Momenta合作[11] 高算力平台包括双Orin X和Soar,其中Soar预计将在2026年取代双Orin X[11] * **合资品牌**:预计丰田、大众等合资品牌将在2026年成为增量最大的第三方芯片采购商之一[4][12] 丰田计划从2026年Q2开始在国内新能源车及插电混动车型中引入新智驾方案,2027年扩展至更多混动车型[12][13] 大众计划从2026年Q2起加速智能化,大量采用地平线G6P及G6M解决方案[4][12][13] 核心观点与论据:芯片市场格局与成本趋势 * **增量采购商**:预计比亚迪、奇瑞、吉利、长城等自主品牌,以及丰田、大众等合资品牌将在2026年成为增量最大的第三方芯片采购商[4][12] * **成本趋势**: * 2025年中算力平台(如比亚迪天链B1)单车成本约为8,000-9,000元[14] 预计2026年成本将下降约10%,降至7,000元左右[14] * 低端方案(如地平线GO6M)硬件成本每年下降5%-7%[14] 若使用自研芯片,成本可降低30%,前提是出货量足够大[14] * 目前低端纯视觉方案(如地平线Orin M)整体报价在5,000-6,000元之间[14] * 高端方案(如索尔)目前报价集中在16,000-18,000元区间,预计2026年降本幅度较小,主要依赖软件供应商降价和出货量增加[14] * **具体芯片价格**:地平线G6P目前单芯片加软件的报价约为5,000元,加上传感器等其他组件后,总体方案价格在8,000-9,000元之间[15] 预计2026年G6P芯片自身降本15%左右,如比亚迪谈判可能达到20%[15] * **软件成本**:终端市场的软件授权费用可能随着出货量增加而下降,如从2000多元降至1,600-1,700元左右[16] 核心观点与论据:技术发展、供应链与市场预期 * **国产芯片现状**: * 国产低端芯片已能满足需求,但终端高算力芯片仍是空白,目前国内尚无对标英伟达Orin4的量产上市产品[21] * 在高端领域,国产芯片与英伟达相比在生态系统、训练迁移以及算力释放率方面仍有显著差距[21] 英伟达的算力释放率可达到85%到90%,而国产高端芯片通常仅为50%至70%[21] * **供应商动态**: * **Momenta**:优先主打中算力终端市场,以满足15万元级别车型对性价比的需求[18] 正在开发性能对标英伟达高端芯片的新产品[18] 其软件能力强,可以反过来定义硬件以实现软硬结合[25] * **黑芝麻**:A1,000主要应用于吉利的千里好汉H3和H5平台上的领克系列[22] A2000则定点于东风旗下某款新能源品牌车型[22] * **算法表现**:在复杂场景(如环岛、窄路、特殊路口)中,Momenta表现优于地平线[23][24] 在人车混流场景中,两者性能相近,但Momenta在无保护左转及对向车辆礼让策略上更聪明[24] * **Robotaxi领域**:目前以英伟达为主导,但国产厂商如地平线也有希望进入,有厂商已开始考虑使用地平线G6P方案以降低成本[17] * **技术平移**:乘用车与Robot Taxi技术平移成本较低,业内普遍通过已有量产乘用车进行适配,不增加额外传感器[27] * **出货量预期**:2024年智能驾驶系统出货量约为18万套[19] 预计2025年将达到45万套[19] 到2026年则有望突破百万级别[19] 2026年的出口量大约在2万到3万左右[20] * **自研与外采逻辑**:高端车使用自研芯片可以提高利润率并打出差异化[26] 低端车采用外采方案主要是因为成本低且出货量大,可以保证质量并实现性价比[26]
达晨财智领投 极佳视界完成2亿元A2轮融资
新浪财经· 2025-12-08 23:14
公司融资与业务进展 - 具身智能公司极佳视界近期完成2亿元人民币A2轮融资 由达晨财智领投 老股东华控基金联合领投 并有首发展创投 浦耀信晔 财鑫资本 珠海科技产业集团 张科垚坤 复琢创投等机构跟投 老股东合鼎共资本超额跟投 [1][3] - 公司在3个月内连续完成Pre-A Pre-A+ A1及A2共四轮融资 累计完成5亿元人民币A轮系列融资 [1][3] - 公司已于2025年11月26日发布相应本体 布局物理AGI的终端业务 [1][3] 公司产品与技术布局 - 公司产品矩阵为物理AI全栈软硬件产品 包括世界模型平台GigaWorld(驾驶和具身) 通用具身大脑GigaBrain 通用具身本体Maker [1][3] - 公司技术采用“世界模型+行动模型+强化学习”的原生范式 其中每一环节均以世界模型为驱动 [1][3] - 公司认为以“操作与上肢”为中心 能更好与物理世界交互 数据优先的原生本体是关键需求 “传感器-执行器-数采设备-通用模型”之间可规模化的闭环迭代价值凸显 [2][4] 行业趋势与公司观点 - 行业模型架构正向通用行动模型(如VLA与世界行动模型)收敛 数据来源转向以真机数据与世界模型生成数据为核心 学习方式形成“模仿学习+强化学习+世界模型”的通用范式 [2][4] - 世界模型正成为物理AGI在数据来源 学习方式与模型架构层面的核心驱动力 [2][4] - 公司认为物理AI正在进入全新的关键时代 未来2-3年是物理AGI突破的关键窗口期 物理世界的“ChatGPT时刻”正在加速到来 [2][5]
Roblox CEO感叹AI研究进展:曾博览群书的自己都快看不懂了
搜狐财经· 2025-12-08 19:28
行业研究动态 - AI研究更新速度飞快,新论文几乎每天出现,技术概念复杂,Roblox CEO认为想真正看懂所有论文极其困难[1] - AI研究浪潮规模巨大、速度惊人,从Transformer到扩散模型再到世界模型,内容多到难以完全掌握[3] - 随着AI从学界扩展到国家战略高度,Meta、微软等公司纷纷建立自己的研究部门,并以极高薪资吸引顶尖人才[3] - AI研究变得更封闭,2023年谷歌决定减少公开发表的AI论文,公司进入要靠内部知识竞争的阶段[3] - OpenAI联合创始人认为,真正决定AI走向的仍是研究本身,现在重新回到研究时代,只不过用的是更大的计算机[3] 公司观点与战略 - Roblox CEO在创业初期几乎读遍从物理模拟到图形渲染的各类研究且都能理解,但AI时代的到来改变了一切[3] - Roblox CEO的结论是,AI在三维世界里仍然处于非常初期的阶段[3] - AI依赖的是人类制造出来的文本和图像,是用自己创造的内容训练AI,而不是用真实世界的三维原始数据[3]
达晨、华控领投,极佳视界A2轮再融2亿,押注“世界模型+行动模型”原生架构
钛媒体APP· 2025-12-08 15:17
公司融资与团队背景 - 具身智能公司极佳视界在3个月内连续完成Pre-A、Pre-A+、A1及A2四轮融资,累计融资额达5亿元,其中A2轮融资2亿元 [2] - 本轮融资由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投,老股东合鼎共资本超额追加投资 [2] - 公司创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士背景,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人兼算法副总裁,并曾在三星中国研究院、微软亚洲研究院等顶尖科研机构工作 [2] - 创始人团队在过去十年深度参与并推动了物理AI从技术萌芽到产业落地的关键演进,带领团队在FRVT、COCO、VOT等全球最具影响力的视觉AI竞赛中多次斩获冠军,并实现多项技术的大规模产业化应用 [2] 核心技术优势与历史成就 - 在自动驾驶领域,公司团队提出的BEVDet系列方法已成为全球最具影响力的BEV感知范式之一,长期稳居nuScenes榜单首位,并已实现规模化量产 [3] - 团队主导了地平线AIDI平台(业内最大规模的数据闭环系统)以及百度Apollo仿真框架的研发与商业化落地,奠定了其在智能系统工程化方面的领先优势 [3] 行业趋势与公司战略判断 - 行业正加速向通用行动模型(如VLA与世界行动模型)演进,数据来源日益依赖真机实采与高保真世界模型合成,学习范式逐步统一为“模仿学习 + 强化学习 + 世界模型”的融合架构 [3] - 公司判断物理AI正迈入决定性突破的关键窗口期,未来2至3年将是物理AGI从实验室走向规模化落地的分水岭 [3] - 随着世界模型与行动模型的持续跃迁,属于物理世界的“ChatGPT时刻”正在加速到来 [3] - 公司面向具身智能新时代,率先提出“世界模型 + 行动模型 + 强化学习”的原生AGI范式,强调以世界模型为核心驱动力,贯通数据生成、模型训练与决策执行全链路 [3] 核心产品发布:模型与机器人平台 - 公司已正式发布两大物理AGI核心模型:原生行动模型GigaBrain-0与原生世界模型GigaWorld-0,并同步推出高自由度具身智能机器人平台Maker H01,共同构建端到端的具身智能系统 [4] - GigaBrain-0是一款基于视觉-语言-动作(VLA)架构的端到端决策控制模型,可融合图像、深度、文本及本体状态等多模态输入,输出结构化的任务规划与运动指令 [5] - GigaBrain-0重点强化了3D空间感知与结构化推理能力,以提升在复杂环境中的导航精度与长序列任务执行能力,具备更强的泛化性能 [5] - GigaWorld-0是公司自研的高质量世界模型,依托“GigaWorld”平台,通过几何一致、物理准确的建模机制生成高保真、可控且多样化的具身交互数据,实现高效“数据放大” [6] - GigaWorld-0构建了目前最完整的具身训练数据体系,在三大关键泛化维度(新纹理、新视角、新物体位置)上实现近300%的性能提升 [6] - 在PBench(Robot Set)基准测试中,GigaWorld-0以最小参数量实现最高整体性能,成为当前最具性价比的世界模型方案 [6] - Maker H01是专为家庭、商业服务与轻工业等开放场景设计的高自由度具身机器人,采用双臂 + 全向全驱移动底盘架构,全身拥有20+自由度,单臂支持公斤级负载,配备多指灵巧手爪 [6] - Maker H01标准版高度约1.6米,适配多种空间环境,适用于物品取放、巡检、接待、实验协助、仓储搬运等真实业务场景 [6] 产品性能与应用场景 - GigaBrain-0已成功应用于一系列高难度、长程的具身任务,在真实场景中展现出卓越的综合能力,能稳定高效地完成制作咖啡、叠衣服、整理卷纸、桌面清理、倒饮料、搬运箱子、拾取衣物等复杂任务 [5] - 在多项权威基准测试中,GigaBrain-0的任务成功率显著超越当前最先进的方法(SOTA) [5] - Maker H01不仅是可靠的作业平台,也是高效的算法验证载体,支持多种遥操作方案,并与自研“具身大脑”GigaBrain深度集成,实现抓取、搬运、协作等复杂动作的全身协同控制 [7] - 通过GigaBrain-0、GigaWorld-0与Maker H01的三位一体架构,公司正加速推动具身智能从实验室走向规模化落地,迈向真正“可用、可靠、可泛化”的物理AGI时代 [7]
哈萨比斯:DeepMind才是Scaling Law发现者,现在也没看到瓶颈
量子位· 2025-12-08 14:07
Scaling Law的现状与历史 - 谷歌DeepMind首席执行官哈萨比斯在Axios AI+峰会上力挺Scaling Law,认为其对于实现AGI至关重要[1][6] - 哈萨比斯指出,Scaling Law最早的发现者并非OpenAI,而是DeepMind团队,其内部在2017至2018年期间的研究已发现相关规律,并称之为“Chinchilla Scaling Laws”[6][14][17] - 基于对Scaling Law有效性的确认,DeepMind调整了研究方向并投入更多资源,这被认为是其在大模型领域取得成功、推动Gemini从1.0演进到3.0时代的关键[18] Scaling Law与AGI(通用人工智能)的关系 - 公司认为,无论AGI最终形态如何,Scaling都将是其中的关键组成部分,且当前Scaling尚未到达极限,有必要继续沿此路线将系统推向最大化[21][22] - 哈萨比斯提出,单靠Scaling Law也有可能达成AGI,因为大量数据和计算资源的投入是展现类人智慧能力的合理途径[7][23] - 同时,他也猜测实现AGI可能还需要一两个类似Transformer或AlphaGo级别的重大突破,并预测这个时间点可能在5到10年内[24][26] 对未来12个月AI发展的预测 - **多模态融合**:完整的多模态融合将是主流演进方向,谷歌DeepMind正全力推进,旨在通过交叉融合图像、视频、文本和音频来全面提升模型的推理和创造力[27][28][30] - **视觉智能突破**:以谷歌Nano Banana Pro等图像模型为例,视觉理解能力有显著进展,未来将在更丰富的分析、故事讲述和分步视觉推理方面继续探索[31][32][33] - **世界模型普及**:世界模型是行业关注重点,也是哈萨比斯个人的工作重点,例如谷歌8月上线的世界模型Genie 3,预计下一年该领域将持续受到业界关注[35][36][37] - **Agent可靠性提升**:哈萨比斯认为,现有Agent系统尚不完全可靠,但预计再有一年时间,Agent将能开始接近于可靠地完成委托任务[38][39][40] Gemini的发展与目标 - Gemini 3的成功验证了Scaling Law的有效性,其全网爆火被视为谷歌打了一场漂亮的翻身仗[4][5] - Gemini 3的独到之处在于个性化的深度、简洁的回答、温和反驳不合理观点的能力,并能一键式生成商业级游戏,展现了其基座架构在理解高层次指令和输出高精度细节方面的优势[43][44][45][46] - 公司对Gemini设定的最终目标是成为“通用万能助手”或“通用助手”,下一代Gemini将延续现有优势,出现在更多设备上并无缝融入日常生活,其使用频率将变得和使用手机一样频繁[9][41][46][47]
死磕技术的自动驾驶黄埔军校,又更新了这些技术进展......
自动驾驶之心· 2025-12-07 10:05
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区,该社区定位为国内首个自动驾驶全栈技术交流平台,汇集学术界与工业界资源,为从业者及学习者提供全面的技术内容、学习路线、行业资讯及求职内推服务 [8][25] - 社区核心价值在于降低行业入门壁垒,通过体系化的知识梳理和专家互动,帮助成员应对技术快速迭代和行业竞争,目标是打造一个近万人的技术分享与交流聚集地 [8][26] 社区概况与规模 - 社区已运营超过三年,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [8] - 目前社区成员已超过4000人,成员来自近300家机构与自动驾驶公司,目标在未来2年内做到近万人的规模 [8][104] - 社区成员背景多元,包括上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、小米汽车等头部公司 [25] 内容体系与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,内容全面覆盖从基础到前沿的各个领域 [11][14] - 技术方向具体包括:自动驾驶感知(如BEV感知、3D目标检测)、规划控制、端到端自动驾驶、VLA(视觉-语言-动作模型)、世界模型、多传感器融合、自动驾驶仿真、3DGS(3D Gaussian Splatting)、NeRF、扩散模型、Occupancy Network、视觉语言模型(VLM)、在线高精地图等 [11][16][25][34][45][47][49][51][53][56][58][60][64][65] - 提供了近60个自动驾驶相关数据集的汇总,包括通用CV数据集、感知数据集、轨迹预测数据集,并详细梳理了自动驾驶VLM的预训练、微调及思维链数据集 [43] - 汇总了近40个开源项目,涵盖3D目标检测、BEV感知、世界模型、自动驾驶大模型等多个领域,助力快速上手实践 [41] 学习资源与课程 - 社区提供原创的系列视频教程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划与轨迹预测、自动驾驶数据工程、2D/3D目标跟踪、自动驾驶仿真、端到端自动驾驶及大模型技术等八大方向 [17] - 为入门者准备了全栈方向的学习课程,包括数学基础、计算机视觉、深度学习、编程等资料,以及经典书籍和课程课件汇总,适合0基础学习者 [16][19] - 设有“自动驾驶100问”系列专题,内容涉及TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定、3D&4D毫米波雷达等工程实践问题 [16] 行业交流与活动 - 社区不定期邀请一线学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播,内容可反复观看 [12][92] - 直播分享主题前沿,例如:完全开源性能SOTA的端到端VLA模型“Impromptu VLA”、基于快慢神经符号系统的道路拓扑推理、让自动驾驶用自然语言交流的V2X研究、通用3D检测基础模型“DetAny3D”、基于扩散模型的规划算法“Diffusion Planner”等 [93] - 社区内部建立了与多家自动驾驶公司的岗位内推机制,可第一时间将成员简历推送给心仪公司 [17] - 日常交流问题涵盖技术学习、职业发展、行业趋势等,例如:端到端自动驾驶如何入门、多传感器融合就业前景、业内公司跳槽选择、博士研究方向等 [11][15][30] 社区特色与附加价值 - 社区致力于解答成员的各类实用问题,并提供快速解答,方便应用到实际项目中 [11] - 汇总了国内外自动驾驶与机器人领域的高校实验室和公司信息,为成员升学、求职提供参考 [35][37] - 打造了一个交流+技术分享的聚集地,旨在让初学者快速入门,让进阶者提升技能,并结交行业人脉 [8][26]
烧光700亿后,扎克伯格戳破元宇宙泡沫
新浪财经· 2025-12-06 14:24
文章核心观点 Meta Platforms Inc 正在进行一次重大的战略调整,核心是从高投入、低回报的元宇宙业务全面转向以人工智能为核心驱动力的新硬件时代 这一系列举措包括大幅削减元宇宙部门预算、引进高端设计人才、支持基础AI研究的独立探索 标志着公司对华尔街压力的务实回应和资源向更高回报领域聚焦的决心 [1][2][12][17][32] 预算撤回与人员调整 - 公司高管正考虑在2026年对元宇宙部门(Reality Labs)的预算进行高达30%的大规模削减 削减将主要集中于Meta Horizon Worlds社交平台和Quest VR头显硬件部门 [4][19] - 自2021年初以来,Reality Labs已累计亏损超过700亿美元 此次预算是公司在投入数百亿美元进行AI军备竞赛背景下 对市场压力的直接回应 [5][20] - 大幅财政收缩预计将最早于2026年1月启动裁员 涉及元宇宙部门约10%至30%的员工 [7][22] - 节省下来的资金预计将流向Reality Labs内部其他未来主义项目 主要是AI眼镜和其他可穿戴设备的研发 公司认为竞争对手在虚拟现实方面努力放缓 因此可以将资源投向更具商业潜力的领域 [8][22] 高端人才引进与设计战略 - 公司重金引进了苹果前UI设计负责人艾伦·戴伊 他将于12月31日加入并担任Reality Labs的首席设计官 直接向首席技术官汇报 表明设计美学被提升至战略核心地位 [8][23][24] - 艾伦·戴伊将领导一个全新的“创意工作室” 其使命是融合设计、时尚与科技以定义下一代AI产品与体验 核心工作是将苹果在用户界面的顶尖经验应用于Meta的AI硬件 [8][25] - 此次引援进一步确认了公司资源正从虚拟社交世界转向设计驱动、具备AI能力的高端可穿戴设备 Meta的Ray-Ban Meta智能眼镜已获得超出内部目标的销量成功并集成了AI助手功能 [8][26] 技术路线分歧与独立探索 - 公司首席AI科学家、图灵奖得主杨立昆宣布将于年底离开Meta 在欧洲创办专注于“世界模型”的新AI公司AMI 他公开批判硅谷主流生成式AI路线 认为当前大语言模型缺少实现人类级别智能的关键要素 [2][9][17][27] - 杨立昆的新公司AMI将采用一种“非生成式”的AI架构 专注于开发能够感知环境、理解物理世界、拥有持久记忆并能规划复杂行动序列的系统 [10][29] - 尽管杨立昆强调Meta首席执行官扎克伯格喜欢该项目 但双方一致认为其潜在应用已超出Meta的兴趣范畴 因此决定成立独立组织 AMI将与Meta建立合作关系并开放技术 但不会接受Meta投资以确保研究独立性 [11][30] 战略聚焦与未来方向 - 公司通过大幅削减元宇宙预算 将资源释放并集中投入到AI基础设施建设和已见市场回报的AI硬件上 以应对紧迫的AI军备竞赛 [12][32] - 引入以艾伦·戴伊为代表的顶尖设计人才 旨在确保下一代AI硬件在人机交互美学上拥有绝对优势 [12][32] - 允许杨立昆在基础AI理论上独立探索 是一种分散技术押注的高级风险管理策略 避免将所有未来赌注放在生成式模型单一赛道上 [12][32] - 消息公布后 公司股价应声大涨 市场反应积极 此次战略调整预示着公司正在快速摆脱元宇宙困境 全面转向一个以AI驱动、由顶级设计美学定义的新硬件时代 [6][12][21][32]