Workflow
世界模型
icon
搜索文档
AD智驾的2025年:监管刹车、技术狂飙,“地大华魔”四雄争霸
36氪· 2025-12-11 17:55
行业政策与宣传规范 - 2025年春季,工信部明确要求不得进行夸大和虚假宣传,严格履行告知义务,并将“组合驾驶辅助”定为官方表述,导致车企宣传话术中“自动驾驶”一词基本消失,被“辅助驾驶”、“智驾辅助”等中性表述取代 [1][3] - 政策规范促使行业从技术狂欢转向务实发展,安全与责任成为核心,智能驾驶虚假宣传被严打 [1][3] 车企技术发展路径:进阶与普惠 - 行业技术演进呈现“进阶”与“普惠”两大关键词 [5] - 小鹏汽车作为“进阶”代表,在2025年推出第二代VLA大模型,通过拿掉“Language”中间转译环节,实现端到端直接生成,让机器直接理解物理世界底层规律 [6][7] - “普惠”方面,比亚迪在2025年2月推出“天神之眼”高阶智驾系统,其DiPilot 100(天神之眼C)纯视觉方案瞄准10万元人民币市场,提供高速NOA和自动泊车 [11] - 吉利在2025年3月发布千里浩瀚智驾系统H1到H9五个版本,最激进的H9方案在极氪9X上配备双Thor芯片、1400TOPS算力及5颗激光雷达,走量的银河系列则采用H3方案,在2025年第二季度末全面上车 [11] 国际竞争者角色转变 - 特斯拉在2025年已不再是中国智能辅助驾驶头部企业的“标准答案”,其角色转变为与国内同行并肩探索的同路人 [13][14] - 特斯拉在2025年完成了多项架构与算法关键迭代,并搭建起名为“神经世界模拟器”的闭环仿真体系,其技术路径核心逻辑与国内企业深耕的VLA模型、世界模型高度契合 [13][14] 主要智驾科技公司生态竞争(“地大华魔”) - **地平线**:在2025年技术生态大会上,与行业达成以安全为基石、拟人化交互及成本拐点源于软硬件双重驱动三大核心共识 [19] - 地平线通过征程6P和HSD产品推动城区NOA大规模普及,目标是将最好用的城区辅助驾驶杀到10万元级国民车型,其HSD已搭载于深蓝L06和奇瑞星途ET5等15万级车型 [21] - 截至2025年上半年,地平线在中国自主品牌辅助驾驶计算方案市场份额增长至32.4%,在中国自主品牌ADAS前视一体机市场份额增长至45.8%,蝉联双市场份额第一 [21] - **卓驭科技(大疆)**:在2025年9月推出“成行智驾2.5”系统,将“两段式”端到端技术推向更成熟阶段,是业内唯一能基于7V+32TOPS芯片实现城市NOA功能的企业 [22] - 卓驭科技海外市场取得突破,欧洲总部落户德国,其与大众联合研发的IQ.PILOT系统通过A-SPICE CL2认证,成为国内首个通过大众集团及合资方三方联合审核的智能驾驶供应商 [24] - 卓驭科技已服务10家主机厂及十几个汽车品牌,2025年10月起大规模推送城市NOA方案,并于8月在燃油车上实现高速NOA方案量产推送,客户包括大众、奥迪、捷途、奇瑞等 [24] - **华为**:在2025年4月发布乾崑智驾ADS 4.0,其“WE-WA模型”不依赖语言中介,实现对延迟和算力消耗的极致压缩 [25][26] - 华为通过“五界”(赛力斯、奇瑞、江淮、上汽、北汽)、“三境”(广汽启境、东风奕境、五菱华境)等广泛合作“收割”朋友圈,并为北汽极狐、阿维塔等多个品牌提供全栈解决方案,合作方还包括日产、奥迪等合资品牌 [28] - 截至2025年11月,华为辅助驾驶里程突破63.8亿公里 [28] - **Momenta**:作为第三方智驾供应商,采取广交朋友、开放生态的发展策略 [29] - 2025年,Momenta合作版图爆发式扩张,4月与奥迪达成合作,7月与宝马官宣联手,其辅助驾驶方案也应用于比亚迪、广汽埃安、奇瑞、上汽通用、一汽丰田、东风日产等多个品牌车型 [31] - Momenta提供灵活的定制化合作模式,在算法和硬件层面赋予车企高度自主权 [31] - 截至2025年12月,Momenta获得的车型定点数量已超160款,预计2025年底累计装车量达60万-70万辆,2026年有望突破200万辆,2028年目标攀升至1000万辆 [32] 技术普及面临的非技术挑战 - 技术的成熟催生了“辅助驾驶神器”灰色产业链,电商平台出现模拟“用户介入”的方向盘装饰环等商品,实现“智驾免提示”,使车辆在驾驶者双手离开方向盘时不触发报警 [33] - 辅助驾驶系统在处理常规场景上已接近好用,但导致了用户“滥用”风险,系统安全架构与用户行为之间的信任问题成为真正挑战 [34][35]
自驾世界模型剩下的论文窗口期没多久了......
自动驾驶之心· 2025-12-11 08:05
行业趋势与研究方向 - 近期自动驾驶世界模型相关论文爆发式增长,涌现出MindDrive、Think Before You Drive、U4D、SparseWorld-TC、AD-R1、Percept-WAM等多项工作 [1] - 根据顶会接收规律,选题多为局部突破与可验证改进,并紧贴当年主旋律,例如2024年为多模态,2025年为视频生成 [1] - 参照2026年各大顶会中稿论文,预测今年年底至明年上半年的主旋律极有可能是世界模型,当前布局该方向具有前瞻性优势 [1] 公司业务与服务定位 - 公司提供自动驾驶、具身智能、机器人等方向的论文辅导服务,旨在帮助学生冲击高区或顶会论文发表 [2] - 服务内容包括掌握技术脉络、复现模型、产出1篇论文初稿及投稿指导 [2] - 公司旗下拥有自动驾驶之心、具身智能之心、3D视觉之心等多个技术自媒体平台,是国内最大的AI类技术自媒体平台之一 [3] - 公司深耕自动驾驶、具身智能、机器人等交叉学科领域多年,拥有国内顶尖的学术资源 [3] 服务团队与过往业绩 - 公司拥有超过300名专职于自动驾驶/具身智能方向的导师,导师来自全球QS排名前100的院校,并发表过多篇顶会、子刊及A/B会论文 [5] - 近3年累计辅导学员超过400名,中稿率高达96% [5] - 过往成功案例显示,学员覆盖博一至在职等不同阶段,辅导周期在2至4个月,成果发表于NEUROCOMPUTING(2区)、CVPR(顶会)、emnlp(顶会)等多种期刊与会议 [6] 服务内容与价值主张 - 服务旨在解决学生科研中的常见痛点,如导师指导不足、知识体系零散、对投稿流程不熟悉等 [4][7] - 具体帮助包括建立科研思维、系统掌握经典与前沿算法、结合模型理论与代码实践、将baseline深化拓展形成个人论文 [7] - 提供个性化论文指导、导师实时互动、录播无限回看、免费课后答疑及24小时无时差上课等服务 [13] - 提供从选题、调研、idea验证、代码、实验、润色、投稿到中稿的一站式科研服务,目标覆盖CCF-A/B/C、SCI1-4区及EI会议 [13] 目标客户与附加价值 - 主要服务方向包括三维重建、relighting、NVS、SLAM、点云处理、VLA、机器人导航、计算机视觉等 [10] - 目标学员需自带简历并具备一定的PyTorch基础 [10] - 服务满足多种需求,包括积累科研经验、提升职称、提高学术成就;提升人工智能领域从业者竞争力以助升职加薪;以及为考研、申博、留学提升简历含金量 [14] - 优秀学员有机会获得清北、MIT等名校推荐信,或被推荐至相关实验室实习;表现突出者可获内推至阿里达摩院、华为诺亚方舟等企业研发岗位 [19] 服务模式与保障 - 服务采用班主任全程督学模式,跟进学习进度 [17] - 提供精准导师匹配系统,根据学员研究方向、目标期刊和基础水平,从300多名导师中筛选3至5位最契合人选供学员选择 [18] - 为零基础学员提供基础课程,通过系统学习,据称6个月可完成一篇小论文 [17] - 提供预收定金后与名师meeting的机会,并承诺若不满意可免费更换老师或退款 [19]
中国AI走出差异化务实之路
中国青年报· 2025-12-10 15:28
"美国靠资本市场优势赌AGI,中国则在性价比和产业应用中找机会。" "如果大模型不能实现AGI(通用人工智能),那么当前美国大模型公司在算力上的海量投入,大概率 短期内是算不过账来的,这可能是当下最大的泡沫。"上海未来产业基金总经理、上海未来启点社区理 事长魏凡杰的判断,道出了当前AI领域的争议核心。 当全球AI投资经历了3年多的"狂热"后,"泡沫论"的声音最近在美国此起彼伏。11月9日高盛发布研报 称:AI领域出现了类似于互联网泡沫破裂前的五项危险征兆,甚至泡沫程度更高。北京大学新结构经 济学研究院院长林毅夫日前在第十届复旦首席经济学家论坛上表示,"十五五"期间,美国很可能出现人 工智能泡沫的破灭,且可能像2008年美国房地产市场泡沫那样,给美国带来金融危机甚至全世界的经济 危机。 11月29日,清华大学FIT楼,在2025年中国人工智能大会暨全国人工智能学院院长(系主任)年会上海 未来启点社区分论坛:觉醒之境——AI的下一代基础方程研讨会上,30余位来自学术界、产业界、投 资界的专业人士多角度勾勒出中国AI"挤泡沫、练内功、出实绩"的发展图景——不赌虚无缥缈的概念, 而是聚焦底层创新、产业适配和性价比提升 ...
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了
量子位· 2025-12-10 12:26
2025年AI行业发展主旋律 - 2025年AI行业的主线故事围绕开源与性能的双线竞速展开,开源模型与闭源旗舰在推理效率、训练范式和成本结构上展开竞争 [1] - 世界模型从论文概念发展为真实产品与公司战场,李飞飞与Yann LeCun分别押注不同路线,将“通向AGI的路”指向世界模型之争 [1] - 具身智能机器人和搭载的模型实现爆发式迭代,AI玩具、AI手机、AI PC、智能座舱等终端设备全面铺开,成为AI能力落地现实世界的关键试验田 [1] - 2025年被称为“Agent元年”,AI Agent实现了从“被动应答”到“主动规划执行”的质变,能够独立完成复杂任务,从概念验证步入规模化商业应用起点,引发制造、金融、办公、生活等各行业变革 [1] - 互联网正在进入Agent互联网时代 [2] - 在医疗、气象、工业等行业,AI与既有系统深度结合,逐步演化为关键基础设施的一部分,形成从云到端、由软入硬的紧密共生网络 [3] 2025人工智能年度领航企业 - 该榜单汇聚了技术领先、长期投入、产品落地与产业口碑等多重维度,代表了中国AI生态最具代表性的一批力量 [12] - 这些企业在2025年扮演了“造浪者”与“稳舵者”的双重角色,不断向产业输出新范式、新工具、新样板 [14] - 上榜企业包括但不限于:岩心科技、Rokid、阿里云、百川智能、百度、百融云创、出门问问、滴滴自动驾驶、飞书、粉笔、高德、格灵深瞳、光轮智能、国星宇航、好未来、哈啰、后摩智能、华为、火山引擎、阶跃星辰、京东科技、金山办公、九章云极、科大讯飞、快手、昆仑万维、浪潮信息、联汇科技、联想集团、零一万物、理想汽车、潞晨科技、蚂蚁集团、美团、面壁智能、摩尔线程、群核科技、趣丸科技、荣耀、商汤科技、生数科技、声网、深演智能、是石科技、腾讯、网易有道、未来医生、文远知行、无问芯穹、小满科技等 [16] 2025人工智能年度潜力创业公司 - 该榜单中的公司凭借硬核技术与自研基础模型脱颖而出,或踩准前沿方向快速突围,或深扎垂直场景将AI能力在细分领域发挥到极致 [18] - 这些公司在过去一年里算法与工程持续迭代、用户与收入稳步增长,获得资本与产业伙伴的双重验证 [19] - 上榜公司包括但不限于:PPIO、MetaGPT、BetterYeah、DeepWisdom、Dexmal、原力灵机、VAST、爱诗科技、戴盟机器人、北京人形机器人创新中心、海新智能、汇智智能、DILIGINE、加速进化、德警光学、九识智能、极峰科技、秘塔科技、灵心巧手、穹彻智能、趋境科技、商汤绝影、魔珐科技、深势科技、太初元碁等 [22] 2025人工智能年度杰出产品 - 年度杰出产品展现了从云到端、从屏幕到现实世界的完整应用链路,一端是深入日常沟通、搜索、创作的智能助手与国民级应用,另一端是嵌入企业工作流的智能协同平台和多维数据工具 [24] - 这些产品有的已触达千万用户,有的深藏系统幕后,共同勾勒出下一代应用的轮廓 [24] - 上榜产品包括但不限于:BetterYeah AI、百川智能的Baichuan-M2、蚂蚁集团的Agent开发平台、联想集团的ima.copilot、月之暗面的Kimi、腾讯的Kiro Agent、MiniMax的Linker Hand灵巧手、灵心巧手的OmAgent、小满科技的OKKI AiReach、联汇科技的Pi终端智能平台、PPIO的Agent沙箱、美图的RoboNeo、Dexmal的原力灵机、天工超级智能体、中国电信的AI视频创作平台、出门问问的TicNote Agents、昆仑万维的Skywork Super、字节跳动的The Real AI Engineer、VAST的Tripo AI、生数科技的Vidu、金山办公的WPS灵犀、RockAI的Yan 2.0 Preview、智谱的Z.ai、阿里云的自炼大模型服务与应用开发平台、百度的慧播星与网盘、中关村科金的得助大模型平台、高通的第五代骁龙8至尊版移动平台、字节跳动的豆包、飞书的多维表格、长猪AI、粉笔的AI系统班、后摩智能的漫界M50、阶跃星辰的阶跃AI、九章云极的九章智算云、快手的可灵AI、联想的个人超级智能体、蚂蚁集团的灵光、国星宇航的零碳太空计算中心、美团的龙猫LongCat、蚂蚁集团的百宝箱Tbox、秘塔科技的AI搜索、360集团的纳米蜂群智能体、阿里巴巴的千问APP、逐际动力的全自由度人形机器人、荣耀的MagicOS 10、云知声的山海大模型、商汤科技的大装置与小浣熊、声网的对话式AI引擎、深演智能的Deep Agent Neo、腾讯的混元3D、网易有道的词典、文远知行的Robotaxi GXR、无问芯穹的AI云、科大讯飞的星火APP与长智文、高德的小昌老师、猿力科技的小猿AI学习机、腾讯的元宝、浪潮信息的元脑SD200、知乎的直答、卓世科技的璇玑-智企、云徘科技的xGOS.AI企业运营超级智能体、上海人工智能实验室的『书生』科学多模态大模型Intern-S1等 [27][28][29] 2025人工智能年度杰出解决方案 - AI正通过一整套解决方案在系统深处重写行业运行方式,榜单涵盖了各个领域内的多个方向,将前沿算法装进成熟产品形态,扎进真实业务流程 [30][31] - 这些面向具体场景的解决方案加速了大模型、Agent、世界模型与具身智能在千行百业的深度融合 [31] - 上榜解决方案包括但不限于:亚马逊云科技的Amazon Bedrock、京东集团的JoyInside AgentCore时身智能、趋境科技的KLLM变革级大模型推理引擎系统、阿里商旅与飞猪的AI解决方案、阿里云的无影AgentBay、快手的超级员工Kwali、滴滴自动驾驶的L4技术方案4.0、百度的PaddleOCR-VL多模态文档解析、优必选的Walker S2工业人形机器人、九识智能的无人驾驶多场景配送解决方案、好未来的九章爱学多模态智能学伴解决方案、联想集团的联想混合式人工智能优势集、蚂蚁数科的Agentar企业级智能体解决方案、零一万物的哈萨克斯坦AlemLLM语言模型、趣丸科技的趣丸千音、商汤科技的日日新大模型等 [33] 2025人工智能年度焦点人物 - 该榜单人物包括押注艰难方向的创业者、大体量平台的掌舵者、以产品和业务增长证明路线的实践者、以科学研究和开放协作拉高技术上限的研究者,以及在科研、产业与资本之间搭桥的串联者 [35] - 他们为AI发展写下最具辨识度的注脚 [36] - 上榜人物包括但不限于:PPIO的姚欣、百川智能的王小川、百度的李彦宏、北京智源人工智能研究院的王仲远、出门问问的李志飞、阶跃星辰的姜大昕、九章云极DataCanvas的方磊、昆仑万维的方汉、联汇科技的赵天成、理想汽车的李想、潞晨科技的尤洋、零一万物的李开复、摩尔线程的张建中、清华大学的吴翼、清华大学智能产业研究院的张亚勤、穹彻智能的卢策吾、上海人工智能实验室的周伯文、商汤科技的王晓刚、生数科技的骆怡航、是石科技的闫博文、太初元碁的乔梁、文远知行WeRide的韩旭、无问芯穹的夏立雪、小马智行的彭军、小宿科技的杜知恒、北京大学及银河通用的周剑、优必选的周剑、月之暗面的黄伟、云知声的黄伟、字树科技的王兴兴、浙江大学及蚂蚁集团的赵俊博、智平方的郭彦东、智谱的张鹏、智象未来的梅涛、智元机器人的彭志辉、中关村科金的喻友平、卓世科技的層静、逐际动力的张巍、自变量机器人的王潜等 [38][39][40][41][42][43][44][45][46][47][48][49][50][51][52][53][54][55][56][57][58][59][60][61][62][63][64][65][66][67][68][69][70][71][72][73][74][75][76][77][78][79][80][81][82][83][84][85][86][87][88][89][90][91][92][93][94][95][96][97][98][99][100][101][102][103][104][105][106][107][108][109]
安向京:无人驾驶终端具身移动 是充满想象力的新赛道
新浪财经· 2025-12-10 10:37
12月8日-9日,在2025地平线技术生态大会期间,行深智能CEO 安向京 莅临新浪汽车高端访谈间时表示:未来不再是送一个一个具体的东西,而是实现空间 转移平台的管理,把物流变成空间转移。不同的物流企业,甚至能服务快递、生鲜、烟草、预制菜等等广大的物流城配体系,甚至更进一步可以服务环卫、 服务安防,甚至包括煤气泄露的巡检等等一系列的应用,所有的终端移动的应用或者是具身移动的应用,都可以被无人驾驶的能力所覆盖和赋能,这个就是 非常有想象力的空间和有想象力的赛道。 以下为专访实录 新浪汽车:感谢安总来到新浪汽车的直播间,安总简单地和大家打个招呼。 安向京:大好!我是行深智能的安向京,我们行深智能是2017年成立的,到现在已经有八年了,我们聚焦在L4的末端无人物流赛道上。 新浪汽车:您刚才说到了末端无人赛道L4级,这和我们理解的最后一公里有什么具体的场景吗? 行深智能CEO 安向京(右) 安向京:对,末端在物流领域大概是这么分,分干线物流、支线物流和末端物流,所以说末端物流基本上涵盖了城配以及您刚才说的最后一公里,甚至最后 50米所有的场景,所以末端物流的概念相对可能比最后一公里要大一点,一般最后一公里的概念都是老 ...
澳门大学首个世界模型驱动的视觉定位框架!
自动驾驶之心· 2025-12-10 08:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Haicheng Liao等 编辑 | 自动驾驶之心 在自动驾驶的交互场景中,最尴尬的时刻莫过于此: 乘客指着前方复杂的路口说:"跟着那辆SUV"。自动驾驶系统看着眼前三辆长得差不多的车,内心OS:"哪辆?是左边那辆?还是正在变道那辆?" 现有的自动驾驶视觉定位(Visual Grounding)模型,大多像是一个" 只会看图说话 "的愣头青。它们盯着当前的这一帧画面,试图从 像素 里找答案。一旦指令模糊, 或者目标被遮挡,它们就很容易"指鹿为马",甚至引发错误推理。 人类司机为什么不会弄错?因为我们会" 预判 "。 当我们听到指令时,大脑里会瞬间推演未来的画面:左边那辆车马上要转弯了,不符合"跟着"的语境;只有中间那辆车在加速直行,才是最可能的意图。 "在行动之前,先思考未来"。 受此启发,来自[澳门大学]的研究团队提出了全新的框架 ThinkDeeper。这是首个将世界模型(World Model)引入自动驾驶视觉定位的研究。这项工作不仅刷 ...
世界模型自动驾驶小班课!特斯拉世界模型、视频&OCC生成速通
自动驾驶之心· 2025-12-10 03:00
早鸟优惠!开课即止~ 讲师介绍 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 Jason老师新课《世界模型与自动驾驶小班课》正式推出啦! 自动驾驶之心联合 工业界大佬 共同开展,先前的《端到端与VLA自动驾驶小班课》备受大家好评,因 此我们进一步推出这门世界模型小班课, 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大 家加入学习~ Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量 产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 课程大纲 这门课程讲如何展开 第一章:世界模型介绍 第一章主要针对自动驾驶世界模型概括性的内容讲解。 这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案 例。然后介绍世界模型有哪些流派:纯仿真的世界模型、仿真+Planning、生成传感器输入、生成感知结果 ...
随到随学!端到端与VLA自动驾驶小班课正式结课
自动驾驶之心· 2025-12-10 03:00
行业技术发展趋势 - 2023年是端到端自动驾驶量产的元年,2024年将是其量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要技术范式:一段式(如UniAD,从传感器输入直接建模自车轨迹)和二段式(基于感知结果进一步输出自车及他车轨迹) [1] - 自2023年以来,一段式端到端技术发展迅速,衍生出基于感知、世界模型、扩散模型及视觉语言模型(VLA)等多种方法 [3] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研与量产 [3] - 基于视觉语言模型(VLA)的端到端方法被认为是目前该领域的皇冠,上限高且难度大,因此业内招聘需求也最为旺盛 [12] 课程核心内容与结构 - 课程旨在系统讲解端到端与VLA自动驾驶,内容涵盖BEV感知、视觉语言模型、扩散模型、强化学习等前沿技术栈 [5] - 第一章介绍端到端算法的发展历史、概念起源、从模块化到端到端的演进,以及一段式、二段式和VLA范式的优缺点与适用场景 [8] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,这些被认为是未来两年求职面试的高频技术关键词 [8][9] - 第三章聚焦二段式端到端,解析其定义、出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新的Plan-R1等工作 [9] - 第四章作为课程精华,深入讲解一段式端到端的各个子领域:基于感知的UniAD、基于世界模型、基于扩散模型以及基于VLA的方法 [10] - 第五章设置RLHF微调大作业,进行实战演练,内容包括预训练与强化学习模块搭建,该技能可迁移至VLA相关算法 [11][13] 关键技术详解与实战案例 - 基于感知的一段式方法将讲解奠基之作UniAD、地平线VAD以及CVPR'24的PARA-Drive [12] - 基于世界模型的方法将讲解AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,世界模型技术方向热门,应用广泛,包括场景生成、端到端驾驶和闭环仿真 [12] - 基于扩散模型的方法将讲解业内应用广泛的DiffusionDrive、Diffusion Planner和吉大的DiffE2E,并配有Diffusion Planner实战,扩散模型用于多模轨迹预测以更好适应环境不确定性 [12] - 基于VLA的方法将讲解小米的ORION、慕尼黑工大的OpenDriveVLA以及最新的ReCogDrive,并以小米ORION(截至2025年7月已开源推理和评测模块)作为实战案例 [12] - 课程第二章将详细拆解多项基础技术:从Transformer扩展到视觉Transformer,讲解CLIP和LLaVA;详解BEV感知在3D检测、车道线、OCC、轨迹预测与规划中的应用;讲解扩散模型理论;以及VLM相关的强化学习技术如RLHF和GRPO [11] 课程目标与受众要求 - 该课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地 [14] - 期望学员学完后能达到具备1年左右经验的端到端自动驾驶算法工程师水平 [16] - 学员需自备GPU,推荐算力在RTX 4090及以上;需具备一定的自动驾驶领域基础,熟悉基本模块;了解transformer大模型、强化学习、BEV感知等基本概念;具备概率论、线性代数基础及Python和PyTorch编程能力 [16] - 课程收获包括:掌握涵盖一段式、两段式、世界模型、扩散模型等的端到端技术框架;对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻理解;可复现扩散模型、VLA等主流算法框架;能够将所学应用于实际项目设计 [16]
端到端落地小班课:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-10 03:00
讲师介绍 王路, C9本科+QS50 PhD,已发表CCF-A和CCF-B论文若干。现任国内TOP tier1算法专家,目前从事大模型、世界模型等前沿算法的预研和量产,所研发算法已成功 落地并量产,拥有丰富的端到端算法研发和实战经验。 课程大纲 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这两天和业内一位招聘朋友聊了聊,现在自驾的招聘需求在悄悄的发生一些变化。两年前热门的感知岗位进一步收缩, 目前需求较高的在端到端、VLA、世界模型 等方向上。 头部玩家已经验证了端到端这条路走的通,其他车企也开始铺 从模型优化、场景优化、数据优化,再到下游的规划兜底 人力和资源跟进。但候选人往 往只懂一部分,这些岗位其实涉及的技术栈很广。具体的量产经验如导航信息的引入、强化学习调优、轨迹的建模及优化都有很多门道,都是实际的落地痛点。 为 此我们花了三个月的时间设计了端到端量产进阶课程,从实战到落地层层展开。 该课程涉及的核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 等,最后分享一些实 ...
Khosla 继 OpenAI 后的最大赌注,General Intuition 凭 38 亿个游戏高光片段做世界模型
海外独角兽· 2025-12-09 20:05
编译:Haozhen、Gemini 而支撑这场豪赌的理由之一就是 General Intuition 拥有一个业内无法复制的独特数据集。 General Intuition 是从游戏高光片段剪辑平台 Medal 中分拆而来,拥有超过 38 亿个游戏短视频片 段。与传统机器人或仿真数据不同,Pim 认为高光片段是人类在模拟环境中的情景记忆(Episodic Memory),是对人类直觉、反应和决策最密集的数字化记录。 如果说 OpenAI 通过 ChatGPT 解决了人类的"认知与逻辑",让机器学会了像人类一样进行复杂思 考、推理与 coding,那么 General Intuition 希望赋予机器像人类一样的"直觉和物理常识",使机器 能够在本能层面理解物理世界的空间关系。 在 CEO Pim de Witte 的构想中,LLM 负责思考与规划(Next Token), General Intuition 则基于自 身的数据优势承担行动与交互(Next Action),两者形成互补的智能结构。团队 希望从游戏场景起 步,经由模拟环境走向自动驾驶,再延伸至机器人与物理世界,终极愿景就是实现"Atoms to ...