端到端自动驾驶
搜索文档
钉钉大楼换LOGO硬刚飞书,网友:商战总是朴实无华;马斯克团队摸底中国光伏产业链,A股巨头回应;断友商后路?元宝回应被微信「封了」
雷峰网· 2026-02-05 09:08
光伏产业与特斯拉/SpaceX动态 - 马斯克旗下团队近期“摸底”中国光伏产业链,其中SpaceX团队已与国内某头部异质结设备厂有订单合作,Tesla团队处于验厂阶段[4] - 光伏组件龙头晶科能源确认与马斯克团队相关考察团有过接触,考察团对公司的技术储备、生产设备进行了了解[4][5] - 受此消息影响,2月4日午后光伏板块集体上涨,晶科能源股价涨停[5] 中国科技公司品牌与商战 - 钉钉更换杭州总部大楼LOGO为齐天大圣形象,被网友解读为针对隔壁飞书大楼更高LOGO的“朴实商战”[7] - 钉钉吉祥物“钉三多”此前通过与其他品牌IP联动玩梗,已成为品牌“整活高手”[8] 零售与高管变动 - 大润发母公司高鑫零售公告,暂时无法与入职仅两个月的CEO李卫平取得联系[10] - 此前公司曾否认李卫平被带走调查的传闻,称其正常上班,但次日公告“打脸”[10] - 李卫平在零售行业有逾20年经验,此前长期任职于盒马,其接任被视为高鑫零售的自救之举[10][11] - 高鑫零售2026财年中期业绩显示,营业收入305.02亿元,同比下滑12.01%,经营溢利2.71亿元,同比降幅达56.4%,公司权益股东应占利润由盈转亏,亏损1.23亿元[11] 互联网平台生态与竞争 - 腾讯旗下AI应用“元宝”的春节红包分享链接被微信屏蔽,显示包含诱导行为,随后元宝优化调整为“口令红包”[12] - 微信公关总监回应称“用户体验第一,一视同仁”,并配文“我发起疯来自己都打”[12] - 百度文心助手的红包分享链接同样被微信屏蔽,目前也疑似变更为口令红包[13] - 腾讯元宝、百度文心、阿里千问均在布局春节红包活动,元宝计划分10亿现金红包[13] 消费电子与硬件新品 - vivo确认已在2025年底内部立项Vlog相机,产品对标大疆pocket系列,预计2026年发布[15][16] - 公司近期公布了“云台设备”相关发明专利,涉及可收纳式镜头组件设计[16] - 影石(Insta360)推出“Think Gold”新年特别活动,购买指定套装有机会获赠logo镶嵌1克足金的“隐藏款”相机,全国限量99份[18][19] 人工智能与内容生态 - 马云现身阿里千问项目组办公点,该项目将于2月6日启动30亿元“千问春节请客计划”,活动形式包括吃喝玩乐免单及大额现金红包[21] - 千问APP已接入淘宝、支付宝等阿里生态场景测试AI购物功能,并独家冠名四大卫视马年春节晚会[21] - 在AI智能体OpenClaw的模型调用量中,月之暗面的Kimi K2.5超过Gemini 3 Flash等模型排名第一[27] 社交媒体与投资动态 - 一家头部美元基金在2025年底以500亿美元(约3500亿人民币)的估值,出售了手中部分小红书的老股,此前圈内估值约为2200亿人民币[23] - 小红书在2025年因“TikTok难民潮”用户暴涨,一度登顶App Store美区排行榜,月活用户(MAU)已突破3.5亿,用户日均使用时长超74分钟[24] - 数据显示,小红书2024年整体利润翻倍,超过10亿美元,预计2025年利润达30亿美元[24] 产品质量与消费者权益 - 网友反映荣事达空气炸锅调节温度的旋钮是“装饰品”,拆机发现旋钮下方未连接温控线,有商家称设计仅为“对称”[25] - 律师解读认为,若宣传有温控功能实际无效,则涉嫌虚假宣传[25] 音频品牌营销 - 1MORE万魔耳机推出周杰伦生日限定“心动礼盒”,包含复古头戴式耳机及玩偶套装,售价599元[29] - 周杰伦自2016年起担任1MORE创意官已满10年[29] 汽车行业薪酬与人事 - 国资委披露央企负责人任期激励收入,中国一汽董事长邱现东任期激励收入82.54万元,2024年应付年薪90.97万元,合计年收入约120万元[31] - 东风汽车集团董事长杨青三年任期激励收入合计58.72万元,2024年应付年薪86.86万元,合计年收入约110万元[31] - 民营企业采用不同薪酬模式,如吉利CEO年薪达3201万元,理想汽车CEO李想2024年公开年薪266万元,但期权激励可达数亿元[32] - 2025年央国企薪酬改革“限薪令”落地,对负责人年薪与职工平均工资倍数做出限定[32] 自动驾驶与机器人创业 - 华为前首席科学家陈亦伦透露,其团队在2020年主导华为ADS时已开始研发端到端自动驾驶系统,比特斯拉更早[33] - 当时团队用3万行代码训练的网络替代了原有的200万行代码,实现了最早的“两段式”端到端自动驾驶[33] - 前云度汽车CEO林密已低调再创业,入局工业工艺机器人赛道,聚焦AI喷涂机器人,核心团队有30多名博士[34] - 据不完全统计,目前至少有30位智能驾驶赛道行业大佬跨界到机器人赛道创业[35] 汽车市场与生产 - 广汽本田新飞度限量3000辆上市后已售罄,后续将不再安排生产,该车型在华累计用户近150万[37] 内容产业与IP合作 - 中文在线与腾讯达成金额2320万元的漫剧授权合作,腾讯同日推出首款漫剧独立App“火龙漫剧”[38] - 腾讯、百度等巨头纷纷推出独立漫剧App,平台竞争加剧,或标志进入内容入口竞争时期[39] 半导体与GPU产业 - 沐曦股份披露,将使用不超过29亿元的闲置募集资金进行现金管理,公司IPO募集资金净额为38.99亿元[39][40] - 公司募投项目包括新型高性能通用GPU研发及产业化项目,其中C600及C700产品计划使用募集资金8.41亿元及16.18亿元[40] - Intel已彻底搁置锐炫B770高端消费级显卡项目,主要因缺乏财务可行性,其核心芯片将转向用于专业卡锐炫Pro B70[53][54] - 专业卡预计2026年一季度发布,配备32GB显存,主攻本地AI工作站市场[54] 科技与文化盛会 - 2026年央视春晚将再次应用具身机器人,并首次使用“央视听媒体大模型2.0”于内容制作,提升效率[41] 知名投资者观点 - 段永平表示,特斯拉FSD确实好用,开特斯拉已是其首选,但投资特斯拉基本看的是“市梦率”,完全靠蒙[41][42] 国际企业裁员与业务调整 - 松下控股宣布全球裁员规模从1万人扩大至1.2万人,预计带来约300亿日元(约13.37亿元人民币)的结构改革费用[45] - 公司AI应用“Umi”项目进度将“回归白纸”推倒重来,本财年销售额预计下降9%至7.7万亿日元(约3431.04亿元人民币)[45] - 真我(realme)回归OPPO成为旗下子品牌后,其印度公司开始实施成本削减计划,并对销售团队进行裁员[46] - 印度部分地区员工已收到裁员通知,最后工作日期可能为4月30日[46] 存储芯片与AI热潮 - 三星电子市值突破1000万亿韩元(约6880亿美元),成为韩国首家达到此里程碑的公司[49] - AI基础设施投资热潮推高存储芯片需求,三星股价自去年10月以来不断刷新高位,今年已累计上涨约41%[49] - 公司第四季度营业利润同比增长208%,计划扩大在高端高带宽内存(HBM)领域的市场份额[50] - 三星与SK海力士预计上半年继续大幅提高NAND闪存价格,产品利润率或达40%至50%,为近十年最高水平[50][51] 游戏主机与芯片 - AMD CEO苏姿丰透露,为微软下一代Xbox定制的SoC开发进展顺利,将为2027年的发布提供支持[52] IPO与资本市场 - 世盟股份在深交所上市,新股募集资金6.46亿元,公司主要从事综合物流服务[56] - 公司2020-2024年营收从4.59亿元增长至10.28亿元,净利润从6547万元增长至1.7亿元[57] - 国恩科技在港交所上市,香港公开发售获2251.85倍超额认购,公司是中国最大的聚苯乙烯生产企业[57][58] - 东鹏饮料在港交所主板挂牌上市,募资规模达101亿港元,成为亚洲消费饮料行业近年最大规模IPO[58] - 公司核心产品“东鹏特饮”2024年收入逾133亿元,“东鹏补水啦”产品推出第二年收入近15亿元,按年增速达280.4%[59] - 按销量计,公司在中国功能饮料市场自2021年起连续4年排名第一,市场份额从2021年的15.0%增长到2024年的26.3%[59] - 丹诺医药在港交所递交招股书,拟香港主板IPO上市,公司专注于细菌感染领域的创新药研发[60]
雷军官宣小米多篇最新研究成果成功入选ICLR 2026国际顶级会议
搜狐财经· 2026-02-03 11:13
人工智能学术研究进展 - 小米公司团队在人工智能领域的多篇最新研究成果成功入选国际顶级会议ICLR 2026,研究方向涵盖多模态推理、强化学习、GUI Agent、端到端自动驾驶以及音频生成等多个前沿领域 [1] 强化学习效率优化框架 - 针对多模态大语言模型强化学习训练中存在的“优势坍缩”和“轨迹沉默”现象导致的效率低下问题,公司提出了名为Shuffle-R1的高效强化学习框架 [3] - Shuffle-R1框架包含两项核心设计:成对轨迹采样以提高梯度信号质量,以及基于优势的批次重排序以增加有价值轨迹的曝光率 [4] - 实验结果表明,Shuffle-R1在增加极少计算开销的前提下,在多个多模态推理基准上稳定超越了多种强化学习基线方法 [4] 移动GUI Agent过程监督框架 - 针对Mobile GUI Agent在真实落地中面临的高质量思考轨迹稀缺和中间推理步骤监督成本高的瓶颈,公司提出了MobileIPL迭代偏好学习框架 [7] - MobileIPL包含Thinking-level DPO和Instruction Evolution三阶段指令演化机制,旨在以高效、可扩展的方式实现对模型思考过程的监督与优化 [8] - 该框架在AITZ、AMEX、AndroidControl等主流GUI-Agent基准测试中取得了SOTA(最先进水平),并在分布外场景中展现出更强的泛化鲁棒性与稳定性 [8] 小语言模型推理能力增强框架 - 为解决小语言模型在复杂推理和检索任务中性能受限的问题,公司提出了名为FutureMind的模块化推理框架,该框架无需额外训练和增加参数 [12] - FutureMind通过自适应知识蒸馏从大型语言模型中提炼高级认知能力,构建了由问题分析、逻辑推理、策略规划与检索指导模块组成的动态推理流水线,并辅以三种不同的检索范式 [12] - 在多跳问答基准测试上,FutureMind超越了如Search-o1等多项强基线模型,在不同模型架构和规模下均在无需额外训练的前提下实现了SOTA水平 [13] 全模态推理能力迁移框架 - 针对全模态大模型“感知强、推理弱”以及通过训练提升推理能力成本高昂的挑战,公司提出了名为ThinkOmni的Training-free(免训练)框架 [16] - ThinkOmni框架旨在将成熟的文本推理能力“零成本迁移”至全模态场景,核心组件包括利用现成的推理大模型进行指导的解码过程以及自适应平衡感知与推理信号的策略 [16][17] - 该框架在六个多模态推理基准上均展现出一致的性能提升 [17] 移动Agent评估基准 - 公司推出了名为SMAN-Bench的跨系统、多维度移动Agent评估基准,以解决现有评测中在线环境不稳定与离线轨迹过于单一的对立难题 [20] - 该基准基于大规模图结构语料Mobile3M构建,首创了基于槽位的指令生成方法,并引入了真实广告噪声与交互式模糊指令,以构建高保真的移动操作模拟环境 [20] - SMAN-Bench为量化评估多模态大模型在复杂长程任务中的规划能力、抗干扰鲁棒性及主动交互智能提供了实验平台 [20] 高效音频生成框架 - 针对现有音频生成方法中GAN收敛缓慢和扩散类方法推理计算开销大的问题,公司提出了名为Flow2GAN的两阶段音频生成框架 [23] 1. 该框架首先利用改进的Flow Matching预训练学习生成能力,随后通过轻量GAN微调实现高效的少步乃至单步推理 [24] 2. 改进包括将目标函数重构为端点估计以避免优化困难,以及引入基于谱能量的损失缩放策略以强化对低能量区域的建模 [24] 3. 此外,设计了一种多分支网络结构在不同时间-频率分辨率下建模,提升了音频建模能力 [24] - 实验结果表明,Flow2GAN能够从Mel频谱或离散音频token中生成高保真音频,在生成质量与计算效率的权衡上优于现有最先进的GAN及Flow Matching方法 [24]
英伟达-特斯拉FSD深度体验交流
2026-01-20 09:50
纪要涉及的行业或公司 * **行业**:自动驾驶与Robotaxi(无人驾驶出租车)行业[1] * **主要涉及公司**: * **特斯拉 (Tesla)**:Robotaxi业务进展、FSD技术、Cybercab计划[1][4][5][9][11][12][13][14][17][18] * **Waymo**:全球最大Robotaxi运营商,基于规则的技术路线[1][2][5][8][10][15][16][17][25] * **英伟达 (NVIDIA)**:端到端自动驾驶模型、市场策略[1][3][9][20][23] * **其他提及公司**:Zoox(亚马逊旗下)[6]、路克斯 (Lux)[7]、奔驰 (Mercedes-Benz)[9][21]、Momenta[21][22][23]、通用Cruise[6]、地平线、小鹏汽车[25] 核心观点与论据 * **Waymo的运营现状与挑战** * **运营规模**:全球最大Robotaxi运营商,拥有**2,500辆车**,但规模远低于预期[2] * **优势**:软件应用、响应速度、供给匹配出色,综合体验完善[1][2];已进入稳定运营阶段,在旧金山压制了Lyft和Uber的市场份额[17] * **劣势与挑战**:基于规则的系统在限定区域表现最佳,但**可扩展性受限**[1][2][25];转向端到端模式面临巨大技术栈转换挑战和监管压力[1][10];早期运营需要地勤处理用户忘关门等问题[19] * **特斯拉Robotaxi的进展与特点** * **运营规模**:在加州投放约**150辆车**,奥斯汀不到**50辆车**,总计约**200辆**[4][11][18];在奥斯汀有**3-4辆车**进行完全无人内部测试[4][12] * **技术路线**:不依赖高清地图,使用开源地图数据,覆盖路段更广,**注重泛化性**[1][4][5];Robotaxi运行模型与量产车FSD V14基本一致[1][5] * **用户体验与定价**:App已开放注册,价格较低(例:旧金山到英伟达总部费用**不到30美元**,Uber为**50-60美元**)[4];等待时间较长(**15-25分钟**),私密性不如Waymo[4];可利用特斯拉生态系统同步个人设置[15] * **关键挑战**:软件稳定性和极低故障率是关键,现实部署需要**极高稳定性**[1][13];体验中每打**3-4次车**可能出现一次需要接管[14] * **未来发展**:**Cybercab计划4月投产**,当前重点是测试和暴露问题,为量产积累经验[18];通过设计电动门减少地勤需求[1][19] * **英伟达的自动驾驶布局** * **技术展示**:搭载奔驰CLA的端到端自动驾驶模型表现超预期,测试全程仅接管一次[9] * **市场计划**:计划**2026年第一季度**覆盖整个加州,并逐步扩展至整个北美;欧洲因GDPR仅提供L2方案[9] * **业务策略**:未放弃激光雷达,根据客户需求提供选项(如禾赛科技)[3][20];自身未发布正式Robotaxi方案[3][20];**已决定不进入中国市场**开展自动驾驶业务,专注于欧美市场,将奔驰中国业务交给Momenta[3][23] * **其他竞争格局** * **北美市场**:Zoox是排名第三的重要玩家,但进度稍落后[6];路克斯(Lux)在CES期间作为官方合作伙伴,但体验落后,运营模式受限(固定站点)[7] * **公司基因对比**:Waymo背靠谷歌,拥有AI基因和强大资源[2][8];特斯拉拥有软件AI基因、大规模制造和全生命周期运营能力[8];亚马逊在AI领域相对较弱[8] * **技术路线对比** * **Waymo**:基于规则+高清地图+激光雷达,在限定区域内提供最优解[5] * **特斯拉**:纯视觉+开源地图,更注重泛化性和扩展性[5] * **奔驰CLA/英伟达方案**:纯视觉单目方案,无需高精地图,在旧金山复杂交通中表现良好[21] * **中美市场与监管环境** * **监管进度**:美国和中国是全球自动驾驶监管**最激进、进度基本持平**的两个国家[3][26] * **地方支持差异**: * **美国**:各州自治程度高,推动进展缓慢;马斯克正推动将监管权提升至联邦层面[24] * **中国**:地方政府间存在竞争(如深圳、广州、重庆宣布支持),但支持可能仅限于表面[24] * **技术发展差异**:中国交通环境更复杂,但美国也需要博弈能力;不同市场的方案存在水土不服问题(如Momenta与吴昕方案)[22] 其他重要但可能被忽略的内容 * **地勤服务的重要性**:对自动驾驶汽车**至关重要**,完全无人驾驶仍需地勤支持[1][19] * **特斯拉的融入优势**:因传感器不显眼,**融入城市的速度较快**,普通用户难以分辨[17] * **Waymo的覆盖能力**:在旧金山已覆盖包括唐人街等最具挑战性的区域[25] * **用户群体差异**:Waymo以高溢价面向普通人;特斯拉当前主要用户是科技圈发烧友[17] * **数据驱动模式**:特斯拉及其追随者(如地平线、小鹏)采用的数据驱动模式,与Waymo进入新城市需大量准备工作的模式不同[25]
这个自动驾驶黄埔军校,4500人了
自动驾驶之心· 2026-01-15 10:55
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区,将其定位为国内首个自动驾驶全栈技术社区,旨在为从业者、研究者和学习者提供一个集技术交流、知识分享、学习路线、求职内推于一体的综合性平台 [22] - 社区核心价值在于通过整合学术界与工业界资源,提供覆盖自动驾驶全技术栈的体系化内容,以降低行业入门壁垒,帮助成员应对技术快速迭代的挑战,并构建行业人脉网络 [5][7][22] 社区规模与目标 - 社区已运营超过三年,目前成员超过4000人,成员背景覆盖国内外顶尖高校(如上海交大、清华大学、CMU、ETH等)和头部公司(如蔚小理、地平线、华为、英伟达、百度等)[7][22] - 社区设定了明确的增长目标,期望在未来2年内将规模扩大到近万人 [7] 内容体系与技术覆盖 - 社区内容以视频、图文、直播、问答等多种形式呈现,并系统化梳理了超过40个自动驾驶技术方向的学习路线与资源 [7][13][23] - 技术内容覆盖极为全面,包括但不限于: - **感知方向**:BEV感知、3D目标检测、多传感器融合、Occupancy Network、鱼眼感知、2D/3D分割、目标跟踪 [14][23][57][59][61][72][78][80][88] - **规控与决策**:规划控制、轨迹预测、强化学习、端到端自动驾驶、世界模型 [14][23][43][47][53][65][67] - **模型与算法**:视觉语言模型、自动驾驶VLA、扩散模型、大模型应用、3DGS与NeRF [14][23][45][49][51][55][90] - **工程与量产**:模型部署优化、CUDA编程、自动驾驶仿真、数据闭环、传感器标定 [14][23][70][74][76][86] - 社区汇总了大量实用资源,包括近60个自动驾驶相关数据集、近40个开源项目、行业主流仿真平台以及各类技术书籍 [23][37][39][41] 特色活动与互动 - 定期举办线上直播分享,目前已累计超过一百场,邀请嘉宾均为来自学术界和工业界的一线专家,分享内容涵盖最新技术进展、量产痛点及行业趋势 [11][94] - 建立了与多家自动驾驶公司的岗位内推机制,可帮助成员简历直达目标公司 [16] - 社区内部设有问答专区,成员可自由提问,问题范围从技术入门、项目实践到职业发展、公司选择,均可获得解答 [2][10][24][26][96] 学习资源与课程 - 为不同阶段的成员提供了阶梯式学习资源,包括面向零基础小白的全栈入门课程,以及面向进阶者的深度产业体系与项目方案 [15][18] - 社区内部拥有专属的系列视频教程,涵盖感知融合、多传感器标定、SLAM、规划预测、数据工程、端到端与大模型等核心领域 [16] - 编制了“自动驾驶100问”系列深度解析文章,针对模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等具体技术难点进行集中解答 [14]
最近会开放一批端到端&VLA的岗位需求
自动驾驶之心· 2026-01-12 11:15
行业技术趋势与共识 - 行业共识认为2026年将是自动驾驶领域“结硬寨,打呆仗”的一年,算法层面短期内看不到重大变革,技术重点转向对端到端、视觉语言动作模型等前沿技术的量产优化[1] - 技术发展方向明确,当前阶段需要攻克工程化应用的“硬骨头”,因此行业人力招聘重点倾向于有经验的算法工程师,并开放了大量职位[1] - 端到端和视觉语言动作模型技术方向的关键词包括:BEV感知、大模型、扩散模型、强化学习[1] 核心课程内容与结构 - 课程第一章概述端到端自动驾驶,涵盖其发展历史、从模块化到端到端的演进原因,并分析一段式、二段式及视觉语言动作模型范式的优缺点与适用场景[6] - 课程第二章重点讲解端到端技术涉及的背景知识,包括视觉语言动作模型所需的大语言模型、扩散模型及强化学习,以及一段式端到端涉及的BEV感知,这些内容被认为是未来两年求职面试的高频技术关键词[6][7] - 课程第三章聚焦二段式端到端,解析其定义与出现原因,并讲解领域内的经典算法与前沿进展[7] - 课程第四章为核心精华部分,深入讲解一段式端到端的多个子领域,包括基于感知、世界模型、扩散模型以及当前最热的基于视觉语言动作模型的方法[8] - 课程第五章设置大作业,以基于人类反馈的强化学习微调进行实战,该技术可迁移至视觉语言动作模型相关算法中,具有良好延展性[9] 关键技术模块详解 - 课程详细讲解Transformer基础及其在视觉领域的应用,并涵盖为多模态大模型奠定基础的CLIP和LLaVA模型[11] - 深入介绍BEV感知基础知识,解释其如何应用于自动驾驶核心感知任务[11] - 讲解扩散模型理论及其在输出多模轨迹预测中的应用,这是当前学术界与工业界尝试落地的热点[11] - 介绍视觉大语言模型相关的强化学习技术,包括基于人类反馈的强化学习及其在视觉大语言模型训练中的作用[11] - 基于世界模型的方法被重点介绍,因其应用广泛,不仅可用于场景生成、端到端驾驶,还可用于闭环仿真,是近两年的热门技术方向[12] - 基于扩散模型的端到端方法自2023年下半年兴起,其与基于模型的方法或视觉语言动作模型结合,可更好地适应环境不确定性,课程配套相关实战讲解[12] - 基于视觉语言动作模型的端到端方法被视为当前该领域的“皇冠”,上限高、难度大,行业招聘需求旺盛,课程选取了业界代表性工作并设置实战环节[12] 课程目标与受众要求 - 课程旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端自动驾驶[10] - 期望学员学完后能达到具备约1年经验的端到端自动驾驶算法工程师水平,掌握涵盖多种方法的技术框架,并对关键技术有深刻理解[15] - 学员需自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、相关技术概念知识以及编程与数学基础[13]
当我们把端到端量产需要的能力展开后......
自动驾驶之心· 2026-01-08 17:07
自动驾驶端到端技术趋势与行业现状 - 端到端是当前自动驾驶行业最受欢迎的职位方向 [1] - 地平线HSD的成功促使行业重新审视一段式端到端架构的重要性 该架构使车辆能直接感知环境并生成动作序列 极大降低系统复杂度以应对更复杂场景 [2] - 纯模仿学习的端到端本质是复制数据分布 在实际落地中面临轨迹不稳定等问题 核心原因在于模型缺乏基于环境反馈的持续修正能力 [3][5] 端到端技术演进与解决方案 - 强化学习为端到端提供了从模仿走向优化的关键机制 通过引入奖励或价值信号对动作策略进行闭环优化 弥补模仿学习在分布外状态和误差累积上的不足 [4] - 行业头部公司已形成完整的模型迭代思路:模仿学习训练→闭环强化学习→规则兜底 并涉及导航信息引入 [6] - 量产落地面临诸多挑战 包括拥堵加塞、静态偏航、碰撞等复杂场景的数据挖掘与清洗问题 端到端是一个系统性问题而非单点技巧 [8] 端到端人才市场与课程内容 - 行业人才壁垒高导致薪资水平显著提升 五年以上的头部人才薪资在100万人民币起步且上不封顶 [7] - 大量从业者仅有论文基础 缺乏量产落地的系统经验 解决实际场景的能力较弱 [8] - 相关实战课程涵盖从任务概述、两段式与一段式算法框架、导航信息应用、强化学习算法到轨迹输出优化与时空联合规划兜底方案的全流程 并分享量产经验 [12][14][15][16][17][18][19][20][21] - 课程面向进阶学员 建议具备自动驾驶BEV感知、视觉Transformer、强化学习、扩散模型等算法基础 以及Python、PyTorch和MMDet3D框架的实践能力 并自备算力在4090及以上的GPU [22][23][25]
随到随学!端到端与VLA自动驾驶小班课(视频+答疑)
自动驾驶之心· 2026-01-08 13:58
课程核心定位与目标 - 课程为端到端与VLA自动驾驶进阶实战教程,旨在推动端到端技术在工业界落地,助力学员理解端到端自动驾驶 [8] - 课程联合工业界专家开设,内容涵盖学术界与工业界最前沿的技术栈,包括BEV感知、视觉语言模型、扩散模型、强化学习等 [1] - 课程目标是使学员学完后能达到约1年经验的端到端自动驾驶算法工程师水平,掌握技术框架并能够复现主流算法 [13] 课程内容架构 - **第一章:端到端算法介绍** 概述端到端自动驾驶发展历史、概念起源、从模块化到端到端的演进,并分析一段式、二段式及VLA范式的优缺点与适用场景 [4] - **第二章:端到端的背景知识** 作为课程重点,详细讲解VLA涉及的大语言模型、扩散模型及强化学习,以及一段式端到端涉及的BEV感知,为后续学习奠定基础 [4][9] - **第三章:二段式端到端** 聚焦二段式端到端,解析其定义与出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,对比其与一段式端到端的优缺点 [5] - **第四章:一段式端到端与VLA** 作为课程精华部分,涵盖基于感知、世界模型、扩散模型及VLA的一段式端到端子领域,探讨各方法如何解决端到端终极目标 [6] - **第五章:课程大作业 - RLHF微调** 提供RLHF微调实战,涉及预训练与强化学习模块搭建及实验,该技术可迁移至VLA相关算法,具有良好延展性 [7] 关键技术深度解析 - **BEV感知** 讲解其基础知识,以及如何基于BEV实现自动驾驶核心感知任务,如3D检测、车道线识别、OCC及轨迹预测与规划 [9] - **扩散模型** 讲解其理论知识,并指出基于扩散模型输出多模轨迹是当前学术界与工业界热点,多家公司正尝试落地 [9] - **视觉大语言模型与强化学习** 讲解VLM相关的强化学习技术,包括RLHF及其在VLM训练中的作用,以及上半年热门技术GRPO [9] - **一段式端到端细分领域** 详细讲解基于感知的方法(如UniAD、地平线VAD、CVPR'24的PARA-Drive)、基于世界模型的方法(如AAAI'25的Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(如DiffusionDrive、Diffusion Planner、DiffE2E)以及基于VLA的方法(如小米ORION、慕尼黑工大OpenDriveVLA、ReCogDrive) [10] 课程实战与前沿应用 - 课程包含配套实战,例如在扩散模型小节配套讲解Diffusion Planner实战,在VLA小节选择小米ORION作为实战,该开源项目截至2025年7月已开放推理与评测模块 [10] - 世界模型被强调为近两年非常热的技术方向,因其应用广泛,可用于场景生成、端到端驾驶及闭环仿真 [10] - VLA被视为目前端到端自动驾驶的皇冠,上限高且难度大,因此行业招聘需求旺盛,代表了新一代自动驾驶量产方案的预研方向 [10] 讲师资质与课程特色 - 讲师Jason拥有C9本科与QS50博士学历,已发表2篇CCF-A论文及若干CCF-B论文,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研与量产,并主持完成多项自动驾驶感知与端到端算法的产品量产交付 [2] - 课程内容基本为工业界和学术界的Baseline,兼顾经典工作与最新前沿进展 [1] - 课程为小班课,随到随学,提供视频与答疑服务 [1] 学员收获与面向人群 - 学员将掌握端到端技术框架,涵盖一段式、两段式、世界模型、扩散模型等方法 [13] - 学员将对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻了解,并可复现扩散模型、VLA等主流算法框架 [13] - 学员能够将所学应用到项目中,真正搞懂如何设计自己的端到端模型,并可在实习、校招、社招中受益 [13] - 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并具备概率论、线性代数及Python、PyTorch语言基础的学员,学习需自备GPU,推荐算力在4090及以上 [11] 行业趋势与技能需求 - 端到端自动驾驶是学术界与工业界的前沿方向,VLA范式是目前发展的焦点 [1][10] - 第二章所涉及的背景知识被总结为未来两年求职面试频率最高的技术关键词 [5] - 基于扩散模型输出多模轨迹能更好地适应自动驾驶不确定的环境,是当前热点 [10]
英伟达开源Alpamayo系列模型,有望重塑端到端自动驾驶
长江证券· 2026-01-07 18:46
报告行业投资评级 - 投资评级为“看好”,并予以“维持” [7] 报告的核心观点 - 英伟达于太平洋时间2026年1月5日开源了Alpamayo系列AI模型、仿真工具及数据集,旨在推动安全可靠的推理型辅助驾驶汽车开发 [2][4] - 此次开源有望帮助开发者改进自动驾驶技术,加速高级版智能驾驶的商业化落地,并惠及全产业链 [2] - 建议关注智能驾驶相关硬件提供商以及Robotaxi等自动驾驶运营平台 [2][10] 事件评论总结 - **Alpamayo 1模型的技术特点**:该模型是业界首个面向自动驾驶车辆的开放式大规模推理视觉-语言-动作模型,通过视频输入生成行驶轨迹并给出推理思路,能识别独特驾驶情况并找出正确行驶方式 [10] - **模型参数与规划**:目前模型基于100亿参数架构,后续模型将具备更大参数规模、更精细推理能力、更灵活输入输出方式及更丰富商用选项 [10] - **配套开源工具**:同时发布了开源仿真框架AlpaSim和物理AI开放数据集,AlpaSim提供高保真仿真环境,数据集包含超过1700小时的驾驶数据,覆盖广泛地理区域和环境条件,特别是罕见且复杂的真实世界极端场景 [10] - **行业支持与影响**:获得了Lucid、捷豹路虎、Uber等移动出行领域领先企业及标普全球、伯克利DeepDrive等机构的关注,各方认为其核心价值在于推动物理AI发展,赋予系统对真实世界的推理能力,破解长尾驾驶场景难题 [10] - **开源意义**:其开源特性为开发者和研究人员提供了应对复杂场景的新工具,支持规模化训练与个性化优化,推动了自动驾驶生态的开放创新,有望加速L4级自动驾驶的安全部署与普及 [10]
拆解理想在世界模型方向的工作
自动驾驶之心· 2026-01-05 17:30
理想汽车的世界模型技术布局 - 公司对世界模型的定义是“重建+生成”,利用3DGS技术重建自动驾驶场景,再通过生成方法实现闭环仿真或场景生成 [2] - 公司已有一系列相关研究成果,包括中稿ICCV 2025的Hierarchy UGP(场景重建)、StyledStreets(多风格场景生成)、World4Drive(结合驾驶意图的规划)以及中稿ACMMM 2025的OmniGen(统一生成视觉与激光雷达)等 [2] - 公司目前未深入利用世界模型的预测能力直接输出车辆轨迹,但已进行相关探索(如World4Drive)[3] 行业对世界模型的共识与现状 - 业内普遍认为世界模型是围绕视频搭建的时空认知系统,通过跨模态预测和重建学习时空与物理规律 [3] - 行业内的世界模型技术主要围绕3DGS重建、视频/OCC生成以及激光雷达点云生成展开 [3] - 特斯拉等领先公司及许多中游厂商均在布局世界模型的预研和落地 [3] - 但行业对世界模型的定义仍较模糊,存在“生成即世界模型”或“生成+重建即世界模型”等不同理解 [4] 自动驾驶世界模型课程内容框架 - 课程第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派(如纯仿真、仿真+规划、生成传感器输入等)[7] - 第二章讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,这些是求职面试的高频技术关键词 [7][8] - 第三章探讨通用世界模型,涵盖Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉的世界模型模拟器等热门工作 [8] - 第四章聚焦视频生成类世界模型,讲解GAIA-1 & GAIA-2、UniScene、OpenDWM、InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战 [9] - 第五章聚焦OCC生成类世界模型,讲解OccWorld、OccLLaMA、HERMES、II-World等论文并进行项目实战,此类方法易于扩展至轨迹规划 [10][14] - 第六章分享工业界应用经验,包括行业痛点、期望解决的问题以及相关岗位的面试准备 [11] 课程的技术基础与学习目标 - 课程技术背景知识涵盖Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS以及VAE、GAN等其他生成式模型 [13] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV等概念、有概率论与线性代数基础以及Python/PyTorch编程能力的学员 [15] - 课程期望学员学完后能达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展,能复现II-World、OpenDWM等主流框架,并应用于实际项目设计 [15] - 课程为离线视频教学,开课时间为1月1日,预计两个半月结课,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [16] - 各章节按计划解锁,例如第一章于12月10日解锁,第六章于3月1日解锁 [17]
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法
具身智能之心· 2026-01-05 09:03
文章核心观点 - 小鹏汽车与北京大学联合提出了一种专为端到端自动驾驶设计的视觉语言模型视觉token剪枝新框架FastDriveVLA [1] - 该框架基于“前景信息比背景信息对驾驶决策更有价值”的假设 [2] - 通过创新的基于重建的剪枝器ReconPruner,在显著提升推理效率的同时,保持了甚至超越了原始模型的驾驶性能 [2][8][25] 研究背景与问题 - 端到端自动驾驶系统因其简洁性和减少误差传递的潜力而受到关注,但现有VLA模型将视觉输入转换为大量视觉token,导致巨大的计算开销和推理延迟,对车端部署构成挑战 [7] - 现有的视觉token剪枝方法(如引入新投影器、基于注意力或相似性的策略)并非为自动驾驶设计,在自动驾驶场景中存在局限性 [1][7] 方法与创新 - 构建了大规模自动驾驶前景标注数据集nuScenes-FG,包含来自6个摄像头视角的24.1万个图像-掩码对,明确定义了对驾驶决策有直接影响的前景区域(如行人、车辆、道路、交通标志等) [2][13] - 提出了一个轻量级、可即插即用的基于重建的剪枝器ReconPruner [16] - ReconPruner采用MAE风格的像素重建策略,并创新性地引入了对抗性前景-背景重建策略,以增强其区分前景与背景视觉token的能力 [16][19] 实验结果 - 在nuScenes开环规划基准测试中,FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2] - 当视觉token数量从3249个减少至812个(剪枝75%)时,FastDriveVLA的FLOPs直降约7.5倍 [2][26] - 在CUDA推理延迟方面,FastDriveVLA将预填充时间减少了3.7倍、将解码时间减少了1.3倍 [2][26] - 在剪枝25%时,FastDriveVLA的L2轨迹误差和碰撞率指标分别比未剪枝的原始模型低了0.1%和1.0% [28] - 研究建议在实际部署中采用50%的剪枝比例,以实现性能与效率的最佳平衡 [25] 效率与性能对比 - 在剪枝75%的情况下,FastDriveVLA的Token FLOPs为5.1T,预填充时间为51 ms/token,解码时间为18 ms/token [27] - 与基于注意力的基线(FastV, SparseVLM)和基于相似性的基线(DivPrune, VisPruner)相比,FastDriveVLA在各种剪枝比例下均展现出更优或更具竞争力的性能 [24] - 可视化分析表明,ReconPruner能有效保留前景关键信息(如车道、车辆),而其他方法存在漏检或定位不准的问题 [29]