自动驾驶之心
搜索文档
北大World-in-World:闭环下的具身世界模型评估框架!
自动驾驶之心· 2025-10-27 08:03
文章核心观点 - 当前生成式世界模型的评估体系存在缺陷,过度关注视频生成质量而忽略了其在真实具身任务中的决策辅助能力 [5] - 约翰・霍普金斯大学和北京大学等团队推出了“World-in-World”平台,首次采用闭环交互方式评估世界模型在具身任务中的实用性 [2] - 实验结果表明,对于具身智能体而言,世界模型的“动作-预测对齐”能力比画面逼真度更为重要,且通过特定任务数据微调小模型比使用大参数模型更具成本效益 [18][21] 世界模型评估的现有问题 - 现有评估基准如VBench和WorldModelBench是开环的,仅评估视频清晰度和场景合理性,不测试模型辅助智能体完成实际任务的能力 [5] - 存在“视觉质量”与“任务有用性”的脱节,例如模型能生成超清晰画面但动作指令与预测画面不匹配,导致其无法有效帮助机器人导航或抓取物体 [5] World-in-World平台设计 - 平台设计了一套完整的闭环体系,使智能体、世界模型和环境形成“观测→决策→执行→再观测”的循环 [6] - 通过统一动作API解决模型兼容性问题,将智能体的原始动作转换成不同世界模型能理解的格式 [7] - 决策流程分为三步:提案阶段智能体生成候选动作序列,模拟阶段世界模型预测执行后的未来画面,修正阶段智能体根据预测评分选择最优方案执行 [8][13] - 决策过程通过数学公式整合候选动作、预测结果、当前观测和任务目标四要素,确保决策有据 [12] 实验任务与核心发现 - 平台选用四类真实具身任务进行测试:主动识别、图像导航、具身问答和机械臂操作 [16] - 画面逼真度与任务成功率无正相关关系,经过后训练的SVD†模型视觉质量中等但主动识别任务成功率可达61%,而视觉质量高的Wan2.1模型成功率仅为57% [18] - 模型的可控性是关键,可控性指标与任务成功率呈正相关,1-LPIPS值越高代表动作对齐越好,成功率也越高 [20] - 使用任务数据微调小模型性价比高,1.5B参数的SVD†模型用80K数据微调后,主动识别成功率从56.3%提升至61%,效果优于未微调的14B参数Wan2.2†模型,且成本仅为训练新大模型的1/10以下 [21] - 增加推理时的模拟次数可提升成功率,SVD†模型模拟次数从3次增加到11次后,主动识别任务成功率从53.4%升至61%,且平均路径长度缩短12% [23] - 当前世界模型在机械臂操作任务中表现不佳,最佳模型SVD†的成功率仅为46.5%,因模型缺乏物理规律建模,导致预测画面与实际操作结果不符 [25] 未来发展方向 - 世界模型的研发重点应从提升画面逼真度转向提升可控性,确保模型能精准响应动作指令 [26] - 利用少量任务数据进行微调是低成本提升模型效果的有效途径 [26] - 需补强物理建模能力,使模型能够理解碰撞、摩擦力等物理规律,以更好地辅助操作任务 [26]
正式结课!工业界大佬带队三个月搞定端到端自动驾驶
自动驾驶之心· 2025-10-27 08:03
端到端自动驾驶技术发展现状 - 2023年是端到端量产的元年,2025年将是端到端量产的大年,目前头部新势力和主机厂端到端技术均已实现量产[1] - 工业界存在一段式和两段式两种主要技术范式,一段式代表UniAD直接从传感器输入建模自车轨迹输出,二段式基于感知结果进一步输出自车和他车轨迹[1] - 2024年以来一段式端到端快速发展,衍生出基于感知、世界模型、扩散模型和VLA等多种一段式方法[3] 端到端自动驾驶技术体系 - 端到端与VLA技术涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习等核心内容[5] - 主流自动驾驶企业包括智驾方案供应商和车企都在发力端到端自动驾驶的自研量产[3] - 技术栈涵盖学术界和工业界最前沿的方法,二段式端到端与一段式端到端前沿算法都是工业界和学术界的Baseline[5] 端到端自动驾驶课程内容 - 课程第一章介绍端到端发展历史、技术范式演变及优缺点,分析学术界和工业界研究方向[9] - 第二章重点讲解端到端背景知识,包括VLA涉及的大语言模型、扩散模型、强化学习,以及一段式端到端涉及的BEV感知[9] - 第三章聚焦二段式端到端,讲解经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1[10] - 第四章涵盖一段式端到端子领域:基于感知的UniAD、基于世界模型、基于扩散模型和基于VLA的方法[12] - 课程大作业选择RLHF微调实战,涵盖预训练模块搭建、强化学习模块搭建和实验实施[13] 端到端自动驾驶技术细节 - 基于感知的方法讲解UniAD和地平线VAD,以及CVPR'24的PARA-Drive[14] - 基于世界模型的方法介绍AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,探讨世界模型在场景生成、端到端和闭环仿真中的应用[14] - 基于扩散模型的方法讲解DiffusionDrive、Diffusion Planner和吉大DiffE2E,配套Diffusion Planner实战[14] - 基于VLA的方法选取小米ORION、慕尼黑工大OpenDriveVLA和最新ReCogDrive,以ORION作为实战案例[14] 端到端自动驾驶学习目标 - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端在工业界落地[15] - 学员学完后能达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术[19] - 学习成果包括可复现扩散模型、VLA等主流算法框架,并能将所学应用到实际项目中[19]
2025年的理想还在不断突破,年度成果一览......
自动驾驶之心· 2025-10-27 08:03
公司技术战略定位 - 公司凭借端到端和视觉语言模型双系统量产,已跻身国内智能驾驶第一梯队[3] - 公司正从汽车新势力向人工智能企业转型,将人工智能作为发展的新锚点[3][7] - 在技术路线上,公司重点探索扩散模型轨迹生成、世界模型和视觉语言行动模型,印证了其MindVLA的技术架构[5] 视觉语言行动模型 - ReflectDrive通过离散扩散的反思机制实现安全轨迹生成,首次将离散扩散应用于端到端自动驾驶轨迹生成[13] - OmniReason构建了大规模VLA数据集并提出了融合时间性三维知识和因果推理的端到端VLA架构[16] - LightVLA通过可微分token剪枝框架将计算量和延迟分别降低59.1%与38.2%,同时任务成功率提升2.6%[17] - DriveAgent-R1采用混合思维架构,在SUP-AD数据集上性能超越Claude 4 Sonnet等前沿多模态大模型[19] - DriveAction是公司开源的中国行车场景VLA数据集,覆盖148个城市和所有量产车型记录[21] 端到端轨迹生成 - World4Drive整合多模态驾驶意图与潜在世界模型,实现无需感知标注的端到端规划[25] - TransDiffuser采用多模态表示解相关策略,在NAVSIM基准测试中取得最先进成果[26] - TrajHF提出基于人类反馈的微调框架,使生成轨迹模型能与多样化人类驾驶偏好对齐[29] 世界模型与场景生成 - RLGF通过几何反馈强化学习将3D检测mAP绝对值提高12.7%,减少几何差距[34] - HiNeuS解决神经表面重建中的多视图辐射不一致、无纹理区域关键点缺失等问题[39] - GeoDrive将三维点云渲染过程纳入生成范式,显式注入空间结构信息[40] - StyledStreets基于3D高斯散射实现跨季节、天气和相机的真实风格转换[41] - DiVE生成框架速度提升2.6倍,Fréchet视频距离降低36.7[47] 三维场景理解与模型优化 - QuadricFormer利用超二次曲面进行3D语义占用预测,以更少基元捕获现实世界目标结构[51] - UniPLV将点云、图像和文本统一到单一框架,无需对齐数据实现开放世界3D场景理解[55] - TokenFLEX通过动态token机制和轻量级自适应投影器实现灵活视觉token推理[50] - RuscaRL借鉴教育心理学脚手架理论,解决大语言模型强化学习探索瓶颈问题[56]
摇人!寻找散落在各地的自动驾驶热爱者(产品/4D标注/世界模型等)
自动驾驶之心· 2025-10-26 00:03
业务拓展方向 - 公司计划在自动驾驶领域的企业培训和求职辅导等方向进行业务拓展 [2] - 合作领域包括技术服务、培训、课程开发与科研辅导等多个方面 [2] - 主要面向自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等多个技术方向 [4] 目标客户与岗位说明 - 培训合作业务B端主要面向企业和高校、研究院所 [5] - 培训合作业务C端面向较多学生和求职类人群 [5] - 岗位职责包括自动驾驶培训合作、课程开发和原创文章创作 [5] 合作与资源 - 公司面向全球自动驾驶领域从业者发出合作邀请 [2] - 公司将提供高额的酬金与丰富的行业资源以吸引合作伙伴 [3] - 感兴趣的从业者可通过指定微信联系方式进行进一步咨询 [6]
全球首个「百万引用」学者诞生!Bengio封神,辛顿、何恺明紧跟
自动驾驶之心· 2025-10-26 00:03
AI领域学术影响力里程碑 - Yoshua Bengio成为全球首位论文引用量突破100万次的学者,标志着AI学术影响力达到新高峰[2][3] - Geoffrey Hinton以97万次引用紧随其后,有望成为全球第二位突破百万引用的学者[5] - 深度学习三巨头(Bengio、Hinton、Yann LeCun)共同获得2018年图灵奖,其中LeCun引用量超过43万次[6][7][13] 顶尖AI研究者学术成就 - Yoshua Bengio在全球计算机科学领域排名第一,总引用量987,920次,近五年引用量711,796次,占比72%[8] - Geoffrey Hinton全球排名第二,总引用量963,982次,近五年引用量588,843次,占比61.1%[8] - 何恺明论文总被引超过75万次,其2016年发表的深度残差网络(ResNets)论文被引298,327次,是二十一世纪被引用次数最多的论文[48][51] - Ilya Sutskever论文总被引超过70万次,作为OpenAI和ChatGPT缔造者,与Hinton存在师徒关系[53][18] AI论文引用爆发式增长原因 - 2012年AlexNet在ImageNet上的突破性表现被视为深度学习"引爆点"[20] - 2017年Transformer架构提出和2018年BERT模型出现,推动预训练/微调范式发展,带来AI论文二次爆发[24] - 2010-2022年全球AI论文总量从约8.8万篇增长至24万篇以上,实现近三倍增长[30] - AI论文占计算机科学论文比例从2013年的21.6%升至2023年的41.8%,几乎占据计算机科学领域一半论文[31][32] AI领域学术会议活跃度 - ICLR 2024接收论文2260篇,投稿量较2023年增加2324篇[36] - NeurIPS 2024总投稿17491篇(主会15671篇),接收4497篇[36] - CVPR 2024投稿11532篇,接收2719篇,录用率23.6%[36] 其他高影响力AI研究者 - GAN之父Ian Goodfellow引用量38万+[61] - 谷歌人工智能负责人Jeff Dean引用量37万+[61] - ImageNet创建者李飞飞引用量32万+[61] - LSTM之父Juergen Schmidhuber引用量29万+,其1997年LSTM论文被引136,740次[61][67] - Coursera创始人吴恩达引用量29万+[61] - Gemini技术负责人Noam Shazeer引用量28万+,其参与的"Attention is All You Need"论文被引209,694次[61][69]
Tesla终于分享点东西了,世界模型和闭环评测都强的可怕......
自动驾驶之心· 2025-10-26 00:03
特斯拉FSD技术架构 - 采用单一大型模型处理自动驾驶任务,利用海量数据和长上下文输入[5] - 神经网络计算时间为固定值,不受环境影响,系统运行频率高达36Hz,直接输出控制动作[5] - 工程能力强大,实现了从感知到动作的端到端输出[5] 端到端自动驾驶的驱动因素 - 人类驾驶行为难以用单一评价函数精确描述,规则优化方法存在局限性[8] - 传统模块化架构中感知、预测与规划间的接口定义存在信息损失问题[8] - 端到端架构具备更好的可扩展性,更有利于解决长尾场景问题[8] - 神经网络固定计算时间相比传统规划控制求解器能有效降低系统延迟[8] - 遵循Sutton的"苦涩教训"哲学,强调依赖算力与数据而非过多人工预设[8] 端到端技术面临的核心挑战 - 存在维度灾难问题,即高维输入到低维监督信号导致学习信号不充分[20][21] - 模型可解释性与安全保障是重大挑战,需确保网络真正理解驾驶而非仅拟合捷径[21][23] - 系统评估是三大挑战中最困难的部分,无法直接用损失函数衡量实际表现[36][39] 特斯拉的解决方案与技术亮点 - 通过丰富数据产生有效梯度破解维度灾难,利用各种触发机制和小型神经网络挖掘数据[23][25] - 采用思维链推理过程,融合3D高斯重建、语言理解等多模态信息进行决策[27][33] - 3D高斯重建技术具有速度快、支持动态物体、无需点云初始化、新视角合成效果好等优势[30][31] - 构建基于世界模型的模拟器,通过动作生成后续视频,支持大规模强化学习训练[41][44] - 评估体系强调闭环测试的重要性,需覆盖驾驶行为的多模态性,并平衡评估数据集[39] 技术通用性与应用拓展 - 整套FSD技术架构完全适用于人形机器人领域[46] - 可通过视频数据训练世界模型,并利用仿真环境进行强化学习训练,实现技术闭环[46]
0.1$一键Get神仙主页!让科研人不再熬夜秃头的Paper2Page来了
自动驾驶之心· 2025-10-26 00:03
核心产品介绍 - 推出AutoPage多智能体协作框架,旨在将学术论文PDF一键转化为高质量、交互式项目主页,解决研究者手动制作主页的低效问题 [1] - 产品功能包括自动解析论文章节结构与图表信息、智能生成叙事文本与模块化内容块、自动调整图像和排版、一键渲染支持动态交互的网页结构 [4] - 用户只需输入论文PDF,即可在15分钟内自动生成结构清晰、图文丰富的研究主页,成本低于0.1美元 [2][16] 技术方法与创新 - 采用多智能体分工协作管线,将任务拆解为“从粗到精”的三个步骤:叙事规划与结构设计、多模态内容生成、交互式页面渲染 [7][8][9] - 创新点在于通过“规划师”、“内容生成器”、“核查员”、“渲染工程师”等多个智能体分工协作,避免传统端到端生成导致的页面结构混乱和内容失真 [7] - 流程中设置多个人工校验点,允许用户随时介入修改结构或调整风格,增强协作的自然性 [10] 性能表现与优势 - 在超过1500个学术主页模板构建的评测基准PageBench上,AutoPage在内容保真度、视觉美感、布局合理性等指标上显著优于GPT-4o-mini和Gemini-2.5-Flash等基线模型 [13][16] - 端到端生成时间少于15分钟,成本低于0.1美元,大幅减少传统手工制作的时间开销 [16] - 真实用户盲评得分最高,被评价为“内容更连贯、视觉更吸睛” [16] 可用性与开源 - 所有代码已开源,项目提供论文链接、项目主页、代码库及Huggingface Space等多个访问渠道 [4][14] - 算法适配多种大模型API,用户可自由选择使用Qwen、Gemini或GPT的API,其中使用Gemini2.5 Flash的性价比最高 [14]
马斯克:钱不到位,这CEO是一天也干不下去了?
自动驾驶之心· 2025-10-25 00:03
特斯拉CEO薪酬方案 - 特斯拉为留住CEO马斯克推出新薪酬方案,价值高达万亿美元[3][7] - 方案要求马斯克继续掌舵公司至少10年[7] - 若无法获得该高额薪酬,马斯克表示将不再担任特斯拉CEO[6][17] 薪酬方案绩效目标 - 市值目标最高需达到8.5万亿美元,较当前水平增长近8倍[8] - 利润目标最高需达到4000亿美元,较2024年提高近24倍,最低档为500亿美元[8] - 产品目标包括累计交付2000万辆特斯拉汽车、1000万个FSD活跃订阅用户、100万台特斯拉机器人及投入运营100万辆Robotaxi[8] - 若达成所有目标,马斯克持股比例将从13%增至约25%,对应价值1万亿美元[10] 薪酬方案的市场反应 - 该方案被描述为人类史上最高薪酬方案,超过特斯拉成立以来利润总和[11] - 机构股东服务公司等反对者认为薪酬规模是"天文数字",可能稀释现有股东股权且方案设计存在漏洞[19][20][21][22] - 支持者包括方舟投资创始人"木头姐",她预测方案将以压倒性优势通过[26][28] - 薪酬方案最终结果将于11月6日股东大会定夺[31] 特斯拉产品路线图 - 特斯拉首席设计师确认第二代Roadster跑车将在2027年投产,并于今年亮相[32][33][38] - Roadster 2.0定位为四座敞篷跑车,0-100km/h加速时间预计不到1秒,目标成为陆地上最快量产车[39][40] - 该车型被定位为"最后一台驾驶者之车",FSD全自动驾驶并非其核心特点[40] - 特斯拉高管将在股东大会展示最新产品路线图和战略重点[31]
CVPR 2026倒计时Day21,冲这个方向简直降维打击!
自动驾驶之心· 2025-10-25 00:03
文章核心观点 - 文章预测CVPR2026会议投稿量已超2000篇,主旋律可能是“世界模型”,并以此作为论文辅导服务的核心方向 [1] - 公司提供论文辅导服务,旨在通过学术界/工业界大牛指导,帮助学员在关键节点发力,掌握技术脉络并产出论文,以冲击顶会和中稿 [2] - 公司拥有国内顶尖学术资源,300+专职老师来自全球QS前100高校,近3年辅导学员成果显著,涵盖CVPR、ICRA等顶会 [3] 公司服务与资源 - 公司作为国内最大AI类技术自媒体平台,拥有自动驾驶之心/具身智能之心/3D视觉之心等IP,深耕自动驾驶、具身智能、机器人方向 [3] - 公司拥有300+专职于自动驾驶/具身智能方向的老师,来自全球QS排名前100高校,发表过多篇顶会/子刊/A会/B会论文 [3] - 公司提供个性化论文指导服务,包括导师实时互动、录播无限次回看、免费课后答疑、24h无时差上课,覆盖选题至投稿一站式科研服务 [11] 服务流程与成果 - 公司辅导流程包括掌握技术脉络、复现模型、产出1篇论文初稿、投稿指导,助力学员冲击高区/顶会 [2] - 公司展示学员成果案例,如程同学(研二)4个月中稿CVPR顶会,张同学(博五)3个月中稿emnlp顶会 [4] - 公司服务帮助解决导师放养、科研体系不清晰等问题,协助学员建立科研思维、掌握算法、提升实践能力,并将baseline深化为论文 [5] 目标学员与方向 - 公司主要辅导方向包括三维重建、relighting、NVS、SLAM、点云处理、VLA、机器人导航、计算机视觉等 [8] - 目标学员为有科研需求、从事人工智能领域工作想升职加薪、考研申博留学提升简历含金量的人群 [9][10] - 学员要求自带简历,有一定pytorch基础,公司通过精准匹配系统从300+导师中筛出3-5位最契合人选 [8][15] 服务优势与附加价值 - 公司提供基础课程供零基础学员自主学习,承诺踏实地跟导师学习6个月能出一篇小论文 [14] - 优秀学员可获清北/MIT等名校推荐信,推荐到实验室实习,表现突出者直接内推阿里达摩院、华为诺亚方舟等企业研发岗 [16] - 公司承诺预收定金后可和名师meeting,不满意可免费更换老师/退款,收费根据分区目标和学员情况详细报价 [16]
上交OmniNWM:突破三维驾驶仿真极限的「全知」世界模型
自动驾驶之心· 2025-10-25 00:03
研究概述 - 研究提出了一种名为OmniNWM的全景、多模态、带精确控制与内在奖励的驾驶导航世界模型 [2] - 该模型在生成质量、控制精度与长时序稳定性上全面超越现有SOTA(State-of-the-Art) [2] - 研究为自动驾驶的仿真训练与闭环评估树立了新标杆 [2] 技术框架与核心创新 - 模型核心在于将状态生成、动作控制、奖励评估三者无缝集成,提出了一个创新的统一框架 [10] - 针对现有世界模型的三大核心挑战:状态的局限性、动作的模糊性、奖励的缺失,提供了解决方案 [10] - 首次在状态、动作、奖励三大维度实现统一,构建可交互、可评估、可扩展的综合性虚拟驾驶环境 [8][58] 多模态状态生成能力 - 利用Panoramic Diffusion Transformer (PDiT)作为核心,首次实现RGB、语义图、度量深度图、3D语义Occupancy的联合生成 [11][12] - 四模态输出在像素级别对齐,共享解码器确保跨模态一致性 [12] - 生成的3D Occupancy是奖励计算与闭环规划的核心依据 [13][16] 精确动作控制机制 - 创新性地提出归一化全景Plücker Ray-map作为动作表示,将输入轨迹转化为稠密的射线场指导生成过程 [18] - 通过尺度归一化与位姿归一化,构建统一Plücker空间,支持跨数据集、多相机配置下的零样本泛化 [22][27] - 该策略显著扩展了有效轨迹的覆盖范围,轨迹分布多样性远超原始数据集,支持复杂驾驶行为生成 [28][32] 长时序生成技术 - 引入Flexible Forcing策略,支持生成超过GT(Ground Truth)长度的321帧超长序列 [29][31] - 采用多层级噪声注入,支持帧级自回归和片段级自回归两种推理模式 [32][33] - 该策略显著抑制长时序中的结构退化,FVD@201帧指标为25.22,远优于消融模型的386.72 [34] 内生稠密奖励系统 - 直接利用生成的3D Occupancy定义稠密奖励函数,无需依赖外部模型 [35] - 奖励函数包含碰撞惩罚、越界惩罚和速度奖励三项,用于评估驾驶行为的合规性与安全性 [35][36][39] - 在测试场景中,奖励函数能有效区分碰撞、避让不足、成功规避三种行为 [41] 闭环规划与评估 - 引入专用的Vision-Language-Action (VLA) 规划器OmniNWM-VLA,基于多模态大模型Qwen-2.5-VL构建 [43] - 核心创新是Tri-Modal Mamba-based Interpreter (Tri-MIDI)融合模块,轻量且即插即用 [44] - 模型采用因果语言建模目标,将轨迹视为"动作序列"进行预测,能学习驾驶场景下的时空连贯性与物理合理性 [48][50] 实验性能与评估 - 在视频生成质量上,无需Occupancy或点云等体积条件,仍超越所有SOTA模型 [51][52] - 在深度图生成和3D Occupancy预测任务中,以生成的方式超越所有SOTA的预测类模型 [53][54] - 支持零样本泛化,可无缝迁移到nuPlan与内部数据集,支持不同相机数量配置且无需微调 [56]