Workflow
世界模型
icon
搜索文档
机器人何时能迎来自己的“DeepSeek时刻”?
虎嗅APP· 2025-10-24 17:53
文章核心观点 - 文章通过对话北京人形机器人创新中心CTO唐剑,探讨了具身智能领域的发展现状、技术挑战及未来方向,核心聚焦于“世界模型”作为实现机器人智能涌现的关键技术路径 [5][6][15] - 世界模型被视为具身智能的“DeepSeek时刻”,其通过引入奖励机制和双模驱动架构,在有限算力下实现性能超越,并坚持开源以推动行业演进 [16][20][27] - 公司认为世界模型是提升机器人泛化能力、实现其在开放世界中可靠行动的必选项,而非可选技术路线 [21][24][31] 从AI控制到具身智能的起点 - 唐剑的研究方向从传统的基于数学建模的系统控制转向“经验驱动”的控制方式,后者通过历史数据和经验学习控制规律,适用于复杂系统 [9] - 经验驱动控制在自动驾驶领域的应用体现为“端到端控制”,如特斯拉FSD 12.0版本,将感知、规划、控制三模块合并,提升复杂场景下的泛化能力 [11] - 具身智能被视为比自动驾驶更高维度的挑战,因其自由度更高、环境更开放、任务类型更繁杂,对理解能力和泛化能力要求极高 [12] 世界模型与具身智能的“DeepSeek时刻” - 公司将世界模型类比为具身智能的“DeepSeek时刻”,基于三点相似性:在有限资源下超越SOTA性能、训练范式有突破(如奖励机制)、坚持开源 [16] - 公司世界模型采用“双模驱动”结构,世界模型与VLM相互促进,VLM为世界模型提供奖励反馈,确保生成内容符合物理规律和因果一致性 [16][17] - 公司世界模型同样引入GRPO机制进行微调,并计划开源新的VLM模型Pelican,形成更紧密的认知与物理交互闭环 [19][20] 世界模型的本质与行业分歧 - 世界模型的核心是帮助机器人理解世界,其不仅是“像人”,更要在认知上接近人,能理解、预判并在物理世界中行动 [21] - 行业对世界模型尚无统一定义,公司区分了面向娱乐的视频生成模型和面向机器人操作的模型,后者强调严格的物理一致性与时空一致性 [24][26][27] - 世界模型被视为具身智能的必选项,而非类似自动驾驶激光雷达的技术路线选择分歧,因为它是实现机器人开放世界行动可靠性的基础 [20][21] 世界模型的三种用途与进化方向 - 世界模型主要用途包括:与机器人大脑形成闭环互相促进、直接生成机器人训练所需的轨迹数据、作为机器人操作模型的一部分具备物理理解与控制能力 [25] - 公司当前世界模型基于视频生成的DiT架构,但未来可能采用全新架构,以更好地注入物理约束,如牛顿定律、能量守恒等 [27][28] - 世界模型的应用处于早期阶段,其核心目标是提高机器人的泛化能力,以支持从工业场景向更复杂的商业和家庭生活场景拓展 [28][29][31] 数据、算力与智能涌现的挑战 - 具身智能尚未出现类似ChatGPT的“突破时刻”,因其数据主要为轨迹数据,数据量级、采集难度和成本远高于语言模型,进化更慢 [14] - 目前无人能准确给出具身智能的“Scaling Law”,即智能能力随数据、算力、算法增长的规律,其是否存在及曲线形态均为未知 [20] - 公司使用“百卡级”算力训练出2B、7B、14B规模的世界模型,并在多项主要指标上超过SOTA模型,如英伟达的Cosmos Predict 2 [16]
美国AI,踏入“旋转门”
虎嗅· 2025-10-23 17:56
Sora2产品表现与市场影响 - Sora2在多重高门槛限制下仍实现爆发式增长,上线不到五天即登顶美国App Store应用榜榜首[2] - 产品技术实现显著突破,具备原生音频、音画同步和一定故事性,被专业人士视为目前最接近"世界模型"的应用[3][26] - 用户创作内容呈现高度多样性和病毒式传播特征,涵盖动物拟人、经典IP混搭等创新形式,但引发大量版权纠纷[5][6][10] OpenAI财务状况与融资活动 - 公司面临严重盈利危机,2025年上半年营收仅43亿美元,但研发支出高达67亿美元,现金流为负[15][48] - 估值达到5000亿美元,已从特斯拉、微软、软银等企业募集不少于500亿美元资金,并获得英伟达最高1000亿美元融资计划[15][28][29] - 投入预算高达4500亿美元,资本消耗速度远超收入增长,存在明显的估值泡沫风险[49][50] 美国AI产业格局与资本循环 - 产业呈现两极分化格局,美国专注底层大模型研发,但面临商业变现难题,投入上不封顶[19][20][21] - 形成"旋转门"式资本循环:头部企业通过爆款应用吸引投资→向上游算力供应商采购→资金最终汇集至芯片厂商再回流至初创企业[37][40][43][47] - 2024年美国风险投资总额的71%集中于AI领域,较2020年的14%大幅提升,资本集中度极高[55] 巨头战略投入与行业影响 - "新美股七姐妹"全面重注AI,微软、Meta、亚马逊、谷歌四家2024年在AI基础设施上预计投入3200亿美元[73][74] - 大型项目频出,如OpenAI与微软联手的"星际之门"项目计划投入5000亿美元,相当于美国铁路网翻新8次的预算[66][68] - 资本过度集中导致行业多样性风险,创新型小企业发展受阻,高盛CEO警告资本可能无法获得预期回报[57][58][59] 技术应用前景与产业价值 - AI在生物科技领域展现革命性潜力,药物研发可缩短10年试错周期,基因分析能发现抗衰靶点[91][92] - 内容创作领域形成对普通从业者的替代压力,如广告视觉领域的低端P图师无法与AI竞争[89][90] - 技术终极意义在于突破人类认知和能力边界,需深度融入产业提升生产力而非单纯追求参数竞赛[95][97][98]
预见未来,《Al Car的初步畅想与探索实践》白皮书发布
中国汽车报网· 2025-10-23 16:15
白皮书核心发布 - 中国汽车工程学会与吉利汽车研究院在SAECCE 2025上联合发布行业首份以AI Car为主题的白皮书《Al Car的初步畅想与探索实践》[1][3] AI Car的产品定义与本质 - AI技术将颠覆智能终端开发范式,推动汽车成为具身智能体(AI Car)[3] - AI Car将扮演司机与伙伴两个核心角色[3] - AI Car的本质是由驾驶、座舱、底盘、动力等多个子智能体有机融合的超级智能体[3] 十大关键技术判断 - VLA将改变自动驾驶系统设计逻辑,成为驾驶智能体基础模型[3] - 世界模型作为对真实世界的极致压缩,将成为理解预测未来的基础工具[3] - 算力优化与数据闭环是驾驶智能体实现高效自迭代的核心抓手[4] - 超拟人交互将重塑人车关系,助力座舱智能体迈向终极形态[5] - 基于端云协同、大小协同的交互功能智能分配将成为座舱应用范式[6] - 在多端互联推动下,AI OS将加速从座舱开始落地应用[6] - 智能底盘与动力将成为精准动态控制、保障行车安全的运动控制大脑[7] - AI将赋能形成智驾+底盘更大的端到端系统,重构驾乘体验[8] - 动力电池向集实时感知、自主决策、动态响应的智能电池系统转型[9] - AI赋能下的全局最优能量策略将重塑车辆全周期能量管理范式[10] 对产业与企业的影响及建议 - AI Car产品变革将改写企业生存发展逻辑,战略目标由造好车转型为运营智能体[10] - 数据成为影响企业竞争力的核心战略资产,性能成本竞赛转为生态体系间价值网络对抗[10] - 企业突围需遵循生存三角新法则:定义智能体独特人格与价值主张以焕新品牌[10] - 资源配置需深挖全流程数据价值,打造开发至体验闭环,并搭建跨职能AI大研发团队[10][11] - 博弈逻辑要求整车企业加速构建全生态资源整合能力,提升跨终端智能协同体验以强化用户粘性[11]
人工最高节省90%,AI制作游戏被批“没有灵魂”
第一财经· 2025-10-22 18:12
AI对游戏行业影响的共识 - AI已进入影响游戏行业的重要时刻,能够显著缩短游戏开发周期,将需要数年甚至十年开发的游戏更快付诸实践[3] - 业界创业团队正在探索复杂AI应用方式,开发可快速生成完整游戏的智能体工具[3] - 部分业内人士已看到AI对游戏研发效率的巨大影响,并开始展望新的游戏生产方式[3] AI提升游戏制作效率的具体表现 - 游戏开发工作量约70%~80%集中于美术资产处理,其中动画制作和模型制作是两大重点环节[5] - 腾讯VISVISE解决方案的AI自动蒙皮工具可将原本需要1天半到3天半的工作缩短至1~3小时,节省70%~90%人工[5] - 动画生成大模型可根据5~10帧关键帧自动生成60帧流畅动画,将效率提升3~5倍,替代占角色动画制作总工时60%~70%的手工补帧工作[5] - 腾讯光子工作室角色动画制作周期缩短40%,部分项目角色技能原型验证时间从2周压缩至3天[6] AI工具的应用现状与成本效益 - 腾讯AI工具已在其内部头部项目使用,并开放给至少50多家外部公司包括完美世界、库洛游戏,同时向日本、韩国头部游戏公司和欧洲公司开放试用[6] - 对于《黑神话:悟空》这类制作成本超3亿元的3D产品,AI工具可解决20%~30%的次级资源,实现千万元级别降本[7] - AI工具使用成本显著低于人力成本,游戏外包人员日薪超千元,而AI生成一张符合要求的图成本极低,开箱率普遍不超过10张[7] 不同规模团队对AI的接受度差异 - AI工具对独立游戏等极小团队和轻量级团队作用最大,使原本需要十人以上团队完成的工作可由一两人完成,体现技术平权[11] - 中小型团队正在大量使用AI工具,而3A级高品质商业项目为保障口碑和研发稳定性,尚未广泛铺开AI应用[11] - AI工具能将动作捕捉等高端技术门槛降低,使单角色面部及身体捕捉成本约50万~100万美元的3A级制作技术变得中小团队可负担[11] 行业对AI能力的争议与看法演变 - 部分行业声音认为AI无法替代创意工作,如Larian Studios发行总监指出AI无法提供优秀游戏必需的创意和远见[8] - 玩家反馈显示现有AI游戏存在程式化问题,如米哈游联合创始人发布的《星之低语》被评价为技术演示,对话公式化且乏味[10] - 盛趣游戏美术总监林蕤观点发生转变,从认为AI缺少人性表达转为认可AI在语义概括和触发联想方面的进步,认为从业者需要积极了解AI技术[10] 技术发展趋势与未来展望 - 游戏工业管线尚未被AI颠覆,当前工具主要关注提效而非完全打破原有工作流程[12] - 谷歌Genie 3等世界模型技术可快速生成游戏玩法Demo,将按月规划的汇报决策流程大幅加速[13] - 行业正探索两种路径:传统角度的自动化工具推进与从最终形态回溯的世界模型,预计三五年后3D生成世界将推动新工作流出现[14]
人工最高节省90%,AI制作游戏被批“没有灵魂”
第一财经· 2025-10-22 17:15
AI对游戏开发效率的提升 - 在美术成本超过1亿元的3D类游戏中,20%至30%的次级资源可通过AI工具解决,实现千万元级别的成本降低 [1][5] - 游戏开发工作量的70%至80%为美术资产处理,其中动画制作和模型制作是主要部分 [3] - 在动画制作的骨骼绑定环节,AI工具可将原本需要1天半到3天半的工作缩短至1到3小时,节省70%至90%的人工 [3] - 在动画关键帧制作环节,AI模型能根据5至10帧关键帧自动生成60帧流畅动画,将效率提升3至5倍 [3] - 腾讯内部项目应用AI后,角色动画制作周期缩短40%,角色技能原型验证时间从2周压缩至3天 [4] AI工具的应用现状与范围 - 腾讯的全链路AI创作解决方案VISVISE已在其内部头部项目使用,并开放给至少50家外部公司,包括完美世界、库洛游戏,同时向日韩及欧洲头部游戏公司开放试用 [4] - 3D生成工具目前尚难用于3A游戏的核心高品质资产制作,但能高效处理项目中的次级资源,如植被、山林、路边雕像等 [4] - AI工具的使用成本较低,采用订阅制,生成一张符合要求的图像成本极低,开箱率普遍不超过10张(即生成10张必有1张符合要求),其成本远低于游戏外包人员(日薪超千元)或正式员工的人力成本 [6] 行业对AI的不同看法与影响 - 部分行业声音认为AI难以替代创意工作,例如特斯拉CEO马斯克成立的xAI游戏工作室计划遭质疑,有观点认为AI无法提供优秀游戏必需的创意和远见 [6][8] - 一些已发行的AI游戏被玩家评论为更像技术演示,存在程式化、枯燥、对话公式化等问题,削弱了游戏可玩性 [8] - 另有从业者观点发生转变,认为AI在触发联想和概括语义方面进步显著,逐渐学会如何触动人心,AI带来的创作方式多样化是积极发展 [9] AI对不同规模团队的影响 - AI工具对独立游戏等极小团队以及短平快项目的轻量级团队作用最大,使原本需要十人以上团队完成的工作可由一两人完成,实现技术平权 [10] - 目前AI工具更多被中小型团队大量使用,而品质要求极高的3A商业项目为了口碑和研发稳定性,尚未广泛铺开AI工具 [10] - AI工具能降低工作门槛,例如将动作捕捉(成本约50万至100万美元)等高成本技术降至小团队可负担的水平,让不同规模团队在技术上拥有更平等的权利 [10] 技术发展与未来趋势 - 当前AI工具主要聚焦于提升效率,尚未完全颠覆原有的游戏工业管线和工作流程 [11] - 世界模型(如谷歌的Genie 3)等新技术可能改变游戏制作,例如快速生成游戏玩法的Demo,大幅缩短汇报和决策周期 [11] - 未来可能出现聚合解决方案的智能体,用户输入数值、文本等材料即可快速生成完整游戏,若结合世界模型可制作更精彩的游戏 [11] - 行业探索路径包括从传统制作流程推向更自动化,以及从世界模型等最终形态反向推导,两种路径未来可能交汇,预计3D生成世界技术还需三五年才能推动独特工作流出现 [12]
智能驾驶深度报告:世界模型与VLA技术路线并行发展
国元证券· 2025-10-22 16:56
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2] 报告核心观点 - 智能驾驶行业正沿着"端到端"和"智驾平权"两大方向加速进化 [3][16] - 端到端智能驾驶技术已演进分化出VLA和世界模型两条核心并行发展路径 [64][69] - VLA技术路线适合快速迭代和现有量产平台兼容 世界模型路线则代表更底层的认知方式 强调物理规律和空间理解力 适合长期演进 [69] - 新能源车销量与智驾功能形成协同增长闭环 推动智能驾驶快速渗透 [9] 智能驾驶行业发展回顾 - 中国新能源车渗透率从2019年较低水平一路攀升 先后突破10%、30%、50%等关键关口 [9] - 中国新能源汽车L2级别智能驾驶功能渗透率从2019年的约7%起步 到2025H1已上升至65%左右 [9] - 2024年中国智能网联汽车产业规模已攀升至11082亿元 同比增长34% 预计到2030年产业规模有望突破5万亿元 [15] - 截至2025年6月 中国智能驾驶产业主体数量快速增长 注册相关企业总数已超过7000家 [15] 智驾沿"端到端"、"智驾平权"加速 - 高阶智驾功能搭载率从2024年1–4月的11.8%提升至2025年同期的18.6% [21] - 20–30万元价位段汽车的L2++智能驾驶功能搭载率从2024年Q1的25.15%升至2025年4–5月的47.11% 实现近乎翻倍增长 [27] - 头部自主品牌将智能驾驶价格门槛拉低 例如比亚迪秦PLUS智驾版售价11.98万元已搭载高速NOA功能 中长期目标是在10万元级别车型上实现高速NOA全面标配 [21] 端到端智能驾驶复盘 - 端到端自动驾驶架构演进分为四个主要阶段:感知"端到端"/"BEV+ transformer"、决策规划模型化/"占用网络"、模块化端到端/两段式端到端、OneModel/一段式端到端 [32] - BEV感知通过融合多传感器数据形成360°全方位无死角感知视野 结合Transformer注意力机制实现对关键区域聚焦处理 [37][41] - 占用网络通过对三维空间进行体素级划分与占用预测 构建更高精度的全局环境表示 能够识别未被标注的"泛目标" 提升系统环境理解力 [46] - 一段式端到端模型将传统"感知—规划—控制"流程统一映射到单一模型中 减少任务拆解带来的累积误差 但缺乏可解释性且需要海量高质量数据 [57][59] VLA技术路线 - VLA模型将视觉、语言与动作三大模态深度耦合 其核心流程可拆解为四步:环境感知、转化为语言Token、生成驾驶建议、转化为车辆控制轨迹 [69][76] - VLA技术落地的三大关键抓手包括:3D中间表征、长时序记忆、效率/能耗优化 [93] - VLA工程化难点包括:极端工况下的模型稳定性、长尾场景的泛化能力、多源数据的时序同步与时空一致性 [94][97] - VLA技术发展趋势围绕"空间—时间—成本"三条核心路径系统化演进:空间维度向高精度三维语义建模过渡 时间维度发展长时记忆与预测 成本维度通过MoE技术和模型蒸馏实现结构化算力优化 [111] 世界模型技术路线 - 世界模型是一类能够模拟和推演真实环境状态的生成式AI框架 通过对环境物理规律和因果关系的建模 实现对现实世界的"内在理解"与"主动推理" [117] - 世界模型的演进脉络分为三个阶段:Dyna算法奠定理论基础、《World Models》推动进入深度学习阶段、以Dreamer系列为代表的加速落地阶段 [121] - 世界模型在智能驾驶中的四大价值包括:大幅降低数据成本、升级安全标准、提升时空一致性、具备认知推理能力 [127][133] - 世界模型工程化难点包括:长期可扩展内存瓶颈、仿真与现实世界的差异、决策与责任机制缺失、隐私与数据安全挑战 [134][138] - 世界模型未来趋势是与强化学习深度结合 通过在虚拟环境中交互试错 使模型具备主动探索与优化能力 有效降低错误策略导致的安全风险与成本消耗 [144]
特斯拉最新技术分享,FSD核心架构曝光了
36氪· 2025-10-22 16:00
特斯拉FSD技术架构曝光 - 特斯拉在ICCV会议上曝光FSD核心架构,显示其已整合为一张大型神经网络,可输入摄像头视频、导航信息、自车运动状态和声音等多模态信息[1][6] - 网络输出端包括全景分割信息、3D占用网络、3D高斯渲染、语言以及未公开信息,最终经推理输出动作[6] - 此次分享是特斯拉时隔3年后首次对外公开技术细节[4] 行业技术路线争议 - 曝光架构中输出语言信息,引发特斯拉可能采用VLA路线的猜想,行业当前存在VLA与世界模型的技术路线之争[7][10] - VLA路线代表为元戎启行和理想,认为该范式可利用互联网海量数据积累常识,并具备思维链能力进行长时序推理[7] - 世界模型路线代表为华为和蔚来,认为其更接近问题本质,在时空认知能力上比VLA具有更高带宽[10] 自动驾驶进入大模型阶段 - 曝光信息显示特斯拉FSD已步入大模型阶段,参数规模仍在扩大[10] - 行业认为更大参数模型需要更大算力支撑,今年涌现多款算力达1000TOPS甚至2000TOPS的新车[10] - 特斯拉新一代智能辅助驾驶芯片算力据称将直奔2000TOPS,模型参数将提高十倍[10] FSD最新版本功能更新 - FSD推送V14.1.3版本,包含10项更新,优化了对树枝、轮胎等细小障碍物的横向避让能力,并改善了无保护转弯、变道等场景的处理[12] - 增加个性化功能,用户可通过速度配置文件定制驾驶偏好,系统遇到特种车辆会靠边停车或让行[12] - 神经网络中添加导航和路线功能,可实时生成绕行路线以应对堵车,用户到达终点后可选择停车位置[12] - FSD重启疯狂麦克斯模式,驾驶风格激进,适用于赶飞机、接孩子等紧急场景[12][14] 中国自动驾驶发展态势 - 特斯拉不再对外技术分享后,中国玩家在VLA和世界模型方向持续进行无人区探索[17] - 中国自动驾驶算法正在告别特斯拉崇拜,国内有实力的AI玩家已不再关注马斯克的动向[17]
哈佛&MIT:AI能预测,但它还解释不了“why”
36氪· 2025-10-22 08:56
研究背景与核心问题 - 哈佛与MIT的研究旨在探究大语言模型是否能构建“世界模型”,而非仅进行下一个词的预测 [1] - 实验选择轨道力学作为测试场景,因其在科学史上具有代表性,可类比于AI重演开普勒发现并测试其是否学会牛顿力学 [2] - 研究关注“预测与解释脱节”这一现代AI模型的根本性局限 [4] 实验设计与方法 - 研究使用1000万个模拟太阳系坐标序列(总计200亿个token)训练一个1.09亿参数的小型Transformer模型 [1][4] - 实验设计核心是检验模型预测行星运动时,是否会利用牛顿定律还是仅依赖“特定情境的经验法则” [4] - 后续测试还扩展到当前最先进的大语言模型以及“晶格问题”和“黑白棋”等其他场景 [9][10] 主要研究发现 - AI模型能精准预测行星轨迹,预测结果几乎完美,但其推导的受力向量杂乱无章,与牛顿定律毫无关联 [4][6] - 模型并未编码出牛顿定律的世界模型,而是依赖无法推广到其他情况的经验法则 [4][6] - 当使用新的银河系样本数据测试时,模型会编码出完全不同的另一套错误的“受力定律”,错误并不一致 [7][8] - 最先进的大语言模型同样表现出精准预测与错误解释脱节的问题,即便训练数据中已包含牛顿定律 [9] 对AI行业发展的启示 - 研究结果表明当前形态的LLM不足以实现真正的科学发现,其泛化能力仅限于“所熟悉的东西,或与所熟悉的东西相像的东西” [9][11] - AI未来发展需结合“晶化智力”(已有知识技能)与“流动智力”(经验迁移能力),而非单纯追求模型规模扩大 [12] - 行业需探索新方法(如Yann LeCun的JEPA框架)让AI掌握构建世界模型的能力,从“预测机器”进阶为能理解世界运行逻辑的“思考者” [12][14] - 科学的核心问题——精准预测与理解事物运行的“为什么”——将是AI未来需要攀登的高峰 [12][13]
从地平线自动驾驶2025年的工作,我们看到了HSD的野心......
自动驾驶之心· 2025-10-22 08:03
公司战略与整体进展 - 公司在2025年经历组织调整和资源整合后,在自动驾驶领域双线并进,一方面推动新一代辅助驾驶系统HSD的大规模量产落地,另一方面通过前沿论文重塑自动驾驶的底层逻辑 [2] - 公司正从技术供应商向行业标准定义者跃迁,其全新的HSD系统采用创新的"一段式端到端+强化学习"架构,突破传统感知-决策-控制模块的延迟瓶颈 [2] - 公司集中发力在端到端和世界模型两个最热门的方向上,得益于从UniAD时期就积累的大量学术经验,并已将重点铺在了一段式端到端的量产 [3] - 公司在Diffusion、强化学习、GoalFlow、世界模型等领域颇有建树,未来预计会有更多自动驾驶和具身智能方面的基石工作问世 [4] 端到端自动驾驶技术 - ResAD框架通过归一化残差轨迹建模,将学习目标从直接预测未来轨迹转变为预测轨迹相对于惯性参考的偏差,在NAVSIM基准测试中以88.6的PDMS分数达到最先进性能 [6][8] - CorDriver框架引入"安全走廊"作为中间表示,在nuScenes数据集上相比VAD等方法,与交通参与者的碰撞率降低66.7%,与路缘的碰撞率降低46.5% [9][11] - TTOG框架统一运动预测与路径规划任务,在nuScenes数据集上平均L2误差降低36.06%,在Bench2Drive上驾驶分数提升22%,尤其在少样本场景下表现出强大泛化能力 [12][14][15] - MomAD框架引入轨迹动量和感知动量机制,在nuScenes和Turning-nuScenes数据集上显著降低长时预测和转弯场景中的碰撞率,提升轨迹平滑性和一致性 [16][18][19] - GoalFlow框架采用目标驱动的流匹配,在NavSim基准测试中PDMS分数达到90.3,仅需单步去噪即可达到优异性能,推理速度比传统扩散模型快数十倍 [20][22][24] - RAD框架基于3D高斯泼溅技术构建强化学习环境,相比纯模仿学习方法碰撞率降低3倍,显著提升驾驶安全性 [23][26][29] - DiffusionDrive框架采用截断扩散策略,在NAVSIM数据集上取得88.1 PDMS,在nuScenes上比VAD降低20.8% L2误差和63.6%碰撞率,实现45 FPS的实时性能 [27][30][35] 自动驾驶场景生成与世界模型 - Epona模型实现解耦的时空建模和异步多模态生成,在NuScenes数据集上取得最佳FVD指标,并将最长生成时长从现有方法的15秒大幅提升至2分钟 [31][33][36] - UMGen框架能同时生成自车动作、交通参与者、交通地图和图像四种关键模态,生成长达60秒的多样化、多模态一致的驾驶场景 [34][38][41] - DrivingWorld模型基于GPT风格视频生成框架,在仅使用15帧条件输入的情况下可生成超过40秒的高保真视频,时长是现有最佳模型的2倍以上 [39][42][46] 自动驾驶视觉语言模型 - AlphaDrive框架首次将基于GRPO的强化学习与规划推理相结合,在规划准确率上比仅用监督微调的模型显著提升25.52%,并展现出高效的数据利用能力,仅用20%的训练数据即可超越基线模型35.31% [43][45][47]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-22 08:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 合伙人资质要求 - 候选人需来自QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级会议论文成果的候选人将获得优先考虑 [4] 合伙人待遇与支持 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]