World Model - 财报，业绩电话会，研报，新闻 - Reportify

World Model

搜索文档

理想詹锟ICCV'25讲世界模型从数据闭环到训练闭环PPT

理想TOP2· 2025-10-28 23:18

技术发展路线 - 自动驾驶技术正从基于规则的系统、模仿学习向端到端+视觉语言模型以及无地图方案演进 [6] - 技术性能的提升依赖于仿真效率、数据规模以及人类工程师的经验 [6] - 视觉语言模型和世界模型是构建L4级训练闭环的关键组成部分 [15][16] 数据闭环的价值与规模 - 公司已积累15亿公里的驾驶数据，数据片段长度为15至45秒 [8] - 数据闭环基础设施包含超过200种触发条件，能够实现分钟级的数据反馈 [8] - 数据规模呈现显著增长，从2020年的数据点增长至2025年的规划 [8] 端到端视觉语言模型的数据缩放定律 - 模型性能随着训练片段数量的增加而提升，从100万片段到1000万片段均有对应性能指标 [10] - 在引入“超级对齐”技术后，模型干预间隔里程数显著提高，例如从无对齐时的约20公里提升至超级对齐后的超过200公里 [10] - 性能提升过程具有明显的时间线，从2023年02月27日到2025年01月05日期间持续迭代优化 [10] 数据闭环的局限性 - 数据闭环技术无法单独解决所有复杂驾驶场景，例如交警指挥、车道变化、前方烟花爆炸、羊群突然切入等边缘案例 [11][12] - 行业共识是自动驾驶的竞争已进入下半场，重点从数据闭环转向训练闭环，核心在于评估和真实世界效用 [13][14] 训练闭环的关键技术栈 - 关键技术包括区域级仿真、合成数据、强化学习、世界模型、多模态生成与场景重建等 [17][18] - 仿真技术从重建向生成演进，结合了3D高斯泼溅+神经辐射场、3D高斯泼溅+扩散模型等前沿方法 [19] - 公司在该领域有明确的技术发展路线图和时间表，例如2024年2月的Hierarchy UGP项目至2025年9月的RLGF项目 [20][21][24][26] 生成数据的应用 - 生成数据主要应用于场景编辑、场景迁移和场景生成三大方向 [27][29][30][31][33] - 生成数据能够覆盖多种关键变量，包括车辆、自车行为、交通状态、天气、道路类型和行为等 [34] 强化学习引擎的系统能力 - 强化学习引擎的核心能力取决于世界模型、3D资产、模拟智能体、奖励模型以及GPU算力与效率 [35][36] - 构建多样化的场景、交互行为并提供精确反馈是提升系统泛化能力的关键 [36] - 与基础仿真环境相比，推理过程对计算资源的需求更为密集 [36] 训练闭环的核心挑战 - 交互式智能体是构建训练闭环过程中面临的主要挑战 [38][40] - 模拟环境中是否包含智能智能体对仿真效果有决定性影响 [41] 总结与展望 - 自动驾驶技术的发展方向是从数据闭环演进至训练闭环 [44] - 最终目标是建立由目标驱动、具备自我探索能力的学习方法 [45]

Autonomous Driving

Data Closed-loop

Training Closed-loop

Autonomous Driving

Data Closed-loop

Training Closed-loop

自动驾驶论文速递！VLA、世界模型、强化学习、轨迹规划等......

自动驾驶之心· 2025-10-18 12:00

DriveVLA-W0：世界模型增强自动驾驶VLA - 提出DriveVLA-W0训练范式，通过世界建模预测未来图像提供密集自监督信号，解决VLA模型“监督不足”瓶颈，增强泛化能力与数据扩展性[2][6] - 在NAVSIM v1/v2基准上分别达到93.0 PDMS与86.1 EPDMS，推理延迟降至基线VLA的63.1%[2][6] - 设计轻量级MoE动作专家，将推理延迟降至基线VLA的63.1%[6] - 在70M帧大规模内部数据集上验证数据缩放律放大效应，VQ模型ADE降低28.8%，ViT模型碰撞率降低15.9%[6][9] - 在NAVSIM v1基准上PDMS达93.0%，单摄像头优于多传感器竞品[6][9] CoIRL-AD：协同竞争式模仿强化学习框架 - 提出竞争性双策略框架CoIRL-AD，将模仿学习与强化学习结合在潜在世界模型中[13][15] - 在nuScenes数据集上碰撞率降低18%，在Navsim基准上PDMS得分达88.2[13][15] - 利用潜在世界模型实现基于“想象”的模拟，将强化学习融入端到端自动驾驶框架，无需依赖外部模拟器[15] - 设计基于竞争的学习机制，实现IL与RL的联合训练与结构化互动，避免梯度冲突[15] PAGS：优先级自适应高斯泼溅动态场景重建 - 提出Priority-Adaptive Gaussian Splatting框架，通过语义引导剪枝与正则化实现高质量实时3D重建[23][27] - 在Waymo数据集上达到PSNR 34.63，SSIM 0.933，渲染速度353 FPS，训练时间仅1小时22分钟[23][27][30] - 基于静态语义分数和动态梯度贡献分数的混合重要性度量，简化非关键场景元素，保留安全关键目标细粒度细节[27] - 模型尺寸530 MB，显存占用6.1 GB，优于EmerNeRF、StreetGS等主流方法[27][30] Flow Planner：流匹配自动驾驶规划 - 基于流匹配和交互行为建模技术，在nuPlan Val14基准测试中达到90.43分，是首个无需先验知识突破90分的学习型方法[34][38][40] - 在interPlan基准测试中比Diffusion Planner提升8.92分[34][40] - 提出细粒度轨迹分词技术，将轨迹分解为含重叠区域片段，解决全轨迹建模复杂度高问题[35][40] - 构建交互增强的时空融合架构，通过自适应层归一化将异质特征投影到统一latent空间[40] CymbaDiff：草图驱动3D语义场景生成 - 提出CymbaDiff模型，结合圆柱Mamba结构与空间扩散机制，实现基于草图与卫星图像的3D语义城市场景生成[44][47] - 在Sketch-based SemanticKITTI上FID达40.74，比现有方法提升约16分[44][47] - 构建首个面向3D户外语义场景生成的大规模草图驱动基准数据集SketchSem3D[47] - 设计圆柱曼巴扩散模型，显式编码圆柱连续性与垂直层级，提升空间连贯性[47] DriveCritic：VLM自动驾驶评估框架 - 提出DriveCritic框架，利用视觉语言模型进行上下文感知的自动驾驶评估，在人类偏好对齐任务中达到76.0%准确率[55][57][58] - 揭示现有规则化指标缺乏上下文感知能力与人类对齐性的缺陷[57] - 构建DriveCritic数据集，从NAVSIM采样5730个轨迹对，标注pairwise人类偏好[57] - 采用监督微调加强化学习微调两阶段训练，使模型具备跨视觉符号上下文的轨迹判优能力[57][58]

Reinforcement Learning

3D Reconstruction

Trajectory Planning

Autonomous Driving

Autonomous Driving

Reinforcement Learning

3D Reconstruction

Trajectory Planning

Autonomous Driving

Autonomous Driving

首个代码世界模型引爆AI圈，能让智能体学会「真推理」，Meta开源

具身智能之心· 2025-09-26 08:04

文章核心观点 - Meta公司发布了一个名为Code World Model的新型代码生成大模型，其采用世界模型架构，旨在通过模拟代码执行过程来提升推理和规划能力，代表了与大语言模型不同的技术路径 [1][5][16] 模型架构与技术特点 - CWM是一个拥有320亿参数的稠密、仅解码器结构的大语言模型，支持长达131k tokens的上下文长度 [7][8] - 模型在Python解释器和智能体式Docker环境中使用了大量观测-动作轨迹进行中间训练，并进行了大规模多任务推理强化学习 [12] - 模型基于大量编码数据和定制的Python + Bash世界建模数据进行训练，使其能够模拟Python函数的执行以及Bash环境中的智能体交互 [22] 模型性能表现 - 在通用编程与数学任务上，CWM表现如下：SWE-bench Verified pass@1为65.8%，LiveCodeBench为68.6%，Math-500为96.6%，AIME 2024为76.0% [8][23] - 在Aider Polyglot基准测试中，采用整文件编辑格式时，CWM的准确率为35.1%，与Gemini 2.0 Pro exp-02-05的35.6%和Grok 3 Mini Beta的34.7%表现接近 [24] - 在Terminal-Bench上，CWM与Terminus 1智能体配合使用的准确率为26.3%，优于Gemini 2.5 Pro的25.3%和o4-mini的18.5% [28] - 在BigOBench复杂度任务中，CWM在时间复杂度预测与生成的全部指标上均超越基线模型，例如时间复杂度的Code Only pass@1达到76.1%，优于Qwen3-32B的70.0% [29][30] 研究意义与未来方向 - CWM提供了一个强大的测试平台，用于探索世界模型在改进代码生成推理与规划能力方面的潜力 [15][31] - 世界模型方法旨在弥合语言层面推理与可执行语义之间的鸿沟，使模型能够预测自身行为的后果，从而实现更有效的决策 [16][17][31] - 消融实验表明，世界建模数据、Python执行轨迹以及可执行的Docker环境能够直接提升下游任务表现 [31] - 该研究支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究 [31]

Meta Platforms(US:META)

Artificial Intelligence

Code World Model (CWM)

Artificial Intelligence

Code World Model (CWM)

人形机器人考察要点_市场展望、组件与具身人工智能-Humanoid Robot tour takeaways_ market outlook, components and embodied AI

2025-09-18 21:09

**行业与公司** 行业涉及人形机器人及自动驾驶公司包括机器人初创企业优必选UBTECH 大族机器人Leju 越疆科技Dobot 以及零部件供应商奥比中光Orbbec 兆威机电Zhaowei 速腾聚创RoboSense 固高科技Googol 机器人制造设备供应商联想控股LK Tech 及自动驾驶方案提供商Minieye [1][7] **核心观点与论据** *市场前景* 人形机器人市场未来十年将快速扩张当前主要用于教育和研发未来2-3年将广泛用于工厂场景长期有望进入商业和家庭应用领域当前全功能人形机器人BOM成本约5-6万美元未来5年成本将快速下降得益于产品设计改进和规模效应 [1] 自动驾驶领域日益严格的法规将为AD零部件提供更多机会例如L3要求可能带来长距离物体检测需求利好激光雷达LiDAR 而前视摄像头模块FVCM和驾驶员监控系统DMS因强制自动紧急制动AEB安装规定面临巨大增长潜力 [1] *零部件机遇* 灵巧手供应商兆威机电于2024年底推出人形机器人灵巧手模型凭借寿命温控和负载性能优势长期目标全球市场份额10-15% 假设2030年全球人形机器人出货量达300万台公司灵巧手出货量预计60-90万台灵巧手BOM成本占机器人总成本20-30% 按单台机器人20-30万元人民币计算单台价值量4-6万元人民币 [12][13] 视觉系统方面奥比中光认为深度相机（包括结构光相机和间接飞行时间iToF）是人形机器人主流选择而速腾聚创预计LiDAR采用率将因成本下降和远距离传感需求上升而提高 [2][21][22] 运动控制系统供应商固高科技凭借多自由度控制专业知识其控制器可很好应用于人形机器人执行器 [2][15] 材料方面联想控股看到镁合金在人形机器人结构材料中采用率上升因减重要求和生产工艺成熟镁合金可使功能部件减重30-40% 每辆汽车镁合金用量从2020年1.5-3公斤增至2024年燃油车5公斤和新能源车10公斤政策目标是2030年达到45公斤 [25][26] *算法与数据* 视觉-语言-行动模型VLA和世界模型World Model是具身AI的两条竞争技术路线 VLA采用单一端到端模型而世界模型学习现实世界物理规律所需边缘侧计算能力更少在长流程任务中表现良好当前高质量数据可用性是关键瓶颈机器人初创企业可能结合使用模拟数据和真实数据或与政府支持的数据收集中心合作 [3][24] *公司具体动态* 优必选Walker系列人形机器人现已部署于比亚迪极氪东风一汽大众等汽车工厂用于物料搬运目标2025年出货500台 2026年出货2000-3000台当前BOM成本5-6万美元预计未来2-3年成本快速下降 [23] 速腾聚创新款EMX激光雷达在精度（192通道对64通道）探测距离（300米对200米）和自研SPAD-SOC芯片方面优于竞争对手禾赛ATX产品截至2025年8月已为40多款车型获得EM4/EMX设计订单很可能成为小米理想零跑和长安的第二供应商预计2025年ADAS激光雷达出货60-70万台 2026年150万台其中约50%来自比亚迪 20-25%来自吉利约10%来自上汽 [10] 越疆科技是全球领先协作机器人COBOT品牌 2025年上半年六轴协作机器人销售同比增长47% 大幅超越行业增长显示份额提升 2025年一季度推出首款人形机器人原型三季度推出第二版 [8][9] 大族机器人目标2025年出货超过1000台 2026年预计5000-10000台关节是人形机器人关键部件占成本40%以上包括电机减速器和执行器当前产品有28个关节下一代目标31个关节预计平均售价ASP将随规模效应下降到2026-2028年降至15万元人民币（约2万美元） [18][19][20] *自动驾驶与安全法规* Minieye提供从L0到L2的iSafety解决方案（前视摄像头模块FVCM） L2+到L3的iPilot解决方案（域控制单元DCU）以及L4的iRobo解决方案中国已规定从2026年起商用车强制安装AEB 很可能从2028年起乘用车也强制安装 2024年中国乘用车AEB渗透率约为60% [16][17] **其他重要内容** *投资评级与风险* 联想控股XBQXF目标价3.2港元基于10倍2026年预期每股收益下行风险包括低于预期的总可寻址市场TAM和竞争 [27][28] 速腾聚创XEDSF目标价46港元基于DCF和EV/销售额估值平均下行风险包括汽车市场价格竞争 LiDAR市场竞争加剧 ASP/毛利率下降以及美国收入关税风险 [29][32] *研究范围* 报告涵盖工业及汽车行业多个公司包括买入中性和表现不佳评级 [33][34][35][36] *免责声明* 美国银行证券与其覆盖的发行人有业务往来可能存在利益冲突投资者应将此报告仅作为投资决策的单一因素 [4][5]

机器人(SZ:300024)

Autonomous Driving

Autonomous Driving

又有很多自动驾驶工作中稿了ICCV 2025，我们发现了一些新趋势的变化...

自动驾驶之心· 2025-08-16 08:03

多模态大模型 & VLA - 多模态大模型和VLA是当前最热门的赛道，主流范式遵循『预训练-微调-强化学习』三阶段，但通用自动驾驶VLM基础模型仍缺失 [5] - 华科与小米联合推出ORION框架，通过视觉语言指令生成动作实现端到端自动驾驶 [5] - 中山大学与美团合作开发All-in-One大型多模态模型DriveMM，整合多任务处理能力 [6] - 重庆大学提出MCAM模型，通过多模态因果分析理解自车级驾驶视频 [8] 闭环仿真 & 世界模型 - 基于世界模型和3DGS的闭环仿真成为行业刚需，聚焦车道线、红绿灯等细粒度性能优化 [5] - 清华大学与旷视科技推出DiST-4D模型，实现4D驾驶场景的时空解耦生成 [34] - 美团与中山大学开发RoboTron-Sim，通过模拟极端案例提升实车驾驶性能 [17] - 清华大学与地平线合作Epona模型，采用自回归扩散方法构建世界模型 [47] OCC与3D重建 - 丰田利用大规模二值占用数据开发语义占用预测模型B2S-Occupancy [52] - 清华大学团队提出GS-Occ3D，基于高斯泼溅技术扩展纯视觉占用重建 [51] - Valeo AI推出GaussRender，通过高斯渲染学习3D占用 [60] - 慕尼黑工业大学开发SceneDINO，实现无监督语义场景补全 [56] 目标检测 - 新加坡国立大学提出Perspective-Invariant 3D检测方法PI3Det，提升视角不变性 [68] - 韩国庆熙大学开发SFUOD框架，解决无源未知物体检测问题 [71] - 南京理工大学推出OcRFDet，基于物体中心辐射场实现多视角3D检测 [75] 数据集与评估 - 加州大学欧文分校发布DriveBench工具包，评估VLM在自动驾驶中的可靠性 [76] - 卡内基梅隆大学推出ROADWork数据集，专注施工区域驾驶场景 [79] - 中国科大与华为联合开发VLADBench，细粒度评估大视觉语言模型 [87] 端到端与轨迹预测 - 香港科技大学与滴滴合作强化轨迹预测模型，引入奖励启发机制 [29] - 韩国DGIST实验室利用可控扩散模型解决长尾轨迹预测问题 [30] - 中科院自动化所与理想汽车推出World4Drive，通过意图感知潜变量模型实现端到端驾驶 [32] 其他技术方向 - 浙江大学与中兴通讯开发Dynamic-DINO，实时开放词汇检测 [93] - 新加坡国立大学团队提出LiMA框架，跨视角蒸馏提升LiDAR表征 [97] - 复旦大学与萨里大学合作DriveX，在自由轨迹上生成驾驶视图 [37]

Multimodal Large Model

Closed-loop Simulation

OCC and Detection

Autonomous Driving

Multimodal Large Model

Closed-loop Simulation

OCC and Detection

Autonomous Driving

DeepMind科学家揭秘Genie 3：自回归架构如何让AI建构整个世界 | Jinqiu Select

锦秋集· 2025-08-06 17:07

核心观点 - Google DeepMind发布的Genie 3是一种革命性的通用世界模型，能够从文本或图像生成高度互动的3D环境，支持实时交互和动态修改 [1] - 该技术有望开启万亿美元商业版图，成为VR领域的杀手级应用，其核心是生成式交互环境模型，融合游戏引擎、物理模拟器和视频生成模型的特性 [9] - Genie 3代表了从手工编码到AI生成的世界模型演进，通过海量数据自主学习环境动态规律，终极目标是仅用文本提示生成任意交互式世界 [10] 技术演进 - 初代Genie通过3万小时2D游戏录像训练，自主学会视差效应等物理规律，创新包括时空视频编码器、潜在大动作模型和自回归动态模型 [11] - Genie 2实现3D跨越，视觉保真度提升至360p，模拟现实光照效果，具备记忆能力和物体恒存性 [12] - Genie 3分辨率达720p，实现照片级逼真体验和数分钟持续交互，融合VEO视频生成模型优点，展现超长上下文窗口和卓越一致性 [13][14] 关键特性 - 输入方式从图像转为文本提示，提供更大灵活性，支持环境多样性、长时程交互和提示控制的世界事件 [15] - 通过随机神经网络实现世界一致性，自回归架构使模型参考历史生成画面，新区域保留随机性，区分能力来自大规模训练 [16] - 核心应用是为具身智能体训练提供平台，模拟现实场景如自动驾驶罕见事件，形成世界基础模型愿景 [17] 行业影响 - 创造全新互动娱乐形态，类似YouTube 2.0或体验机器，用户可共同创造永不终结的虚拟宇宙 [19] - 简化交互式动态图形制作流程，与传统游戏引擎形成互补而非替代关系 [22] - 有望解决仿真到现实鸿沟，通过逼真世界模拟让AI安全走向真实环境 [23] 技术局限 - 目前仅支持单智能体体验，多智能体系统仍在开发中 [20] - 可靠性问题存在，完全物理和逻辑准确性需时间迭代，无法生成未训练数据场景如古代战役 [20] - 计算速度限制模型复杂度，采用模块化方案如Gemini与Genie 3协同工作 [20]

Generative Interactive Environments

Artificial Intelligence

Generative Interactive Environments

Artificial Intelligence

深夜，OpenAI、谷歌等更新多款模型

第一财经· 2025-08-06 15:17

大模型厂商新品发布动态 - OpenAI开源两款MoE架构推理模型gpt-oss-120b（1170亿参数/51亿激活参数）和gpt-oss-20b（210亿参数/36亿激活参数），标志其开闭源策略转变[3][4] - Anthropic推出Claude Opus 4.1模型，采用渐进式更新策略，在SWE-bench Verify基准测试得分74.5%（较前代+2pct），终端编程/推理/多语言问答能力均有提升[6][7] - 谷歌发布实时交互世界模型Genie 3，支持720p分辨率下24fps动态画面生成（最长数分钟），物理模拟涵盖水/光/生态系统等自然现象[8][9] 技术性能突破 - gpt-oss-120b在编码/工具调用基准测试中接近闭源o4-mini水平，gpt-oss-20b性能对标o3-mini，均支持端侧部署（80GB GPU/16GB消费级设备）[5] - Claude Opus 4.1在Terminal-Bench/GPQA Diamond/MMMLU基准测试分别达43.3%/80.9%/89.5%，客户反馈代码修改精准度显著提升[7] - Genie 3视觉记忆追溯达1分钟，画面一致性时长较Genie 2的8秒提升至数分钟，可模拟复杂环境交互（如摩托艇撞击灯笼效果）[8][9] 战略方向变化 - OpenAI时隔六年重启开源，CEO称两款模型耗资数十亿美元研发，强调本地部署能力（笔记本/手机端运行）[3][5] - Anthropic转向高频次渐进更新模式，计划未来数周持续推出改进版本，聚焦AI智能体能力强化[6] - 谷歌将世界模型定位为AGI关键路径，Genie 3突破实时交互边界但存在动作空间/多智能体模拟等局限[8][11]

Artificial Intelligence

Artificial Intelligence

Claude Opus 4.1

Artificial Intelligence

Artificial Intelligence

Claude Opus 4.1

CAAI具身智能专委会主任蒋树强：世界模型是智能体进行决策的重要依据

机器人圈· 2025-08-04 19:38

具身智能技术发展 - 具身智能的核心要素包括身体、环境与智能，三者通过深层次交互实现智能功能[4] - 智能实现依赖身体结构（如身高、感官分布）与感知行为能力的协同作用[4] - 具身大模型需融合视觉、语言、行为数据及物理参数等多模态信息，训练复杂度显著高于传统模型[4] 具身大模型挑战 - 单一本体训练更务实，多形态机器联合训练面临泛化能力、传感器差异等工程难题[4] - 虚拟环境生成数据存在物理参数失真问题，真实与虚拟环境对齐技术尚未突破[5] 世界模型研究 - 世界模型需整合三维空间、动态变化、对象关系等要素，为智能体决策提供环境预测基础[5] - 当前研究聚焦导航等工程实现领域，理论方法仍待完善[5] 机器人行业动态 - 2024年机器人上市公司年报显示行业竞争加剧，头部企业领跑趋势明显[8] - 人形机器人领域面临量产爆发与价格战双重压力，AI技术融合成为关键机遇[8] - 国际前沿技术包括螳螂虾仿生机器人、3D打印软体机械手等创新方向[8]

Embodied Intelligence

机器人配送服务

Embodied Intelligence

机器人配送服务

Meta chief AI scientist Yann LeCun clarifies his role after the company hires another chief AI scientist

Business Insider· 2025-07-27 03:50

高管变动 - Meta宣布ChatGPT联合创始人Shengjia Zhao加入公司并担任Superintelligence Labs首席科学家[1] - Shengjia Zhao将直接与CEO和高管合作制定研究议程和科学方向[2] - Meta表示团队组建进展顺利因此正式确认Zhao的领导职位[2] 组织架构 - Meta的FAIR团队由Yann LeCun领导专注于长期AI研究和新范式开发[3][8] - Superintelligence Labs是包含FAIR、基础研究和产品团队的 umbrella部门[9] - FAIR团队曾开发开源大语言模型Llama并于2023年发布[8] 研究方向 - FAIR团队正在开发可能替代大语言模型的world model[8] - Superintelligence Labs聚焦于为每个人开发"个人超级智能"[9] - LeCun表示将与Zhao合作加速新研究在先进模型中的整合[10] 行业影响 - 此次人事变动引发行业对Meta人才争夺战略的关注[2] - Scale AI创始人Alexandr Wang公开赞扬Zhao的科研成就[10] - LeCun澄清其在Meta的角色和FAIR的使命保持不变[3][9]

Meta Platforms(US:META)

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

Artificial Intelligence

一边是毕业等于失业，一边是企业招不到人，太难了。。。

自动驾驶之心· 2025-07-23 17:56

自动驾驶行业现状 - 自动驾驶行业面临人才供需失衡，企业招聘需求旺盛但匹配度高的顶尖人才稀缺 [2] - 行业资本趋于理性，公司更注重商业化落地和盈利而非盲目扩张 [2] - 技术栈虽完备但距离大规模低成本商业化仍有工程鸿沟 [3] - 企业招聘标准提高，对技术适配性和前沿研究能力要求严格 [3][4] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大技术社区，拥有4000+成员和100+行业专家 [7][9] - 社区覆盖30+技术方向学习路线，包括BEV感知、Occupancy、端到端驾驶等前沿领域 [9][69] - 与主流自动驾驶公司建立内推渠道，提供简历直达服务 [8][10] - 每周活跃度位居国内前20，形成学术与产业界的深度互动 [10][71] 技术研究方向视觉语言模型(VLM) - 涵盖预训练、迁移学习、知识蒸馏等完整技术链条 [15][16][17] - 主流数据集包括LAION5B(50亿图文)、Conceptual 12M(1200万图文)等 [19] - 应用领域覆盖智能交通车辆检索、自动驾驶场景理解等 [27][28] 世界模型 - 聚焦驾驶场景生成与预测，代表工作包括HERMES、DriveDreamer等 [34][36] - 实现3D场景理解与生成的统一，提升自动驾驶系统泛化能力 [34][36] - 2024年涌现InfinityDrive等突破性模型，解决长序列预测难题 [36] 扩散模型 - 在3D重建、视频生成领域形成完整技术体系 [37][42] - DrivingDiffusion等框架实现时空一致性驾驶场景生成 [43] - 应用于数据增强，如Cityscape-Adverse模拟八种恶劣条件 [43] 端到端自动驾驶 - 形成从模仿学习到强化学习的完整方法论 [49][55] - 主流方案融合多模态输入，如DriveGPT4实现可解释决策 [31][55] - 面临开环评估与真实场景的差距挑战 [49][52] 行业应用与数据集 - 专用数据集覆盖200+任务，包括NuScenes(1000小时)、Waymo Open(1200万帧)等 [25][26] - 语言增强系统实现自然语言导航与车辆控制 [26][29] - 决策控制领域涌现GPT-Driver等大模型驱动方案 [29][30]

Autonomous Driving

Visual Large Language Model (VLM)

Diffusion Model

Autos (Autonomous Driving)

Autonomous Driving System

Autonomous Driving

Visual Large Language Model (VLM)

Diffusion Model

Autos (Autonomous Driving)

Autonomous Driving System