世界模型

搜索文档
自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-07-06 20:30
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 特斯拉的纯视觉方案凭借成本优势和算法革新正在撼动多传感器融合的主流地位 [2] - 激光雷达成本已降至200美元,比亚迪自研体系内价格再降70%,技术红利背后是从业者持续升级的压力 [2] 自动驾驶人才市场变化 - 传统激光雷达感知算法工程师面临技术路线冲击,规划控制领域从PID到强化学习的转型带来技能升级紧迫感 [2] - 学生新手面临选择困难:感知算法赛道内卷加剧,数据闭环工程师需掌握分布式计算与AI模型调优能力,车路协同方向要求跨界知识融合 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,聚集近4000名成员和100+行业专家 [7] - 社区覆盖30+技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy、3D目标检测等几乎所有子方向 [7] - 提供学术界与工业界前沿直播、求职内推渠道,每周活跃度位居国内前20 [7] 前沿技术方向 - 视觉大语言模型(VLM)在自动驾驶中的应用包括场景理解、轨迹生成和决策控制 [26][27] - 世界模型技术如GAIA-1、DriveDreamer通过生成式AI模拟驾驶场景演化,提升系统预测能力 [32][33] - 扩散模型在自动驾驶中用于场景合成、数据增强和轨迹预测,相关研究数量快速增长 [35][40] 数据集与评估 - 主流自动驾驶数据集包括nuScenes(12亿帧)、Waymo Open Dataset(12亿帧)和BDD100K(10万视频) [23][24] - VLM预训练数据集规模从1M(SBU Caption)到12B(WebLI),评估指标涵盖mAP(目标检测)、mIoU(语义分割)等 [17][18] 端到端自动驾驶进展 - 端到端方法逐步替代模块化架构,DriveGPT4、DriveMLM等模型实现感知-规划一体化 [29][53] - 技术挑战包括长尾场景处理、系统可解释性以及与传统规控方法的协同 [54][55] - 行业研究报告显示,特斯拉FSD的端到端方案推动量产落地进程加速 [47] 工业界应用案例 - 智能交通领域采用VLM实现语言引导车辆检索和视觉问答,提升交互效率 [25] - 自动驾驶决策控制中,DiLu、LanguageMPC等模型利用大语言模型增强决策可解释性 [28] - 仿真测试依赖扩散模型生成高保真场景,如DriveDreamer-2支持定制化视频生成 [30] 技术社区资源 - 知识星球提供四大板块:技术领域分类、学术直播、求职资料和问题解答 [10][11] - 汇总Awesome资源列表,包括视觉大语言模型、扩散模型和端到端自动驾驶的论文与代码库 [12][35] - 学习路线覆盖BEV感知、Occupancy、CUDA加速等30+方向,配套工程解决方案与优化思路 [66][67]
最新综述:从物理仿真和世界模型中学习具身智能
自动驾驶之心· 2025-07-05 21:41
具身智能与机器人研究前沿 - 实现强大具身智能的关键在于整合物理模拟器与世界模型 物理模拟器提供高保真训练环境 世界模型赋予机器人环境内部表征能力以支持预测规划与决策[3] - 物理模拟器与世界模型互补增强机器人自主性、适应性和泛化能力 外部模拟与内部建模相互作用弥合模拟训练与现实部署的差距[3] - 维护包含最新文献和开源项目的资源库 为具身AI系统发展提供全面视角并明确未来挑战[3] 智能机器人能力分级系统 - 提出智能机器人能力分级模型 涵盖从基本机械执行到高级完全自主社交智能的五个渐进级别(IR-L0到IR-L4)[6] - 分级标准基于自主性、任务处理能力、环境适应性、社会认知能力等核心维度[7][10][11] - IR-L0为完全非智能程序驱动 IR-L1具备有限规则反应能力 IR-L2引入初步环境意识 IR-L3实现类人认知与协作 IR-L4为终极目标[14][15][16][17][19] 机器人移动性与操作技术 - 腿部运动技术从位置控制发展到力控关节结合强化学习 实现非结构化环境适应与高动态运动如奔跑跳跃[22] - 单手操作从预编程发展到基于学习的方法 灵巧手操作通过两阶段与端到端方法结合提升泛化能力[26] - 双手操作与全身协调通过大规模演示数据与基础模型实现 如ALOHA系列双手机器人精细操作[28] 主流物理模拟器对比 - Webots、Gazebo、MuJoCo等传统模拟器在复杂物理交互上存在局限 高端模拟器如Isaac系列支持GPU加速与多物理场[31][36] - 物理特性对比涵盖吸力建模、可变形物体仿真、流体动力学等维度 可微物理能力主要在科研导向模拟器中体现[32][36] - 渲染能力对比显示NVIDIA系模拟器在光线追踪和PBR上表现突出 轻量级模拟器主要用于功能验证[34][35][41] 世界模型技术演进 - 世界模型从早期基于循环网络的潜态建模发展到结合Transformer和扩散模型的高保真生成式模拟[45] - 代表性架构包括循环状态空间模型、联合嵌入预测架构、Transformer-based模型、自回归生成模型和扩散生成模型[46][47][49][50][51] - 核心应用包括神经模拟器生成仿真数据、动态模型支持预测规划、奖励模型替代手工设计[52][56][64] 自动驾驶与铰接式机器人应用 - 自动驾驶世界模型通过神经模拟器生成高保真场景 动态模型学习环境动态 奖励模型评估安全性[60][64] - 铰接式机器人世界模型通过神经模拟器支持模拟到现实迁移 动态模型实现动作规划 奖励模型减少手工设计[65][68] - 技术趋势包括3D结构化建模、多模态融合、端到端集成等方向[67][71] 未来挑战与方向 - 共性挑战包括高维感知、因果推理缺失、实时性与计算成本等问题[69][71] - 前沿方向聚焦3D结构化世界模型、多模态基础模型、轻量化高效推理等技术[71][75] - 工业应用涵盖自动驾驶、服务机器人、科学发现等领域 推动技术落地与商业化[75]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 17:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025
机器之心· 2025-07-05 13:53
研究团队与背景 - 第一作者吴怡琳为卡内基梅隆大学机器人学院博士生,研究方向为开放世界物体操控与机器人终身学习,曾获ICRA最佳论文等荣誉[1] - 第二作者田然是UC Berkeley博士生兼NVIDIA研究科学家,专注于机器人基础模型的安全与偏好对齐研究,获多项国际奖项[2] - 该研究获2025 ICLR World Model Workshop最佳论文奖,并被2025 Robotics: Science and Systems会议接收[3] 研究核心问题 - 当前具身智能模型在真实部署中面临"学得像但用不好"的困境,面对环境扰动时成功率常低于30%[3][21] - 核心难题在于如何让机器人在部署阶段具备"推理能力"(Test-Time Intelligence),无需额外数据即可预判风险并调整策略[5] FOREWARN框架设计 - 采用"预见(Foresight)"与"深思(Forethought)"双模块架构,分解为"模拟未来"和"评估未来"两大任务[11] - 世界模型在低维隐空间预测候选动作的环境状态变化,通过离线学习实现高效未来推演[11] - 多模态语言模型将隐空间预测解码为自然语言,结合任务目标与用户意图进行语义评估[12] 系统工作流程 1 候选动作采样与聚类:保留K个代表性动作[16] 2 隐空间未来预测:世界模型预测动作的未来演化[16] 3 语义转译:多模态语言模型将预测转为自然语言描述[16] 4 最优方案筛选:基于语义评估选择最契合意图的动作[16] 创新亮点 - 首次实现世界模型隐空间与多模态语言模型语义空间的对齐[18] - 实现端到端自动化决策,无需人工示范即可实时筛选最优方案[19] - 在基础操作和复杂任务中均展现卓越泛化能力[20] 实验结果 - 引入FOREWARN后成功率从30%提升至70%-80%[21] - 在任务指令变化或感知干扰时仍能维持60%-80%成功率[21] - 有效弥合离线训练与在线部署的能力鸿沟[21] 未来挑战 - 需提升底层生成策略的多样性与泛化能力[23] - 世界模型对大规模数据依赖较强,数据稀缺时性能可能下降[23] - 需优化大模型设定下的推理效率与算力成本[23]
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位· 2025-07-05 12:03
世界模型数据集Sekai - 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构联合推出持续迭代的高质量视频数据集项目Sekai,旨在构建动态且真实的世界供交互探索 [2] - 数据集汇聚来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角视频,配有精细化的多维度标签 [2] - 包含两个互补子集:面向真实世界的Sekai-Real(YouTube视频)和面向虚拟场景的Sekai-Game(游戏视频) [3] 数据集特点 - Sekai-Real从8623小时YouTube视频中筛选出6620小时,确保分辨率不低于1080P、帧率高于30FPS,并保留原生立体声 [3][5][6] - 通过多维度采样模块提取300小时高质量子集Sekai-Real-HQ,综合考虑画质、内容多样性、地点、天气等因素 [3][9] - Sekai-Game来源于虚幻引擎5游戏《Lushfoil Photography Sim》,录制60小时实况视频并获取精确标注信息,最终处理得到36小时数据 [3][5][9] 数据处理流程 - 预处理阶段包括镜头边界检测、剪辑提取与转码(统一为H.265 MP4格式,720p分辨率,30fps帧率),以及视频过滤去除低质量片段 [8] - 标注阶段利用GPT-4o解析位置信息,Qwen 2.5-VL生成平均176字的时序描述,改进的MegaSaM提取相机轨迹 [8] - 采样阶段开发综合质量与多样性的策略,优化训练数据成本 [9] 应用与成果 - 基于Sekai数据训练交互式视频世界探索模型Yume,支持通过键鼠操作控制生成视频 [2] - 最终数据具备精准的三级位置信息、四大内容分类维度、详细视频描述及相机轨迹标注 [10] - 目标推动世界建模与多模态智能发展,应用于视频生成、自主导航等领域 [10]
最新综述:从物理模拟器和世界模型中学习具身智能
具身智能之心· 2025-07-04 17:48
具身智能与机器人研究前沿 - 具身智能的核心在于物理模拟器与世界模型的整合,物理模拟器提供高保真训练环境,世界模型赋予机器人环境内部表征能力[4] - 智能机器人能力分级模型包含五个渐进级别(IR-L0到IR-L4),涵盖自主性、任务处理能力等关键维度[6][7] - IR-L0为完全非智能程序驱动级别,IR-L1具备有限基于规则的反应能力,IR-L2引入初步环境意识与自主能力[12][13][14] 机器人技术支撑体系 - 机器人运动控制技术包括模型预测控制(MPC)、全身控制(WBC)、强化学习(RL)和模仿学习(IL)等方法[22] - 视觉-语言-动作模型(VLA)通过预训练实现自然语言指令到机器人动作的映射,但存在未见过任务处理挑战[22] - 机器人操作技术从基于夹具操作发展到灵巧手操作,DexGraspVLA实现零样本高成功率抓取[24] 物理模拟器技术 - 主流模拟器包括Webots、Gazebo、MuJoCo、PyBullet、Isaac系列等,各具特点如MuJoCo专为关节系统设计,Isaac系列支持GPU加速[29] - 模拟器物理特性对比涵盖物理引擎、特殊物理效果支持和可微物理能力等维度[30] - 高端模拟器如Isaac Sim在多物理场支持上更全面,传统模拟器在复杂物理交互上存在局限[33] 世界模型技术 - 世界模型从早期基于循环网络的潜态建模发展到结合Transformer和扩散模型的高保真生成式模拟[40] - 代表性架构包括循环状态空间模型(RSSM)、联合嵌入预测架构(JEPA)、Transformer-based模型等[41][42][44] - 扩散生成模型如Sora可预测物体物理交互,被称为"世界模拟器"[46] 行业应用与挑战 - 自动驾驶领域应用世界模型三大技术范式:神经模拟器、动态模型和奖励模型[56][57][58] - 铰接式机器人领域世界模型通过模拟物体动态与环境反馈提升操作泛化能力[60][61] - 核心挑战包括高维感知、因果推理缺失和实时性问题,未来方向聚焦3D结构化建模和多模态融合[64][65][66]
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-03 21:36
职位概述 - 公司正在招聘研究员/科学家加入前沿探索团队 专注于构建下一代自动驾驶与机器人的"大脑" 研究方向为具身基座模型(Embodied Foundation Model) 深度融合视觉-语言-行动(VLA)能力并具备卓越空间感知与推理能力 [1] 核心职责 - 前沿算法研究:设计实现领先的具身多模态大模型 突破现有VLA框架 构建能理解复杂三维世界并进行长时序多步骤任务规划的世界模型(World Model) [2] - 核心模型能力攻关:主导多模态场景理解(融合视觉/语言/雷达信息) 复杂语义推理与决策(解析抽象指令生成可解释行动序列) 学习与适应机制(强化学习/模仿学习/自监督学习) [3] - 技术路线规划:构建可泛化高效率的具身智能基座模型 支撑未来1-3年技术演进 探索自动驾驶与通用机器人领域的统一应用潜力 [3] - 学术影响力建设:与全球顶尖高校合作研究表征学习/因果推理/世界模型等长期议题 在CVPR/NeurIPS/ICLR等顶级会议发表论文 [3] 任职要求 - 教育背景:需计算机科学/人工智能/机器人学/自动驾驶领域博士学位或同等深度研究经验 [4] - 研究经验:需满足以下至少一个方向——多模态大模型(VLM/VLA构建经验) 自动驾驶具身智能(熟悉Emma/Gemini Robotics等基座模型) 强化学习(精通PPO/SAC算法及RLHF应用) [5] - 三维视觉能力:需掌握3D计算机视觉/几何学/空间推理 熟悉NeRF/3D Gaussian Splatting等场景表示技术 [6] - 学术能力:需在NeurIPS/CVPR/ICCV等顶会以主要作者发表论文 或相关竞赛获奖 具备跨学科整合能力 [7] 加分项 - 技术基础:精通Python/PyTorch框架 具备大规模数据处理与高效模型训练能力 [10] - 专项经验:有World Model理论研究 亿级参数大模型预训练(含分布式训练) 真实机器人平台(Isaac Sim/MuJoCo/CARLA)算法部署经验 [11] - 社区贡献:在相关开源项目有广受认可的贡献 [11] 工作安排 - 工作地点以北京为主 少量上海职位 [9]
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 16:01
核心观点 - 阿里巴巴达摩院提出WorldVLA模型,首次将世界模型和动作模型融合到一个全自回归模型中,实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制,既提升动作生成的准确性,也增强图像预测的质量 [7] - 在LIBERO基准测试中,WorldVLA抓取成功率提升4%,视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据,不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示,学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解,提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略,解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下,WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中,256*256版本平均成功率79.1%,512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后,动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]
中国汽车的“爷爷”长啥样?70年变迁,竟然只在一瞬间!
电动车公社· 2025-07-02 23:59
中国汽车发展史与文化 - 北京汽车博物馆展示了中国汽车工业从手工制造到全球产销第一大国的发展历程[1] - 博物馆藏品呈现了技术井喷阶段及中国汽车技术对全球品牌的反哺影响[1] - 通过历史车型探讨中国汽车文化根源及新能源发展方向[1] 新能源汽车技术内容 - 近期上市的小鹏G7车型技术特点被重点分析[3] - 电池新国标修订内容通过视频形式进行专业解读[3] - 世界模型概念及AI与智能驾驶底层逻辑被系统讲解[3] 汽车行业内容传播形式 - 采用第一视角沉浸式体验形式呈现汽车博物馆内容[1][2] - 视频号作为主要载体发布文字难以直观表达的技术解析内容[2][3] - 视频内容涵盖新车评测、技术标准解读、前沿概念科普等多元主题[3]
RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 18:18
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[4] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在计算复杂、建模范围有限等问题[4] - 核心问题是如何在统一、高效的框架中整合物理知识[4] 核心方法 - 聚焦机器人操作场景,学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[5] - 设计了四步处理流程构建含物理先验的多模态具身数据集[6] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[8] - 物理属性标注:生成深度图序列并进行关键点轨迹追踪,提取时间深度一致性和关键点运动轨迹[8] - 视频切片:结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[8] - 片段过滤:用FlowNet过滤运动模糊或模式混乱的片段,确保训练数据有效性[8] - 片段分类:按动作难度和场景分类,支持课程学习策略[8] 时间深度预测 - 增加时间深度预测分支,采用双分支协同自回归Transformer(DCT)[10] - 通过跨分支交互,将深度分支的中间特征与RGB特征融合,使RGB生成保持精确几何结构[10] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[11] - 通过损失强制采样关键点视觉令牌的时间一致性,并引入关键点引导的注意力机制[12] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[16] - 对比4种先进模型,RoboScape在外观保真度、几何一致性、动作可控性上均优于基线[15] - 消融实验显示,时间深度学习和关键点动态学习对性能至关重要[17] 下游应用验证 - 在Robomimic Lift任务中,仅用生成数据训练的Diffusion Policy性能接近真实数据训练结果[19] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[20] - 作为政策评估器时,与真实模拟器的Pearson相关系数达0.953[22] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[23] - 未来计划将生成式世界模型与真实机器人结合,验证在实际场景中的表现[24]