世界模型

搜索文档
ChatGPT见顶后,AI新战场世界模型:中国已经先行一步!
老徐抓AI趋势· 2025-07-31 09:03
AI发展阶段 - AI发展分为三个阶段:感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年,图像识别准确率超越人类,但知识量有限(1400万张图片≈人类10年标注时间)[7][9] - 生成式AI阶段始于2017年,Transformer架构和GPU算力提升推动大语言模型发展,GPT-3训练数据达7500亿Token(≈人类10万年书写量)[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭,大语言模型增长面临天花板 [15] - AI需转向新学习方式,通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器,支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题(如穿车、不合逻辑的物体交互)[20] - 自动驾驶训练成本大幅降低:虚拟场景可定制天气、光线、路况,替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型,支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台,整合世界模型与感知/导航能力,构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式(自我生成替代互联网采集)、训练效率(秒级仿真)、产业落地(制造业/医疗/教育等)[28] - 类比移动互联网发展:大语言模型类似"智能手机",世界模型类似"App Store",推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局,技术升级节奏可能快于大语言模型周期(1-2年内或现突破)[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进,加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长,类似移动互联网对生产力的提升效应 [29]
WAIC2025:20位AI领导者的年度洞察
第一财经· 2025-07-30 00:02
以下文章来源于新皮层NewNewThing ,作者陆彦君、吴一凡等 机器人开始成为今年世界人工智能大会(WAIC2025)的主角,这是WAIC自2018年首次举办以来的第一 次。 包括智元、宇树科技、银河通用、灵初等在内的几乎所有人形机器人公司都有在上海世博展览馆设立展 台,展示它们的机器人在过去一年中取得的进展。 与一年前比,这些机器人的本体,即身体硬件变化并 不大,形态依然以双足人形、轮式人形为主,但软件部分开始出现范式变化——让机器人可以从遥控进化 到自主行走。 包括智元、腾讯、商汤、生数科技等在内的公司,都推出了应用于指导机器人行动的感知行动模型,或用 于预测下一步环境状态的世界模型,这些模型都意在解决机器人与环境的交互问题,帮助机器人决定如何 在真实物理世界中行走和执行动作。其中腾讯的加入可能是今年机器人领域的最大变量,它已在该领域投 入7年,比现有多数人形机器人公司都久。 相较而言,大模型公司则低调很多。百川智能和零一万物都没有参加这次大会;MiniMax和智谱除了设展 台,没有新品发布或产品进度更新;月之暗面则与另一家公司共用展位——只占据了整个展台的一个侧 面;只有阶跃星辰在展会期间推出了新一 ...
自驾一边是大量岗位,一遍是招不到人,太魔幻了......
自动驾驶之心· 2025-07-26 10:39
自动驾驶行业现状 - 自动驾驶行业进入理性发展阶段,资本更加谨慎,公司首要目标是"活下去"和"跑通商业模式"[2] - 行业预计在未来1-3年将经历深度调整和洗牌[2] - 技术栈虽完备但距离大规模商业化落地仍有差距,实验室效果与真实路况表现存在工程鸿沟[3] 人才供需矛盾 - 行业出现"岗位虚位以待但人才难觅"现象,企业对顶尖人才和高度适配人才需求达到前所未有的高度[2][4] - 3-5年经验岗位薪资可达百万级别[2] - 求职者需具备过硬技术能力且适配前沿研究和量产方向[3] 技术社区发展 - 自动驾驶之心知识星球已成为国内最大自驾技术社区,拥有4000名成员和100+行业专家[7][9] - 社区提供30+自动驾驶技术学习路线,覆盖感知、定位、规划控制等几乎所有子方向[9][69] - 与数十家自动驾驶公司建立内推渠道,简历可直接送达[10][67] 前沿技术方向 - 视觉大语言模型(VLM)成为研究热点,涉及预训练、迁移学习、知识蒸馏等多个技术领域[15][16][17] - 世界模型在自动驾驶中的应用日益广泛,如HERMES、DriveWorld等模型实现3D场景理解和生成[34][36] - 扩散模型在自动驾驶视频生成、数据增强等方面发挥重要作用[37][43] - 端到端自动驾驶成为重要研究方向,涉及感知、预测、规划等多个环节[31][49][52] 技术应用与数据集 - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等多个任务[25] - 语言增强的自动驾驶系统数据集快速发展,支持自然语言导航和空间推理等高级功能[26] - 智能交通领域应用包括车辆检索、视觉问答等实际场景[27] - 自动驾驶感知技术应用于行人检测、3D目标检测等具体任务[28] 行业挑战与解决方案 - 远距离Occupancy检测效果不佳,可能由激光雷达稀疏和监督真值空洞导致[100][101] - 地下车库自动泊车通过视觉传感器和建图技术实现定位[96] - 3D目标检测研究趋于成熟,建议从BEV感知入手学习前沿算法[96]
研一结束了,还什么都不太懂。。。
自动驾驶之心· 2025-07-24 14:46
自动驾驶行业技术趋势 - 自动驾驶技术栈趋同,端到端VLA、世界模型等前沿方向成为行业热点 [3][4] - 传统规控仍有岗位需求,但需升级技术栈以适应大模型时代 [3][4] - 低算力环境下实现成果的策略和实践案例受到关注 [6] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大智驾技术社区,聚集近4000名成员 [11] - 社区覆盖30+自动驾驶技术学习路线,包含VLM、世界模型、端到端等前沿方向 [11][13] - 与数十家自动驾驶公司建立1v1内推渠道,简历直达 [11] 视觉语言模型(VLM)研究 - VLM预训练数据集规模从百万级(COCO)到十亿级(LAION5B)不等 [20] - VLM评估涵盖图像分类、文本检索、行为识别等多任务 [21][22][23] - VLM在自动驾驶中的应用包括感知理解、定位规划和决策控制 [29][30][31] 端到端自动驾驶 - 端到端方法整合感知、预测、规划模块,提高系统效率 [32] - 世界模型在端到端驾驶中实现场景理解和未来预测的统一 [34][35] - 扩散模型用于轨迹生成和场景合成,提升驾驶安全性 [37][38] 自动驾驶数据集 - 主流数据集包括KITTI、Cityscapes、nuScenes等,覆盖2D/3D检测、分割等任务 [26] - 语言增强数据集推动VLM在自动驾驶中的应用 [27] - 智能交通领域数据集支持语言引导的车辆检索和VQA任务 [28] 技术社区资源 - 知识星球提供四大板块:前沿技术、技术分类、学术直播、求职资料 [13] - 社区汇总近百个自动驾驶数据集和20+标注工具 [70] - 每周1-2场行业专家直播,年计划100场左右 [72]
物理模拟器与世界模型驱动的机器人具身智能综述
具身智能之心· 2025-07-15 21:49
具身智能技术综述 - 具身智能成为机器人与人工智能领域的前沿课题,关注智能体在物理世界中的感知、推理与行动能力[3] - 物理模拟器与世界模型是两大关键技术:前者提供高保真虚拟训练环境,后者实现内部环境预测与策略规划[3][5] - 论文整合25张图、6张表格、超400篇文献,系统梳理技术协同路径[3] 技术框架与能力分级 - 提出五级机器人能力标准(IR-L0至IR-L4):从基础执行到完全自主决策[8][15] - 物理模拟器核心指标包括物理引擎精度(ODE/DART/MuJoCo等)、渲染能力(OpenGL/Vulkan)及传感器支持[13][18][19] - 世界模型架构涵盖预测网络、生成式模型及多任务复合模型,应用于自动驾驶与关节机器人[14] 主流技术平台对比 - 物理仿真平台横评:MuJoCo在刚体动力学领先,Isaac系列支持GPU加速物理(PhysX/FleX),CoppeliaSim兼容多引擎[18] - 渲染能力差异显著:Isaac Sim/Isaac Lab采用Omniverse RTX实现光线追踪,Webots/Gazebo依赖基础OpenGL[19] - 自动驾驶领域世界模型密集涌现,如GAIA-1、DriveDreamer等基于扩散模型与Transformer架构[20] 应用场景与突破方向 - 运动控制技术从模型预测控制(MPC)演进至深度强化学习端到端策略[15] - 操作控制结合VLM/LLM实现视觉-语言-动作一体化,双臂协作精度提升[15] - 交互能力突破包括社会嵌入认知与物理安全机制[15]
自动驾驶圆桌论坛 | 聊聊自动驾驶上半年都发生了啥?
自动驾驶之心· 2025-07-14 19:30
技术路线与量产现状 - BEV感知方案已成为行业主流量产选择 完全替代传统单目/双目检测方案 但在corner case(如非结构化道路、复杂路口)上仍有明显短板 [11][36] - 特斯拉引领的纯视觉BEV+Occ环境建模方式已获行业验证 但3DGS等新型表征方式正在探索中 [2][52] - 端到端方案(E2E)尚未展现显著优势 数据收集难度和训练成本高于传统两阶段模型 目前更多停留在PR层面 [4][48] 新兴技术方向 - VLA/VLM成为2025年焦点技术 通过语言模型提升corner case处理能力 但存在落地真实性存疑、学术界与工业界数据壁垒等问题 [5][20][45] - 扩散模型在轨迹生成中展现多模态优势 但实时性仍是量产挑战 CVPR2025的DiffusionDrive已取得进展 [17][39] - 世界模型主要应用于仿真数据生成 预训练和端侧推理仍待突破 部分厂商宣传存在夸大 [50][52] - 强化学习受限于仿真精度与安全性要求 在自动驾驶领域尚未规模化应用 但长期潜力被看好 [7][47][51] 行业痛点与突破方向 - 长尾场景处理需解决三大核心问题:VLA在corner case的实证数据不足、车端算力与模型效率的平衡、模仿学习的天花板突破 [5][6][7] - 数据闭环能力成为竞争关键 需构建自动化标注+仿真验证的高效流水线 头部企业已布局AI驱动的数据运营体系 [28][33] - 芯片算力限制导致技术分层:Orin-X支持多模态LLM处理复杂城区场景 而J6M等中低端芯片仅能支撑纯视觉高速NOA [40][45] 未来趋势与竞争格局 - 技术路线呈现分化:L2+方案侧重VLA泛化性提升 L4方案聚焦世界模型构建安全验证体系 [25] - 3D高斯与毫米波雷达应用被忽视 前者可发展为世界模型表征 后者存在技术空白 [52] - 行业进入"智驾平权"阶段 地平线征程6等芯片推动辅助驾驶普及 但平价车型仍受限于corner case处理能力 [36][39] - 中心化智能成为长期方向 从单车智能向V2X+云端协同演进 [47] 技术迁移与跨领域应用 - 自动驾驶与具身智能技术高度互通 VLA时代下两者在安全场景与灵活场景形成互补 [33] - 舱驾一体化成为新探索方向 结合语音与OS系统提升用户体验 [43] - 知识体系需保持可迁移性 避免过度专业化导致转行障碍 [52]
学长让我最近多了解些技术栈,不然秋招难度比较大。。。。
自动驾驶之心· 2025-07-10 18:05
自动驾驶行业技术趋势 - 自动驾驶技术快速迭代,算法工程师需掌握BEV、世界模型、扩散模型等复合型技能[2] - 企业招聘偏好复合型人才,要求覆盖传感器标定、数据处理、模型训练到部署全流程[3] - 前沿技术如端到端、VLA、强化学习等岗位需求增加,但量产仍以数据、检测、OCC等基础工作为主[2][3] 知识星球核心资源 - 提供价值千元的入门视频教程,涵盖世界模型、Transformer等前沿技术论文解读[3] - 未来将新增相机标定、多模态融合、大模型等课程,全部免费向会员开放[5] - 社区已吸引华为天才少年等专家加入,形成学术+产品+招聘的闭环生态[5] 四大前沿技术方向资源 视觉大语言模型 - 汇总10+开源项目,包括智能交通LLM应用、AIGC、视觉语言模型综述及提示学习方法[7] - 提供37.6M多语言Wikipedia图文数据集及12B规模的WebLI预训练数据[13] 世界模型 - 收录16项研究成果,如Meta的导航世界模型(NVM)、InfinityDrive泛化模型及DriveWorld 4D场景理解[27][28] - 聚焦视频生成与场景重建技术,如DriveDreamer-2支持定制化驾驶视频生成[28] 扩散模型 - 整合22篇权威综述,覆盖3D视觉、视频编辑、推荐系统等应用领域[30] - 自动驾驶领域应用包括Drive-1-to-3实车合成、MagicDriveDiT长视频生成等9项创新工作[31] 端到端自动驾驶 - 收录50+里程碑方法,如EfficientFuser高效融合框架、nuScenes开环SOTA模型UAD[37][39] - 开源仓库包含Opendilab和Pranav-chib整理的端到端驾驶方法全集[33] 数据集与评估体系 - 预训练数据集规模最大达12B(LAION5B),覆盖108种语言[13] - 自动驾驶专用数据集包括NuScenes(1200类)、Waymo Open Dataset(多任务)等19类[19][20] - 评估指标涵盖mAP(目标检测)、mIoU(语义分割)、Recall(图像检索)等标准化体系[14][17][18] 技术应用场景 智能交通 - 语言引导车辆检索系统采用多粒度检索技术,2023年新增3种统一多模态结构[21] 自动驾驶系统 - 感知模块集成VLPD行人检测、Language-Guided 3D检测等6项创新算法[22] - 规划控制领域应用GPT-Driver轨迹预测、DRIVEVLM多模态融合等5种解决方案[23][24] 行业生态发展 - 社区目标3年内建成万人规模的智能驾驶&具身智能社群[5] - 会员权益包含5000+干货内容、100+场直播回放及求职咨询等7项专属服务[51]
最新综述:从物理仿真和世界模型中学习具身智能
自动驾驶之心· 2025-07-05 21:41
具身智能与机器人研究前沿 - 实现强大具身智能的关键在于整合物理模拟器与世界模型 物理模拟器提供高保真训练环境 世界模型赋予机器人环境内部表征能力以支持预测规划与决策[3] - 物理模拟器与世界模型互补增强机器人自主性、适应性和泛化能力 外部模拟与内部建模相互作用弥合模拟训练与现实部署的差距[3] - 维护包含最新文献和开源项目的资源库 为具身AI系统发展提供全面视角并明确未来挑战[3] 智能机器人能力分级系统 - 提出智能机器人能力分级模型 涵盖从基本机械执行到高级完全自主社交智能的五个渐进级别(IR-L0到IR-L4)[6] - 分级标准基于自主性、任务处理能力、环境适应性、社会认知能力等核心维度[7][10][11] - IR-L0为完全非智能程序驱动 IR-L1具备有限规则反应能力 IR-L2引入初步环境意识 IR-L3实现类人认知与协作 IR-L4为终极目标[14][15][16][17][19] 机器人移动性与操作技术 - 腿部运动技术从位置控制发展到力控关节结合强化学习 实现非结构化环境适应与高动态运动如奔跑跳跃[22] - 单手操作从预编程发展到基于学习的方法 灵巧手操作通过两阶段与端到端方法结合提升泛化能力[26] - 双手操作与全身协调通过大规模演示数据与基础模型实现 如ALOHA系列双手机器人精细操作[28] 主流物理模拟器对比 - Webots、Gazebo、MuJoCo等传统模拟器在复杂物理交互上存在局限 高端模拟器如Isaac系列支持GPU加速与多物理场[31][36] - 物理特性对比涵盖吸力建模、可变形物体仿真、流体动力学等维度 可微物理能力主要在科研导向模拟器中体现[32][36] - 渲染能力对比显示NVIDIA系模拟器在光线追踪和PBR上表现突出 轻量级模拟器主要用于功能验证[34][35][41] 世界模型技术演进 - 世界模型从早期基于循环网络的潜态建模发展到结合Transformer和扩散模型的高保真生成式模拟[45] - 代表性架构包括循环状态空间模型、联合嵌入预测架构、Transformer-based模型、自回归生成模型和扩散生成模型[46][47][49][50][51] - 核心应用包括神经模拟器生成仿真数据、动态模型支持预测规划、奖励模型替代手工设计[52][56][64] 自动驾驶与铰接式机器人应用 - 自动驾驶世界模型通过神经模拟器生成高保真场景 动态模型学习环境动态 奖励模型评估安全性[60][64] - 铰接式机器人世界模型通过神经模拟器支持模拟到现实迁移 动态模型实现动作规划 奖励模型减少手工设计[65][68] - 技术趋势包括3D结构化建模、多模态融合、端到端集成等方向[67][71] 未来挑战与方向 - 共性挑战包括高维感知、因果推理缺失、实时性与计算成本等问题[69][71] - 前沿方向聚焦3D结构化世界模型、多模态基础模型、轻量化高效推理等技术[71][75] - 工业应用涵盖自动驾驶、服务机器人、科学发现等领域 推动技术落地与商业化[75]
小米社招&校招 | 自动驾驶与具身智能算法研究员 (VLA/具身方向)
自动驾驶之心· 2025-07-01 20:58
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,共同定义和构建下一代自动驾驶与机器人的"大脑",致力于突破性的具身基座模型研究,深度融合视觉-语言-行动能力,并具备卓越的空间感知与空间推理能力 [2] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 [3] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [4] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,探索其在自动驾驶和通用机器人领域的统一应用潜力 [4] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [4] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位或同等深度的研究经验 [5] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习、三维视觉与空间智能等领域有深入研究和实践经验 [6][7] - 理论与编程能力:在顶级会议上作为主要作者发表过高质量论文,具备将大模型、自然语言处理、计算机视觉、强化学习与机器人学知识融会贯通的能力 [8] 加分项 - 世界模型研究经验:对World Model理论有深入理解并有相关研究或项目实践经验 [11] - 大规模预训练:有从零开始训练亿级参数以上大模型的实际经验,熟悉分布式训练技术 [11] - 机器人平台经验:具有在真实机器人或高仿真平台上部署和验证算法的经验 [11] - 开源社区贡献:活跃于相关开源项目并有广受认可的贡献 [11] 工作地点与投递方式 - 工作地点以北京为主,少量上海职位 [10] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [10]
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
具身智能之心· 2025-06-30 20:17
WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作(VLA)模型与世界模型结合的自回归动作世界模型,通过集成动作与图像理解和生成实现双向增强 [3] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题,在动作块生成任务中抓取成功率提升4%-23% [3][7] - 实验显示WorldVLA抓取成功率比独立动作模型高4%,视频生成能力优于普通世界模型,Fréchet视频距离(FVD)降低10% [7] VLA模型与行业背景 - 当前VLA模型依赖多模态大语言模型(MLLM)但缺乏对动作的深度集成分析,世界模型虽能预测未来状态但无法直接生成动作 [5] - WorldVLA通过统一tokenizer架构实现跨模态理解,图像tokenizer压缩比16,codebook大小8192,256×256图像生成256个token [6][14] - 动作tokenizer将连续动作离散化为7个token(3位置+3角度+1抓取状态),文本tokenizer词汇量65,536含8192图像token [14] 技术架构与训练策略 - 模型基于Chameleon架构初始化,混合动作模型数据(交叉熵损失)和世界模型数据(α=0.04平衡损失)进行联合训练 [11][15][20] - 动作模型输入含2帧历史图像,输出K个动作;世界模型输入当前帧和动作,输出下一帧预测 [16][17] - 注意力掩码机制使动作生成仅依赖视觉输入而非历史动作,避免误差累积 [18][19] 实验验证与性能表现 - 在LIBERO基准测试中,512×512分辨率WorldVLA平均抓取成功率81.8%,优于OpenVLA(76.5%)等离散动作模型 [27] - 消融实验显示集成世界模型使动作模型平均成功率从62.8%提升至78.1%,长序列任务提升显著(52.4% vs 23%) [29] - 世界模型预训练使50帧视频生成的PSNR从23.98提升至24.30,LPIPS从15.60降至15.44 [35] 创新贡献与应用潜力 - 首次提出统一动作与图像理解/生成的自回归框架,实现动作模型与世界模型的双向性能增强 [8] - 动作注意力掩码策略突破自回归模型在长动作序列生成中的局限性,为机器人连续操作提供新方案 [7][31] - 高分辨率输入(512×512)显著提升性能,验证视觉细节对机器人操作精度的关键影响 [26][27]