世界模型

搜索文档
具身数采方案一览!遥操作和动捕的方式、难点和挑战(2w字干货分享)
自动驾驶之心· 2025-07-10 20:40
遥操作概念与历史 - 遥操作起源于太空探索和军事领域,已有几十年历史,早期应用于手术机器人和远程挖掘机等场景[8][10] - 传统定义为通过设备远距离操控机器人,需具备空间隔离特性[10] - 具身智能兴起使遥操作重要性提升,因数据驱动范式需要真机采集实际场景数据[15][17] 当前遥操作技术方案 - 主流方案包括同构臂控制、VR操控和纯视觉IK解算[21][28] - 纯视觉IK方案因操作自由度高而受青睐,但存在遮挡问题[23][30] - 动捕系统面临精度挑战,需解决不同体型操作者与标准机器人的映射问题[73][78] 技术挑战与创新 - 系统延迟是关键瓶颈,整体需控制在40毫秒以内以避免眩晕[33][117] - 异构手部控制是难点,需设计新型映射算法解决结构差异[82] - 移动平台与机械臂协同控制尚未形成稳定技术路径[96][97] 行业应用与案例 - ALOHA系统创新性地整合移动操作最小配置与端到端算法框架[102] - 手术机器人采用主从臂设计实现精准控制,但存在视野遮挡问题[8][106] - 挖掘机遥操作通过1:1驾驶舱复刻实现85%现场操作效率[123] 未来发展方向 - 可能演进路径包括纯虚(无穿戴)和纯实(力反馈外骨骼)两种方案[37][45] - 需建立智能辅助系统,类似汽车ESP提供自动补偿功能[124][125] - 终极解决方案可能是脑机接口,直接传递运动意图[36][144] 人机交互设计 - 优秀系统应充分调动人手眼协调能力,建立自然操作直觉[53] - 3D显示技术(VR/裸眼)可提升操作沉浸感但面临眩晕挑战[113][114] - 语言、手势等多模态输入将共同构成未来交互方式[142][143] 机器人操作系统 - 当前ROS系统以功能模块为核心,未来需转向以人为中心设计[145][146] - 可能出现类似安卓的标准化平台,统一硬件接口和开发工具[146] - 行业存在封闭化趋势,各厂商开发私有中间件导致生态碎片化[154][155]
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 12:26
世界模型与多模态融合 - 世界模型正加速成为连接感知、理解与决策的关键基座,重塑多模态边界[4] - 现有方法多以语言模态为中心,忽视视觉信息的时序动态与因果结构[5] - UniVLA通过原生建模视觉、语言与动作信号,引入世界模型增强下游决策性能[5][14] UniVLA模型架构 - 采用全离散自回归机制,统一视觉、语言与动作信号的离散token表示[8][9] - 构建视觉-动作交错的多模态时序序列,支持原生统一建模[9] - 自回归训练范式高效稳定,具备大规模扩展潜力[9][24] 技术突破与性能表现 - 后训练阶段仅需海量视频数据,无需依赖大量动作标签即可提升决策性能[14] - 在CALVIN基准上平均成功率达95.5%,长程任务(LONG)成功率94.0%,显著超越TO-FAST的60.2%[19] - LIBERO基准整体成功率69.8%,较Robo VLMs提升32.3个百分点[20] - SimplerEnv任务中世界模型策略取得64.6%成功率,较基线提升64.6个百分点[16] 应用场景与未来方向 - 展现出真机操控和自动驾驶等现实场景的应用潜力[5] - 提出视频版VLA架构,有效捕捉时空动态特征[23] - 未来将探索与多模态强化学习深度融合,提升开放世界决策能力[24] 行业影响 - 刷新CALVIN、LIBERO、SimplerEnv等主流具身智能基准的SOTA纪录[5][17][18] - 为机器人从视频中学习真实世界知识提供新路径[15] - 开创区别于传统VLM拓展路径的全新技术路线[22]
筹备了半年!端到端与VLA自动驾驶小班课来啦(一段式/两段式/扩散模型/VLA等)
自动驾驶之心· 2025-07-09 20:02
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向,通过传感器数据直接输出规划或控制信息,避免模块化方法的误差累积 [1] - BEV感知打通模块化壁垒,UniAD统一感知和规划任务,标志着端到端时代的来临 [1] - 2024年理想汽车宣布E2E+VLM双系统架构量产,显示工业界对端到端技术的重视 [1] - 技术方向多样化:PLUTO(二段式)、UniAD(感知一段式)、OccWorld(世界模型一段式)、DiffusionDrive(扩散模型一段式)等算法涌现 [4] 技术挑战与学习痛点 - 端到端技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多领域知识,学习路径复杂 [3] - 论文数量繁多且知识碎片化,缺乏高质量文档和系统实战指导,入门难度高 [3] - 目标驱动导航需闭环任务支持,但理论与实践衔接困难 [3] 课程核心内容与特点 - 课程覆盖端到端算法发展历史、技术范式(一段式、二段式、VLA)及工业界应用 [8][10] - 重点讲解背景知识:Transformer、BEV感知、扩散模型、VLM强化学习技术(RLHF、GRPO) [8] - 二段式端到端聚焦PLUTO、CarPlanner、Plan-R1等经典与前沿工作 [9] - 一段式端到端涵盖UniAD、OccWorld、DiffusionDrive、VLA等子领域,配套Diffusion Planner和ORION实战 [10][12][13] - 大作业为RLHF微调实战,可迁移至VLA算法 [14] 课程结构与安排 - 分五章展开:端到端概述、背景知识、二段式、一段式与VLA、RLHF大作业 [8][9][10][14] - 8月15日开课,三个月结课,离线视频+VIP群答疑+三次线上答疑 [20] - 章节解锁时间:第一章(8.01)、第二章(8.15)、第三章(8.30)、第四章(9.15)、第五章(10.30) [20] 目标人群与学习收获 - 需具备GPU(推荐4090+)、自动驾驶基础、Transformer/BEV/强化学习概念、Python/PyTorch能力 [22] - 学完可达1年经验算法工程师水平,掌握端到端框架及BEV、扩散模型、VLA等关键技术 [23] - 可复现主流算法,应用于实习、校招、社招场景 [23]
「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式
机器之心· 2025-07-09 15:10
世界模型的局限性批判 - 当前大语言模型(LLM)通过预测下一个单词生成输出,接近人类智力水平,但与真正的AGI仍有明显差距 [2][3] - 人类能力包含具体技能和深度复杂能力的区分,而AI系统尚不能完成所有基于相同认知架构的任务 [3][5] - 研究者提出构建世界模型的五个关键维度:数据准备、通用表征空间、推理架构、目标函数和决策系统应用 [7] PAN世界模型架构 - PAN采用分层、多级和混合连续/离散表示,结合生成式和自监督学习框架 [8] - PAN将发布27B参数的第一版,成为首个可运行的通用世界模拟器 [9] - PAN设计原则包括:多模态数据、混合表示、分层生成建模、生成损失和强化学习应用 [37] 对世界模型五个维度的批判 数据维度 - 感官数据量虽大但信息冗余度高,而文本是人类经验的高度压缩和抽象形式 [16][17] - 通用AI需要融合视频、文本、音频等多模态数据,单一模态会导致关键信息缺失 [18] 表示维度 - 仅用连续嵌入表示世界状态脆弱且难以应对噪声,离散符号序列更具稳健性 [19][20] - 最佳路径是混合表示,结合离散符号的稳健性和连续嵌入的感官细节捕捉能力 [23] 架构维度 - 编码器-编码器架构在功能上仍是自回归的,未能解决误差累积问题 [25] - 分层生成式潜在预测(GLP)架构能确保模型与真实数据挂钩,实现更鲁棒的推理 [27] 目标维度 - 潜在空间重构损失存在"平凡解崩溃"风险,需依赖复杂正则化项 [29] - 数据空间生成式重构目标提供稳定可靠的监督信号,避免崩溃问题 [30] 用途维度 - 模型预测控制(MPC)计算开销大,难以应对快速变化环境和长时程规划 [33] - 强化学习(RL)将计算成本转移到训练时,支持更具战略性的长远规划 [35] PAN模型的优势与应用 - PAN通过分层世界观实现数据处理效率,利用LLM促进跨模态泛化能力 [39] - PAN作为内部沙盒用于模拟、实验和预见未来,支持更高效的规划方式 [40][42] - 世界模型应模拟现实世界中所有可能性,当前范式仍处于原始阶段 [41]
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 20:54
强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA),OOD场景任务成功率提升42.6%,语义理解任务成功率从61.5%提升至75.0%,动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准,验证PPO优于GRPO和DPO算法,并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT),视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术,在R2R-CE基准未见环境中成功率(SR)达47.9%,路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示,结合Foresight Action Planner实现前瞻决策,Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先:单目相机场景下Test Unseen的SR达45.7%,全景相机场景SR提升至60%,SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示,NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点,SPL提高4个百分点 [18] - 具身智能领域形成产学研社区,近200家公司及研究机构参与技术交流,涵盖招聘、学习资源及前沿技术更新 [23]
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 20:45
未来帧合成(FFS)综述核心观点 - FFS任务目标是从历史帧或单帧生成未来帧序列,强调合成能力并扩展视频预测范围[1] - 领域经历了从确定性方法向生成性方法的演变,生成模型在产生逼真多样化预测中的作用日益重要[1] - 关键挑战包括平衡像素保真度与场景理解、评估指标设计、长期合成困难等[5] - 未来方向在于预测技术与生成技术的协同整合,实现更稳健连贯的合成[4] 研究方法分类 确定性范式 - 采用CNN、RNN、LSTM等架构进行像素级拟合,但易产生模糊输出[9] - Transformer架构逐渐挑战传统方法主导地位,如ViT、Swin Transformer等[9] - 优化PSNR/SSIM等指标会导致模型对多个未来取平均[10] 随机性范式 - 通过随机变量或概率模型建模视频动态不确定性[10] - 包括VAE、GAN等方法,能产生多样化预测但可能偏离真实值[10] - 面临多样性、视觉保真度和计算效率的平衡挑战[46] 生成性范式 - 优先考虑连贯合理的视频序列而非像素级保真度[10] - 利用扩散模型、LLM等先进生成技术[10] - 在对象出现/消失等复杂场景表现更优[59] 关键技术进展 架构创新 - 循环网络(PredNet、PredRNN)在时空建模中表现突出但计算复杂[26] - 卷积网络(SimVP)简化架构实现相当性能[29] - Transformer架构(TimeSformer、ViViT)处理时空信息能力显著[9] 运动建模 - 光流方法(DMVFN)在短期预测有效,长期生成仍存挑战[31][33] - 3D高斯表示(GaussianPrediction)等新方法探索运动表示[34] - 内容-运动解耦(LEO、D-VDM)提升逼真度[48] 生成模型 - 扩散模型(Video LDM、SEINE)实现高质量视频生成[60][61] - 基于令牌方法(MAGVIT、VideoPoet)探索LLM在视觉生成的应用[67][69] - 大型模型(HunyuanVideo 13B)展现强大生成能力[63] 应用领域 自动驾驶 - GAIA-1整合多模态LLM和扩散模型提升决策能力[74] - 视觉语义信息利用显著改善行为预测[74] 机器人技术 - GR-1/2显示视频生成预训练大幅提升操作能力[75] - 在动态环境中实现高效路径规划和避障[75] 电影制作 - 生成逼真场景增强叙事连贯性和艺术表达[77] - 可控合成技术(CineMaster)支持精确场景控制[58] 数据集发展 - 数据集复杂性和分辨率持续提升(如HD-VILA-100M)[21] - 高质量高分辨率数据集仍稀缺,限制模型泛化能力[18] - 多模态标注(文本、深度、语义等)成为趋势[21]
独家对话「杭州六小龙」云深处CEO:人形机器人进家干活还要10年
36氪· 2025-07-08 17:18
公司发展历程与融资 - 云深处科技成立于2017年,初期专注于四足机器人硬件和运动控制算法研发,解决稳定性问题[11][14] - 2024年AI大模型技术革新推动机器人稳定性实质跃升,新款轮足机器人山猫M20具备复杂地形适应能力[5][7] - 公司完成近5亿元人民币新一轮融资,由达晨财智、国新基金等联合领投,多家机构跟投[4] 技术突破与算法演进 - 机器人稳定性问题本质是算法问题,传统控制方案依赖简化模型和实时计算,存在延迟问题[14][19] - 技术发展经历三阶段:VMC力控方法→MPC模型预测控制→RL强化学习,强化学习是最大突破[17][18] - 当前采用"世界模型"方向,减少对海量数据依赖,使机器人具备自主判断能力[22][23] 产品应用与商业化 - 四足机器人已应用于电力巡检、应急消防、安防巡逻等场景[5][35][36] - 提出"最后一公里"新概念,与快递平台合作测试配送场景,目标将单日配送量从200单提升至300单[7][40][41] - 2025年下半年计划推出人形机器人,聚焦全身协调和手部操作能力研发[24][25] 行业前景与形态发展 - 人形机器人进入家庭承担家务的终极目标预计还需10年时间[26][28][30] - 四足机器人与人形机器人将长期共存,各自适配不同场景需求[31][32][33] - 未来5年机器人智能化水平将显著提升,具身智能是关键突破方向[44][45] 研发团队与人才策略 - 团队规模扩大,招聘侧重行业经验丰富的市场人才和具备理论+实践能力的研发人才[42][43] - 创始人朱秋国保持高校教授身份,亲自参与技术研发和团队管理[9][27]
感觉捕手
36氪· 2025-07-08 17:04
人工智能与感知智能 - 当前AI系统擅长语言处理但缺乏对物理世界的理解 语言大模型通过词序列共现概率捕捉语义 但无法理解三维空间[21][22] - 世界模型是AI突破方向 通过多视角感知重建三维场景 预测遮挡与运动轨迹 实现物理推理和交互[23][24][27] - 语言大模型与世界模型互补 前者解析意图 后者执行物理操作 二者结合实现"说得明白+做得到"的完整智能[32][34] 智能的本质与进化 - 生物智能通过演化形成高效解决方案 如狗本能选择最优路径 棒球手使用凝视启发法接球 体现"具身认知"原理[41][44][45] - 预测性大脑理论认为智能是大脑-身体-环境统一体 通过最小化预测误差实现优化 不依赖显式计算[47][48][49] - 感知智能具有整体性、预测性、具身性和进化性特征 是超越符号操作的高级认知形式[52][53] 教育理念与认知发展 - 具身学习强调通过身体活动与环境互动培养理解力 挑战传统抽象知识灌输模式[78][79][80] - Taste是高维认知能力 表现为对事物本质的直觉判断 如杨振宁对物理学的鉴赏力 乔布斯的跨领域洞察[54][56][62] - 人类智能的独特性可能被AI超越 但具身体验形成的Taste仍是当前核心优势[71][74][81] 技术前沿与行业趋势 - 神经辐射场(NeRF)等3D视觉技术使AI具备场景重建能力 推动世界模型发展[27] - 多模态Transformer整合文本与3D潜变量 实现语义与空间控制的统一[32] - 莫拉维克悖论揭示感知运动智能的复杂性 是世界模型需攻克的核心难关[75][76]
AI大模型行业专题解读
2025-07-07 08:51
纪要涉及的行业和公司 - **行业**:AI大模型行业、手机应用开发行业、工业视觉质检行业、教育行业、医疗行业 - **公司**:OpenAI、谷歌、英伟达、Meta、阿里、字节跳动、快手、腾讯、小米、昆仑外围、阿里巴巴、弗列耶、波士顿动力、小工机器人、“AI PPT”公司 纪要提到的核心观点和论据 GPT - 5相关 - **技术升级和新功能**:优化推理链条,减少回答问题的不足;以agent编排形式合并多个相关模型;提升多模态理解能力;参数规模提升至3 - 4万亿,推理性价比提高[1][2][5] - **发布时间**:预计2025年下半年发布,也可能延迟到2026年春节前,今年下半年发布概率约60%[1][2][6] - **相比之前版本变化**:推理链条更个性化;多模型合并提供全能体验;多模态理解能力提升;参数规模增大且推理性价比提高;强调通用推理能力[5] OpenAI相关 - **应对C端竞争及定价策略**:C端与其他公司拉开差距,压力小,积极拓展B端业务;定价稳步提升但流量持续增长,计划免费开放基础版功能拉大与国内模型差距[3][4] - **终端定价及趋势**:和其他厂商都会动态调整定价,随着性能提升价格逐步降低;新产品刚推出价格高后续可能下降;通过推出全家桶产品吸引用户[7][8] - **底座模型发布时间**:预计今年下半年发布,11月底至12月初发布概率最大[9] 其他模型相关 - **Grok 4模型**:得分高但需进一步训练迭代;推理速度显著提升;输出能力出色;未来预计升级多模态功能和提高推理速度[10] - **谷歌Vivo视觉模型**:5月发布受海外科技圈关注,实用性和影响力强;整合多项功能简化视频制作流程,数据处理精度高;训练算力庞大,迭代大版本需约2 - 3万张A100显卡;定价高限制广泛应用,月会员费接近1500元,后期可能涨至2000元以上[11][12] - **国内厂商追赶情况**:阿里和字节跳动有望3 - 6个月内开发出类似VIVO3效果90%的产品;国内数据源充足,但算力面临挑战,可优化架构设计实现接近性能效果[13][14] 英伟达相关 - **Cosmos世界模型**:一季度发布,是未来发展重要方向,具有高度复杂性,能提供更全面精确的数据处理能力[15] - **全栈式发展**:从芯片到系统,再到仿真引擎和底层模型全面布局;平台提供数据训练引擎,与Omniverse及相关硬件结合;不断更新定制化数据集,形成生态系统[16][17][19] - **具体进展**:针对机器人端工业控制场景增强适应性;数据仿真版本迭代至5.0;提升边缘算力平台;开源高质量人形机器人数据集[18] 行业发展相关 - **技术进展原因**:2025年AI大模型技术进展显著,国内外技术差距缩小,底层技术升级是主要原因[3] - **发展趋势**:国内外发展趋势不同,国外堆积技术,国内分化为底层技术研发和应用商业化两种路径;未来国内六小龙部分公司可能退出市场,只剩三到四家主要玩家;都在努力提升底层模型能力至90 - 95分水平[23] - **世界模型发展**:发展呈快速迭代和多样化趋势,英伟达、Meta、Google等公司取得显著进展;发展联通物理AI与相关硬件,英伟达走得最全[16][17] AI应用相关 - **端侧场景应用**:应用前景广阔,包括智能机器人、家居设备等;2025年新方法解决端侧硬件相关AI模型问题,推动落地应用[24][25] - **手机应用开发**:进展显著,开发时间大幅缩短;2025年各公司以模型家族形式发布多个小参数模型针对端侧设备;端侧AI提升设备舒适度和能力,相关解决方案企业形成[26] - **垂类模型医疗领域**:2025年3月以来医疗领域对AI需求旺盛;年底到2026年上半年预计公布大量诊断相关大型垂类模型成果[29] - **教育领域**:AI产品在京东等平台销售情况较好,但实际效果和用户买单程度有差距,发展潜力大[30] - **工业视觉质检领域**:应用广泛,企业通过展示数据能理解其功能从而愿意购买;优质工业企业每年AI预算可达数亿元[31] - **生产力提升方面**:应用包括搜索引擎优化、文本处理等,代码生成面向C端和B端;“AI PPT”公司产品体验进展迅速[32] - **ToB场景**:在软件开发、电商客服、财务管理、人力招聘等方面表现较好[33] 幻觉率相关 - **幻觉率水平**:前两类幻觉问题较易解决,好的模型能将其降至5%以下,国内普遍在5% - 15%之间;关系性幻觉问题较难解决,阿里巴巴和Google主流模型准确率40% - 50%[27][28] - **降低方法**:包括训练阶段干预和生成过程中的围栏机制,需大量图文描述数据处理关系性幻觉[28] 其他重要但是可能被忽略的内容 - 机器人可借助人类观察世界的视频数据,通过Brooklyn框架转换为运动轨迹数据进行学习和操作[21] - 世界模型发展中,物理AI与相关硬件领域数据训练量与大语言模型能力差距至少五六倍以上,需要类似Cosmos结构生成数据训练[17]
“反击”马斯克,奥特曼说OpenAI有“好得多”的自动驾驶技术
36氪· 2025-07-07 08:32
OpenAI与特斯拉的竞争动态 - OpenAI CEO山姆·奥特曼与特斯拉CEO马斯克因OpenAI商业化运营产生矛盾,马斯克起诉奥特曼违背创始协议并成立xAI直接竞争[1] - 奥特曼反击称马斯克曾试图掌控OpenAI未果,并可能研发自动驾驶技术挑战特斯拉FSD[1][3] - 奥特曼透露OpenAI拥有"比当前技术好得多"的自动驾驶技术,但未公布具体细节和时间表[3][5] OpenAI自动驾驶技术潜力 - 新技术可能基于Sora视频软件和机器人团队,利用世界模型理解物理世界[6][8][11] - Sora作为世界模型可生成高保真视频,但存在物理原理不完善的问题,可能用于自动驾驶模拟训练[10][11] - 业界认为世界模型是自动驾驶突破关键,需结合物理因果关系理解和预测能力[17][21] 行业技术发展趋势 - 自动驾驶行业正转向"世界模型"开发,如蔚来、小鹏等公司尝试让AI系统模拟人类对世界的理解[11] - 英伟达推出Cosmos世界基础模型,专为物理交互和驾驶环境设计,可能优于Sora的仿真能力[22][24] - AI大牛普遍认为仅靠语言模型不足实现自动驾驶,需结合多模态和世界模型[16][18][19] OpenAI在汽车智能化领域的布局 - 通过投资布局自动驾驶领域,如向Ghost Autonomy投资500万美元(已倒闭),与Applied Intuition合作开发智能座舱[12][14][15] - 2024年重组机器人团队,与Figure公司合作开发人形机器人AI模型,技术可能与自动驾驶相通[24] - 自动驾驶被视为AI应用最具前景场景之一,市场规模达万亿美元级别[7][24]