具身智能之心
搜索文档
上海交大具身导航中的感知智能、社会智能和运动智能全面综述
具身智能之心· 2025-09-02 08:03
文章核心观点 - 提出TOFRA框架将具身导航过程分解为状态转移、环境观测、信息融合、奖励策略构建和动作执行五个关键阶段[2] - 首次系统性整合计算机视觉、经典机器人和仿生学三大领域在具身导航方面的研究成果[2] - 指出领域面临的四大核心挑战:自适应时空尺度、联合优化、系统完整性和数据任务泛化性[2] - 详细总结具身导航相关平台工具和评估指标,包括仿真环境和真实硬件平台[2] 研究背景 - 具身智能源于图灵理念,强调通过自我感知和交互获取知识,是通向人工通用智能的重要途径[2] - 具身性体现在以自我为中心的感知方式和分布式计算能力,区别于传统基于全局地图的导航方式[2] - 人工智能进步推动导航从"路径驱动"向"智能驱动"转变,形成具身导航新范式[2] 具身导航核心特征 - 具备三类智能:感知智能通过多模态自我中心感知获取空间认知[3] - 运动智能支持高度自由度的运动技能和适应性物理交互[10] - 社会智能能够理解人类高层语义指令,支持复杂任务执行[10] 现有研究局限 - 计算机视觉方向侧重社会智能但忽视真实感知不确定性[5] - 机器人学方向聚焦感知智能但缺乏高级语义理解[6] - 神经形态方向模仿生物机制但覆盖不足社会智能和运动智能[6] - 现有综述未能统一涵盖感知、社会与运动三个维度[6] TOFRA框架详解 状态转移(Transition) - 利用动力学模型、运动认知和端到端神经网络推算下一状态[14] - 方法包括IMU积分、零速检测和活动识别等技术[21][22][23] - 发展趋势从单节点到高自由度、从几何推算到认知增强[26][29] 环境观测(Observation) - 通过外部传感器(RGB、深度、LiDAR等)感知环境[17] - 包括低层次特征提取、高层次语义认知和多智能体协作感知[27][31][39] - 多智能体协作可扩大感知覆盖范围,克服单传感器局限性[40] 信息融合(Fusion) - 经典贝叶斯方法包括卡尔曼滤波器和基于优化的方法[47][49] - 神经融合方法采用多层网络和Transformer架构[50] - 混合方法结合经典方法可解释性和神经网络学习能力[51] 奖励策略构建(Reward) - 单任务导航包括点目标、图像目标、物体目标和探索任务[54][55] - 多任务导航通过持久记忆机制减少重复探索[56] - 视觉语言导航利用大型语言模型处理自然语言指令[58] 动作执行(Action) - 基础动作技能包括轮式机器人和足式机器人的运动控制[64] - 组合技能涉及顺序技能组合和腿臂协同操作[66] - 形态协作包括轮腿机器人、陆空机器人和空陆水机器人[68] 应用场景分析 具身自动驾驶 - 依赖外部GPS和地图信息,重点学习端到端策略[76] - 输入包括环视摄像头、3D激光雷达和雷达等多模态数据[75] - 输出为车辆控制,系统隐式建模复杂OFRA流程[80] 具身室内导航 - 完全依赖自身传感器,无GPS支持[77] - 使用语义特征或神经辐射场构建世界模型[80] - 需要更强大的感知和决策能力应对复杂环境[80] 复杂地形导航 - 专注于穿越不平坦地形,通常使用四足机器人[78] - 输入包括关节传感器数据和地形深度图[75] - 输出为速度命令或直接关节控制命令[80] 平台与评估体系 仿真平台 - AI2-THOR专注于社交/语言任务和操作[83] - Habitat系列支持建筑尺度导航和语言指令[83] - ThreeDWorld扩展户外场景并提供力反馈[83] 真实硬件平台 - 标准轮式平台包括TurtleBot系列和Clearpath Robotics产品[82] - 复杂地形平台包括Boston Dynamics Spot和ANYbotics ANYmal[82] 评估指标 - 社交维度采用Success Rate和SPL等指标[84] - 感知维度包括Absolute Trajectory Error和Map Accuracy等[85] - 运动维度评估Energy Consumption和Path Deviation等[86] 发展趋势 - 从固定模型转向自适应进化智能[88] - 从专门组件转向集成系统优化[88] - 从工程解决方案转向语言引导行为[88] - 平台向高保真"数字孪生"和可微分环境发展[87] - 评估指标从单一任务扩展到多维度平衡计分卡[87]
具身智能之心合伙人招募来啦!具身数采/算法/仿真/硬件多个方向
具身智能之心· 2025-09-01 18:00
课程讲师招募 具身智能之心课程讲师招募开始啦!如果您是大模型/多模态大模型、Diffusion、VLA、VLA+RL、sim2real、 端到端、具身交互、视觉语言导航、强化学习、机器人运动规划、机器人框架、抓取点预测与位姿估计、导航 建图、触觉感知、大模型部署与量化感知推理、机器人仿真等方向,欢迎加入我们; 主要工作:开发具身相关的视频课程,负责群内答疑等; 待遇丰厚(底部添加微信了解),除了现金激励,我们共享全行业具身资源、职位等。 科研辅导老师 待遇优厚,高于行业水平,既能发论文,又能赚零花钱! 机器人硬件开发合伙人 如果您正在从事机械臂抓取系统、双足机器人、四足机器人、轮式机器人、大模型部署等软硬件的开发工作, 期望和我们一起推动具身教育的发展,欢迎联系我们; 我们将会提供合伙人的身份,一起开创更大的具身教育场景,推动行业发展。 联系我们 具身智能相关方向科研辅导老师招募开始啦!如果您是diffusion policy、VLA、VLA+强化、sim2real、强化学 习、具身仿真、具身感知、具身交互、视觉语言导航、目标导航、触觉感知、大模型/多模态大模型、大模型 量化、机械臂抓取、位姿估计、大模型部署 ...
穆尧团队最新!Discrete Diffusion VLA离散扩散引入VLA,支持精确动作建模和一致性训练
具身智能之心· 2025-09-01 18:00
文章核心观点 - 离散扩散视觉-语言-动作模型(Discrete Diffusion VLA)通过引入离散扩散技术至动作解码,解决了现有自回归模型速度慢和连续扩散模型训练复杂的问题,实现了视觉、语言和动作三模态的统一处理,并在多个机器人任务中展现出显著性能优势 [1][6][7] 技术方案与架构 - 采用单一Transformer架构统一处理多模态输入,包括视觉token(通过SigLIP+DINOv2 ViT编码)、语言token(通过Llama 2 tokenizer编码)和离散化动作token,无需额外扩散模块 [6][12][13] - 训练阶段通过随机掩码动作token并计算交叉熵损失,与视觉-语言模型的掩码语言建模目标完全兼容,可直接复用预训练优化器和训练管线 [12][14] - 推理阶段通过迭代去噪和自适应重掩码策略(默认12轮迭代),实现动作序列的并行解码和错误修正,比自回归模型减少4.7倍函数评估次数 [15][16][18] 性能表现 - 在LIBERO任务的Franka Panda机械臂上实现96.3%平均成功率,其中Object套件98.6%、Spatial套件97.2%、Goal套件97.4%、Long套件92.0%,较自回归模型OpenVLA(76.5%)提升19.8%,较连续扩散模型π₀(94.2%)提升2.1% [8][21][22] - 在Google机器人的SimplerEnv任务中视觉匹配率达71.2%,显著优于π₀(58.8%)和π₀+FAST(61.9%),整体成功率达64.1% [23][24] - 在WidowX机器人的真实-模拟迁移场景中整体成功率达49.3%,较连续扩散基准π₀(27.8%)提升21.5%,较π₀+FAST(39.5%)提升9.8% [25][26] 创新点与实验验证 - 首次将离散扩散技术引入视觉-语言-动作模型的动作解码,支持并行解码和渐进式优化,无需外挂扩散模块 [6][7][12] - 自适应解码策略(基于最大置信度排序)在LIBERO-Goal套件上实现97.4%成功率,较并行解码策略(95.6%)提升1.8% [27][29] - 衰减温度调度(Temp=1-t)通过早期高温度探索和后期低温度确定性优化,成功率97.4%,较硬采样(96.2%)提升1.2% [28][29] 研究团队与背景 - 由香港大学、上海人工智能实验室、上海交通大学和华为云计算技术有限公司联合提出,论文发表于arXiv平台 [3][4]
RLinf开源!首个面向具身智能“渲训推一体化”的大规模强化学习框架
具身智能之心· 2025-09-01 12:02
文章核心观点 - 清华大学、北京中关村学院和无问芯穹联合推出面向具身智能的大规模强化学习框架RLinf 该框架通过创新的混合式执行模式、统一编程接口和自适应通信机制 在具身智能训练场景下实现系统提速超120% 模型性能提升40%-60% 同时支持数学推理大模型训练并取得SOTA性能[5][7][9][24][29] 技术架构设计 - 系统采用六层级抽象架构 包括用户层、任务层、执行层、调度层、通信层和硬件层 支持混合式执行模式[7] - 提出宏工作流到微执行流映射机制(M2Flow) 实现过程式编程灵活性与声明式编程优化能力的结合[14] - 支持三种执行模式:共享式(组件常驻或交替使用GPU)、分离式(组件流水线执行)、混合式(自定义组合放置形式)[15][17] 性能表现 - 在具身智能训练中相比分离式执行模式系统提速超120%[7][24][27] - OpenVLA模型在Maniskill3任务中成功率从SFT后的30%-50%提升至80%-90% 涨幅40%-50%[24][28] - OpenVLA-OFT在LIBERO测试平台平均成功率97.3% 相比SFT模型提升62.4%[24][26] - 1.5B数学推理模型在AIME24/AIME25/GPQA-diamond数据集分别达48.44%/35.63%/38.46% 平均40.84%[29][30] - 7B数学推理模型在相同数据集达68.33%/52.19%/48.18% 平均56.23% 均实现SOTA[29][31] 系统优化特性 - 集成两套后端:Megatron+SGLang/vLLM支持已收敛模型架构 FSDP+HuggingFace支持未收敛模型架构[21] - 自适应通信库包含四项优化:自适应CUDAIPC/NCCL通信、负载均衡传输队列、多通道并发通信、快速通信重配置[19][22][25] - 自动化调度模块支持秒级在线扩缩容 70B模型1秒完成5D并行动态扩缩[23] - 支持LoRA训练、断点续训、多可视化工具集成 正在集成SFT模块提供一站式服务[18] 应用范围 - 专门支持Vision-Language-Action Models(VLAs)+RL训练 集成OpenVLA、OpenVLA-OFT、Pi 0等主流具身大模型[24] - 支持百余类具身智能任务 涵盖CPU-based和GPU-based仿真器[24] - 率先实现Pi 0的大规模强化学习微调 相关算法将于9月底发布[24] - 框架设计具通用性 可快速支持其他非具身智能应用场景[29]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-09-01 12:02
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉领域的应用,涵盖语义场景理解、3D目标检测、SLAM、具身导航和操作控制等任务,并比较传统方法与新兴大模型方法的优劣 [3][4][11][57] 语义场景理解 - 多模态融合通过整合RGB图像、深度信息、LiDAR点云和语言数据,显著提升复杂环境下物体识别、语义分割和关系建模的准确性与鲁棒性 [9] - 主流融合策略分为早期融合(输入层直接拼接)、中期融合(特征层交互如注意力机制)和后期融合(决策层整合),现代方法趋向统一架构实现隐式协作 [10][12] - 实现路径包括编码器-解码器架构(如DeepLabv3+)、基于注意力的Transformer(如MRFTrans)和图神经网络方法(如MISSIONGNN) [12] 3D目标检测 - 多模态融合结合相机(丰富纹理)和LiDAR(精准几何),解决单一传感器在遮挡、极端天气或低反射物体下的性能缺陷 [16][18][19] - 融合设计核心涉及何时融合(早期/中期/后期)、融合内容(特征图、点云、BEV视图)及融合方法(从非注意力型到基于注意力的跨模态交互) [17] - 技术演进从早期MV3D、AVOD到TransFusion(Transformer建模跨模态依赖)和BEVFusion,并扩展雷达-相机融合(如CenterFusion)和4D雷达提升动态感知 [20][21][22] 具身导航 - 分为目标导向导航(依赖视觉语义与空间先验)、指令跟随导航(结合自然语言理解)和基于对话的导航(主动交互与动态调整),体现从感知到交互的演进 [24][26][27][28] - 代表性系统如InstructNav(零样本规划)和NaVid(视频驱动泛化),强调多模态融合在复杂环境中的适应能力 [27][33] 视觉定位与SLAM - 多模态融合(如DeepVO、D3VO)和自监督学习解决光照变化、遮挡及动态场景中的定位问题,神经隐式表示(如NeRF)压缩场景几何与语义信息 [29][30] - SLAM从传统LiDAR-SLAM(几何精准)和V-SLAM(语义丰富)向多模态融合(如V-LOAM、LIC-Fusion)和神经化转型(如UVIO用Transformer建模时序) [34][35] - 未来方向包括轻量化、自监督与感知决策一体化,提升在动态环境中的语义理解与规划能力 [35][38] 视觉-语言-动作模型(VLA) - VLA模型整合视觉感知、语言理解和动作生成,实现从"感知"到"执行"的闭环,代表方法包括RT-2(预训练对齐)、RoboMamba(动作动态建模)和3D-VLA(三维点云融合) [36][37][39] - 高效化趋势明显:OpenVLA通过LoRA降低训练成本,DeeR-VLA采用动态退出机制减少计算开销,VoxPoser支持语言驱动的实时策略调整 [39][40] - 多模态融合使机器人在操作任务中实现感知更强、理解更深和执行更准的三重跃迁 [47] 视觉-触觉融合 - 视觉提供全局物体信息(位置、形态),触觉补充局部反馈(接触力、滑动),提升抓取精度与稳定性,如FusionNet-A融合特征用于抓取规划 [41][42][48] - 触觉在抓取执行阶段实时调整力度和姿态,避免滑动或掉落,并通过时空注意力(如Li等人方法)或自监督学习(如MimicTouch)优化稳定性预测 [44][45][48] 视觉语言模型演进 - 预训练阶段通过对比学习(如CLIP)或自监督方法对齐多模态表示,实现零样本迁移和泛化能力 [50] - 跨模态对齐方法包括对比学习(拉近相关样本)、自监督学习(掩码预测)和跨模态生成(如DALL·E),解决模态间语义粒度差异 [51][55] - VLM从Flamingo、PaLM-E发展到Gemini、Llama-3.2,支持多模态(图像、文本、音频)和结构优化(MoE、稀疏注意力),增强指令理解与推理能力 [53][54] 挑战与未来方向 - 关键挑战包括跨模态对齐的语义偏差、算力有限平台的轻量化部署需求,以及真实环境中的传感器异质性和延迟问题 [58] - 未来重点方向包括结构化空间建模与记忆机制、可解释性与伦理适应性提升,以及发展具备长期学习能力的认知型VLM架构 [58]
时代2025 AI百人榜出炉:梁文锋、王兴兴等入选,华人影响力爆棚
具身智能之心· 2025-09-01 12:02
AI领域最具影响力人物 - 《时代》周刊发布2025年度AI领域最具影响力100人名单 华人面孔显著增加 包括华为任正非、DeepSeek梁文锋、宇树科技王兴兴等[2][5] 领导者(Leaders) - 华为创始人任正非推动公司长期高强度AI投资 打造自主技术体系 包括昇腾AI芯片、昇思深度学习框架和盘古大模型[8] - DeepSeek CEO梁文锋坚持自研路线 2025年1月发布R1开放权重模型 以少量计算能力达到全球最佳水平[11] - NVIDIA联合创始人黄仁勋领导公司转型为AI计算领导者 CUDA平台和GPU成为深度学习核心引擎[14] - 台积电董事长魏哲家凭借7纳米/5纳米/3纳米制程技术优势 为NVIDIA/AMD/苹果代工AI处理器[17] - Meta超级智能实验室联合负责人汪滔创立Scale AI 提供数据标注/评估/RLHF全套解决方案 2024年公司创收超10亿美元[19] 开拓者(Innovators) - 宇树科技CEO王兴兴推动具身智能发展 开发高性价比四足机器人和通用人形机器人H1平台[22] - 小马智行CEO彭军推动自动驾驶商业化 2025年在中国一线城市实现大规模全无人Robotaxi运营[25] - Surge AI创始人Edwin Chen创办数据标注公司 客户包括Google/Anthropic/OpenAI 公司估值超250亿美元[28] 塑造者(Shapers) - 斯坦福教授李飞飞创建ImageNet项目 催生计算机视觉领域深度学习革命[31] - 推动"以人为本AI"理念 致力于将AI技术用于解决医疗等全球性问题[32] 思想者(Thinkers) - 清华大学教授薛澜担任新一代人工智能治理专业委员会主任 参与制定AI伦理规范和发展战略[35] - 深度参与AI法规框架制定 推动建立全球负责任的人工智能生态系统[36] - 华人作家Karen Hao出版《Empire of AI: Dreams and Nightmares in Sam Altman's OpenAI》揭露OpenAI内幕[39] 其他AI领域重要人物 - OpenAI CEO Sam Altman领导发布GPT系列和ChatGPT 推动生成式AI技术普及[43] - Meta CEO Mark Zuckerberg确立AI优先战略 开源Llama系列大模型影响全球开放AI生态[47] - Anthropic CEO Dario Amodei曾领导GPT-2/GPT-3项目 创立公司旨在构建更安全可靠的AI[49] - 亚马逊CEO Andy Jassy创立AWS 当前通过Amazon Bedrock/Amazon Q推动生成式AI创新[51] - 谷歌首席科学家Jeffrey Dean团队提出Transformer架构 合并Google Brain和Google DeepMind为Gemini[58] - OpenAI首席科学家Jakub Pachocki领导GPT-4训练 2019年团队开发的AI击败《Dota 2》世界冠军[60]
吴恩达最新来信:是时候关注并行智能体了
具身智能之心· 2025-09-01 12:02
并行智能体发展趋势 - 并行智能体正成为提升AI能力的新方向 通过多个智能体协作处理不同任务 实现速度快效率高 [2][3] - 传统AI能力提升依赖scaling law 即通过更多数据和算力获得性能提升 但需要长时间输出结果 [6][7][8] - 并行agent在提升性能的同时 让用户无需长时间等待结果 且大语言模型token成本下降使该方法可行 [9][10] 并行智能体应用场景 - 多个agent并行抓取分析网页 快速生成深度研究报告 [11] - 多个agent协同处理代码库不同部分 加快编程任务完成速度 [11] - 多个agent在后台并行工作 由监督agent向用户提供反馈 实现并行异步控制 [11] 技术挑战与研究进展 - 协调多个智能体并行执行任务存在挑战 类似于人类将复杂任务拆分给多个工程师完成的难度 [13][14] - Code Monkeys论文通过并行生成多个轨迹 生成多样化候选解决方案 提高编程问题解决效率 [15][17] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能 并可调整分层架构进一步优化 [18][19] 行业前景展望 - 最优利用并行agent仍需大量研究与工程探索 预计能高效并行工作的agent数量将非常庞大 [22] - 并行计算在AI领域具有历史成功先例 2009年GPU大规模应用曾显著提升卷积神经网络训练效率 [23][24]
开课倒计时!3个月搞透具身大脑+小脑算法
具身智能之心· 2025-08-31 10:33
具身智能行业概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦智能体在物理世界中感知环境、理解任务、执行动作并反馈学习的能力 [1] - 大脑和小脑构成具身机器人核心模块 大脑负责思考感知(语义理解和任务规划) 小脑负责执行(高精度运动执行) [1] 产业发展动态 - 近2年具身明星团队陆续创业 成立星海图、银河通用、逐际动力等公司 推动具身本体和大小脑技术进步 [3] - 华为2024年底启动"全球具身智能产业创新中心" 与乐聚机器人、大族机器人等企业合作建设具身智能大脑和小脑关键技术 [5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司 强化物流科技与家庭服务场景效率 [5] - 腾讯、蚂蚁集团、小米等科技巨头通过战略投资与合作布局 加快构建具身智能产业生态 [5] - 国外Tesla/Figure AI推进工业与物流机器人应用 美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动具身智能落地 国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发 [5] 技术演进路径 - 第一阶段聚焦抓取位姿检测 通过点云或图像预测末端执行器姿态实现静态物体抓取 但缺乏任务上下文和动作序列建模 [6] - 第二阶段进入行为克隆阶段 借助专家演示数据学习从感知到控制的端到端映射 具备模仿人类完成复杂任务能力 [6] - 第三阶段2023年兴起Diffusion Policy方法 通过扩散模型生成整个动作轨迹 提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段 融合视觉感知、语言理解与动作生成模块 支持零样本或小样本快速泛化 [7] - 第四阶段2025年探索VLA模型与强化学习、世界模型、触觉感知等模块融合 提升长时任务试错能力与环境动态预测能力 [8] - 技术演进从低层感知到高层理解 逐步迈向通用任务和开放环境的智能体时代 [9] 应用场景与市场需求 - 技术发展推动人形机器人、机械臂、四足机器人等产品落地 服务于工业、家居、餐饮、医疗康复等领域 [9] - 相关产品和融资络绎不绝 岗位呈现爆发式增长 导致许多人员转入具身智能领域 [9] - 从研究走向落地对工程能力提出更高要求 需要完成策略训练与仿真测试、模型训练部署、强化学习应用等系统能力 [12] 人才需求特征 - 需熟悉具身智能基本功能和任务 具备Python和Pytorch基础 拥有3090ti及以上算力显卡 [18] - 目标人群包括具身算法从业人员、VLA/RL研究方向学生、计算机视觉或自动驾驶转行人员等 [18] - 需掌握仿真、DP、VLA、VLA+RL模型原理应用 以及触觉信息VLA方案和世界模型应用 [18]
最新综述!多模态融合与VLM在具身机器人领域中的方法盘点
具身智能之心· 2025-08-31 10:33
多模态融合与视觉语言模型综述 - 文章系统综述了多模态融合和视觉语言模型在机器人视觉中的应用 涵盖语义场景理解 三维目标检测 SLAM 具身导航和操作控制等任务[4] - 比较了传统方法与新兴大模型方法的优缺点 并分析相关数据集与基准测试[4] - 提出未来发展方向包括跨模态自监督学习 轻量化融合架构 Transformer驱动的统一范式以及真实环境中的高效部署策略[4] 多模态融合在机器人视觉任务中的应用 - 多模态融合整合RGB图像 深度信息 LiDAR点云 语言 触觉与位置信息 提升机器人感知全面性[3] - 主流融合策略分为早期融合 中期融合和后期融合三类[12] - 现代多模态模型在统一架构中完成特征提取 模态交互和任务预测 减少阶段设计麻烦并使信息交换更顺畅[10] 语义场景理解 - 涉及物体识别 语义分割和关系建模 仅靠RGB图像在复杂环境下易受光照变化 物体遮挡和多目标重叠影响[9] - 多模态融合通过引入深度 LiDAR 语言等额外信息大幅提升场景理解的准确性和鲁棒性[9] - 主流实现路径包括编码器-解码器架构 基于注意力的Transformer和图神经网络方法[12] 三维目标检测 - 自动驾驶系统中关键感知任务 准确识别并定位行人 车辆和障碍物[15] - 单一传感器各有短板 相机能捕捉纹理和颜色但缺乏深度信息 LiDAR提供精准空间几何结构但看不懂语义和纹理[15] - 多模态融合设计需解决何时融合 融合什么和如何融合三个核心问题[16] 方法演进 - 从早期依赖直接拼接或统计操作 演化出点级 体素级 区域级融合策略 到Transformer引入实现智能交互[19] - 代表性方法包括PointPainting和TransFusion 前者对图像做语义分割并涂到点云上 后者用Transformer解码器建模跨模态依赖[21] - 探索雷达-相机和雷达-LiDAR融合 雷达优势在于直接测量速度且在恶劣天气中稳定[20] 具身导航 - 核心思想是让机器人像真的身处环境中一样去探索 感知和行动 强调自主决策与动态适应能力[23] - 分为目标导向导航 指令跟随导航和基于对话的导航三类 从感知驱动到语言理解再到交互感知演进[23] - 基于对话的导航中机器人能够主动发问 实时交互 提升任务灵活性 特别适合长时序 多步骤复杂任务[27] 视觉定位与SLAM - 视觉定位在光照变化 遮挡严重 环境动态频繁场景中是大难题 多模态融合思路推进问题解决[28] - 自监督学习通过光度一致性和几何一致性物理约束进行学习 不依赖人工标注[28] - SLAM从单打独斗变成抱团取暖 通过融合LiDAR 相机 IMU GPS 雷达等多源信息提升系统稳定性[33] 视觉-语言-动作模型 - 结合视觉感知 语言理解和动作规划 让机器人基于多源信息主动决策和执行[35] - 核心思路是从视觉模态获取世界状态 通过语言模态理解任务语义 将多模态信息融合到统一表示再映射成动作序列[36] - 代表性方法包括RT-2 RoboMamba 3D-VLA OpenVLA DeeR-VLA和VoxPoser[38] 视觉与触觉融合 - 视觉负责提供全局信息如物体位置 形态和姿态 触觉提供局部反馈如接触力 摩擦和滑动[40] - 在抓取生成阶段 视觉帮助确定空间姿态和位置 触觉补充表面特性和受力信息用于选择最优抓取点[41] - 抓取稳定性预测中 视觉-触觉融合展现巨大优势 让机器人从只会抓升级为会思考怎么抓[44] 视觉语言模型演进 - 预训练几乎是整个系统起点 通过大规模图像-文本数据联合训练学会视觉与语言间深层语义关联[49] - 跨模态对齐是关键 需在不同模态间建立精确对应关系 主流方法分为对比学习 自监督学习和跨模态生成三类[51] - 自2022年以来VLM发展迅速 从Flamingo PaLM-E到MiniGPT-4 LLaVA 再到Gemini Llama-3.2 多模态范围扩展到图像 文本 音频甚至跨语言[52] 核心创新点 - 大规模图文预训练先喂饱模型海量图文对 为跨模态推理打下坚实基础[53] - 指令微调用自然语言告诉模型需求 学会举一反三甚至猜未说出口需求[53] - 结构优化采用MoE专家混合和稀疏注意力等黑科技 在提升性能同时节省算力[53] 结论与未来方向 - 跨模态对齐策略决定机器人感知能力上限 但不同模态间语义粒度差异和特征对不上号仍是硬伤[57] - 在算力有限机器人平台部署大规模VLM需靠轻量化与多阶段自适应机制精打细算[57] - 未来研究可重点关注引入结构化空间建模和记忆机制 提升系统可解释性与伦理适应性 发展具备长期学习能力的认知型VLM架构[57]
具身智能之心人形机器人交流群成立啦~
具身智能之心· 2025-08-31 10:33
具身智能之心人形机器人交流群来啦!欢迎从事人形运控、VLA模型、数采、硬件等相关方向的同学 加入。 添加小助理微信AIDriver005,备注昵称+人形+加群。注意:有备注才能通过哦~ ...