具身智能之心
搜索文档
VLFly:基于开放词汇目标理解的无人机视觉语言导航
具身智能之心· 2025-07-20 09:06
视觉语言导航框架VLFly - 提出针对无人机的视觉语言导航框架VLFly,实现开放词汇目标理解及零样本迁移,仅需自然语言指令和单目相机视觉信息即可导航 [8] - 框架由三大模块组成:自然语言理解、跨模态目标定位、可导航航点生成,有效弥合语义指令与连续控制命令的差距 [7][8] - 在模拟和真实环境中验证显示,VLFly在无人机VLN任务中泛化能力优于所有基线方法(成功率最高达86.4%)[8][14] 技术实现细节 - 指令编码模块使用LLaMA模型将指令转换为结构化文本提示(如"Goal Image: a photo of backpack")[11] - 目标检索模块通过CLIP模型计算文本-图像相似度,从预定义池中选择最相关目标图像(相似度分数公式见原文)[11] - 航点规划模块融合当前观测与目标图像特征,通过Transformer解码器生成未来航点轨迹(输出步数预测及相对航点)[11][12] 性能对比数据 - 在简单/中等/复杂场景中,VLFly成功率分别为86.4%/82.5%/77.3%,显著高于Seq2Seq(35.1%/21.2%/8.9%)和PPO(90.4%/11.8%/0%)[14] - 真实世界测试中,对直接指令成功率83%,间接指令70%,克服光照变化和背景杂乱等挑战 [16][18] - 导航误差(NE)在简单场景仅1.57米,优于Hybrid-APF(2.42米)和CMA(4.28米)[14] 与传统方法对比 - 传统SLAM/SfM方法无法处理高级语义意图 [9] - 端到端学习方法样本效率低且泛化能力受限 [9] - 现有VLN方法多针对地面机器人,假设离散动作空间,不适用于无人机连续控制 [9] 模块化设计优势验证 - 移除指令编码模块后间接指令性能显著下降 [20] - 替换为统一VLM模型(如BLIP)无法有效处理间接指令 [20] - 强化学习策略在未知环境中表现不佳,验证航点规划模块的泛化必要性 [20]
分析了102个VLA模型、26个数据集和12个仿真平台
具身智能之心· 2025-07-20 09:06
视觉-语言-动作(VLA)模型综述 核心观点 - VLA模型通过整合视觉感知、自然语言理解和机器人控制,实现跨模态智能决策,是机器人技术的变革性突破[3] - 当前已梳理102个VLA模型、26个基础数据集和12个仿真平台,形成完整技术生态[3] - 未来发展方向包括可扩展预训练协议、模块化架构设计和稳健多模态对齐策略[3] 技术架构 - **主流架构范式**:采用基于Transformer的视觉/语言骨干网络,通过跨模态注意力融合多模态输入,典型代表包括RT-2、OpenVLA等[9] - **三流编码设计**: - 视觉编码器处理RGB图像(ViT/DINOv2等)[13] - 语言编码器嵌入指令(LLaMA/PaLM等)[15] - 状态编码器处理机器人本体感受数据[11] - **动作生成机制**:扩散策略(Octo)和自回归Transformer(Gato)成为主流解码方式[15] 数据集发展 - **演进趋势**: - 早期:EmbodiedQA等简单状态-动作映射数据集[22] - 中期:ALFRED等引入多模态感官流[22] - 当前:Open X-Embodiment整合22个机器人实体和500+任务数据[5] - **评估框架**:通过任务复杂性和模态丰富度二维指标量化数据集质量,最高分Kaiwu兼具极高任务复杂性和七种模态[23][29] 仿真平台 - **关键功能**: - AI2-THOR:逼真室内场景生成[34] - NVIDIA Isaac Sim:支持激光雷达/IMU等多传感器[35] - MuJoCo:高精度接触力建模[35] - **技术瓶颈**:物理准确性不足、语言接地API缺失制约仿真到现实的迁移效果[47] 应用领域 - **六大方向**: - 操作与任务泛化(RT-2/Octo)[37] - 自主移动(NaVILA)[38] - 人机交互(RoboNurse-VLA)[38] - 专用机器人平台(QUAR-VLA)[38] - 虚拟环境(JARVIS-VLA)[38] - 边缘计算(Edge VLA)[38] 技术挑战 - **架构层面**:模态融合不充分、跨实体泛化能力弱[43][44] - **数据层面**:任务多样性不足、模态不平衡[45] - **仿真层面**:视觉-物理保真度难以兼顾[47] 未来方向 - 开发可学习的分词器统一多模态输入[49] - 构建长视距跨域基准测试体系[49] - 推进可微分物理引擎和标准化语言接口[50]
加利福尼亚大学!EgoVLA:从第一视角人类视频中学习VLA模型
具身智能之心· 2025-07-20 09:06
研究背景与核心思路 - 传统机器人模仿学习受限于硬件和操作成本,难以突破数据规模和任务多样性 [3] - 人类操作行为构成海量潜在训练数据,全球数十亿人在机器人期望工作的场景中持续活动 [3] - 核心突破在于人类与机器人的动作空间差异可通过几何变换近似,无需直接基于机器人数据训练视觉-语言-动作模型 [3] - 先在人类第一视角视频上训练模型,再通过少量机器人演示微调,实现技能迁移 [3] 模型架构与动作空间设计 - 以NVILA-2B为基础框架,输入包括当前及历史第一视角视觉观测、语言指令、动作查询token和人类本体感觉 [5] - 动作头预测未来1秒内的动作序列,采样频率30 Hz [6] - 动作空间采用人类手腕位姿和MANO手模型的前15个PCA主成分,兼顾紧凑性与表达力 [8] - 通过3D变换对齐坐标系,结合逆运动学转换为机器人末端执行器位置 [11] 数据组成与训练 - 整合四个来源的第一视角视频,形成约50万图像-动作对的大规模人类操作数据集 [12] - 数据集涵盖TACO(23%)、HOI4D(25%)、HoloAssist(39%)、HOT3D(13%),涉及33种刚性物体 [12] - 训练损失函数包括L2损失(针对手腕平移和手部关节角回归)和rot6D旋转损失 [10] 评估基准与实验结果 - 基于NVIDIA IsaacSim构建仿真基准,包含12个任务,通过世界坐标系相机位姿解决标注不一致问题 [14] - 人类数据预训练的EgoVLA在短视距和长视距任务中成功率提升约20% [16] - 在seen视觉背景下,EgoVLA的成功率和进度率显著优于无预训练的基线 [18] - 在unseen视觉背景下,EgoVLA短视距任务成功率仅小幅下降,而无预训练模型下降23% [20] 数据规模与多样性影响 - 人类数据多样性越高,模型泛化越好,整合多数据集的模型在短视距任务上的表现显著优于单一数据集训练的模型 [23] - 仅用50%机器人演示数据的EgoVLA性能明显下降,尤其长视距任务 [23] - 依赖带手腕和手部姿势标注的人类数据,当前数据获取仍有局限 [23] - 需少量机器人数据微调才能部署,零样本迁移能力不足 [23]
IROS 2025 Oral|无界智慧推出3D-MoRe:助力空间理解,提升复杂三维环境中的推理能力
具身智能之心· 2025-07-19 17:46
3D-MoRe模型技术突破 - 模型采用"生成-融合-推理"一体化范式,集成多模态嵌入、跨模态交互与语言模型解码器,显著提升3D场景理解与推理能力[3][4][9] - 通过自适应多模态数据融合技术生成62,000个问答对和73,000个物体描述,覆盖1513个室内场景,数据规模远超原始ScanQA和ScanRefer数据集[3][6][9] - 在ScanQA任务中CIDEr评分提升2.15%,ScanRefer任务中CIDEr@0.5指标提升1.84%,性能超越Chat-3D V2等现有模型[3][9][23] 核心技术创新 - 提出分层跨模态交互推理架构(CMIM),包含多模态嵌入模块、交叉注意力融合模块和LLM解码器三大组件,实现文本、视觉提示与3D场景的高效融合[15][21][24] - 开发语义质量控制技术,采用BERT嵌入量化语义相似度,结合RoBERTa推断评估语义一致性,确保数据生成质量[11][12] - 应用同义词替换、逻辑反转、顺序重排等数据增强技术,配合T5模型进行文本转换,显著提升模型泛化能力[12][13] 行业应用价值 - 该模型可扩展至视觉定位、具身导航等3D多模态任务,为服务机器人系统提供通用技术框架[30] - 团队已面向康养场景开发智能陪护机器人,部署于养老院、社区等多场景,推动具身智能商业化落地[29] - 公开的代码库与大规模数据集(62K+73K)有效降低行业研究门槛,加速3D-语言交叉领域技术突破[9][30] 研发团队背景 - 核心团队由CMU、MBZUAI、中科院等机构研究人员组成,在CVPR、ICML等顶会发表论文数百篇[29] - 技术负责人曾提出基于空间可供性操作大模型A0和视频具身导航大模型NaVid,拥有29篇一作/通讯论文含3篇ESI高被引[2] - 当前重点研发基于时空智能的通用具身大模型,持续推动人形机器人技术迭代[29]
突破户外RGB SLAM尺度漂移难题,精确定位+高保真重建(ICCV'25)
具身智能之心· 2025-07-19 17:46
户外SLAM技术突破 - 香港科技大学(广州)提出S3PO-GS框架,首次实现RGB单目SLAM的全局尺度一致性,被ICCV 2025接收 [2] - 在Waymo、KITTI和DL3DV三大户外基准测试中,S3PO-GS刷新新视角合成SOTA纪录,DL3DV场景跟踪误差降低77.3% [2][6] - 该技术针对户外单目SLAM的尺度漂移问题,解决无界户外环境中深度先验缺失和帧间尺度不一致的双重瓶颈 [4][5] 核心技术方案 - 自洽跟踪模块:利用3DGS渲染生成尺度自洽的3D点云图,建立精准2D-3D对应关系,消除位姿估计漂移误差 [6] - 动态建图机制:提出基于局部patch的尺度对齐算法,动态校准预训练点云图与3DGS场景的尺度参数 [6][10] - 联合优化架构:通过点云替换策略与几何监督损失函数,同步提升定位精度与场景重建质量 [6][11] 性能表现 - Waymo数据集PSNR指标达到26.73,KITTI数据集ATE降至1.048,DL3DV数据集ATE仅0.032 [16] - 位姿估计迭代次数减少至传统方法的10%,在复杂数据集上实现精确相机追踪 [22] - 渲染图像精准捕捉车辆纹理和建筑结构,深度变化复杂区域精度显著提升 [17][21] 技术原理 - 地图初始化阶段通过1000步迭代优化MASt3R预训练点云图,构建初始3D高斯场景表示 [7] - 动态双向校准机制:基于局部patch尺度对齐和几何-尺度解耦融合,实现尺度统一且几何完备的场景先验 [12][13] - 联合优化阶段形成定位与重建相互强化的闭环,实现高精度定位与高保真重建的协同跃升 [11] 应用前景 - 技术适用于自动驾驶、机器人导航及AR/VR等前沿领域,提升SLAM系统鲁棒性 [3] - 未来将探索回环检测和大规模动态场景优化,拓展户外SLAM应用边界 [24]
强化学习的两个「大坑」,终于被两篇ICLR论文给解决了
具身智能之心· 2025-07-19 17:46
实时强化学习技术突破 - 核心观点:Mila实验室提出实时强化学习框架,解决现有算法在延迟敏感环境中的动作延迟和缺失问题,实现高频连续任务的即时响应[9][33] - 技术背景:传统强化学习采用"回合制"交互模式,存在环境暂停和智能体暂停假设,难以适应实时变化场景[5][6] 无动作遗憾解决方案 - 交错推理框架:通过异步多过程推理自适应调整并行时序,使1亿参数大模型能在每个环境步执行动作,完全消除无动作遗憾[13][16][17] - 性能验证:在Game Boy/Atari实时模拟中测试,1亿参数模型成功完成《宝可梦:蓝》的快速捕捉任务[18][19] 延迟遗憾解决方案 - 并行计算机制:借鉴CPU流水线技术,一次性计算所有网络层,将推理吞吐量从每Nδ秒提升至每δ秒[22][23][27] - 时序跳跃连接:最新观测值仅需单次δ延迟即可到达输出层,总延迟从Nδ降至δ[24][25][29] 技术协同应用价值 - 互补性:交错推理解决大模型动作输出稳定性,时序跳跃连接降低内部延迟,两者结合实现模型规模与延迟解耦[32][33] - 应用场景:适用于机器人协作(如厨师机器人)、自动驾驶、高频金融交易等毫秒级响应领域[2][33][34] 实验数据与性能 - 基准测试:在俄罗斯方块等实时游戏中,异步推理使大模型性能下降速度减缓,延迟遗憾效应显著降低[28] - 架构优化:通过过去动作/状态增强输入恢复马尔可夫特性,同步减少延迟和优化遗憾[31]
研二多发几篇论文,也不至于到现在这个地步……
具身智能之心· 2025-07-18 20:15
就业与学术压力 - 秋招季大厂提前批招聘更倾向于项目经历丰富、研究成果突出、背景优秀的候选人[1] - 普通研究生在就业和申博时面临压力,需通过高质量科研成果证明能力[1] - 硕士阶段的院校背景和成果水平直接影响申博成功率(申请制)[1] 论文发表挑战与解决方案 - 高区位会议期刊论文发表难度大,尤其对导师放养的学生存在选题迷茫、框架混乱等痛点[1] - 公司提供专业论文辅导服务,案例显示研二学员在3个月内完成SCI论文[2] - 服务覆盖从选题到投稿全流程,12周标准化周期(含文献综述、实验设计、润色等环节)[5] 公司核心优势 - 旗下拥有自动驾驶之心/具身智能之心等头部技术自媒体IP,专注自动驾驶、机器人等交叉学科领域[3] - 师资团队包括300+QS前100高校导师,均具备顶会/子刊发表经验,近3年辅导400+学员,中稿率96%[3] - 提供名校推荐信(如清北/MIT)及名企内推(阿里达摩院、华为诺亚方舟)等附加价值[12] 目标客群与服务模式 - 主要服务计算机专业硕博生、职称晋升需求者、AI领域从业者及留学申请人群[9] - 采用1v1在线授课+微信群答疑模式,匹配系统可精准筛选3-5位方向契合导师[11][13] - 服务包含基础课程带读、科研思维培养、算法体系构建及代码实践结合等模块[8][11] 商业化与交付保障 - 分区定价策略,根据发文目标定制报价(如CCF-A/B/C、SCI分区差异)[12] - 预收定金可试听名师课程,不满意支持更换导师或退款[12] - 班主任全程督学,确保学习进度与交付质量[10]
一周年啦!我们做的具身智能社区,准备涨涨价了......(最后2天)
具身智能之心· 2025-07-18 11:21
具身智能之心知识星球概述 - 具身智能之心知识星球是国内首个具身全栈社区,汇聚了具身领域各类行业人才,包括高校实验室和机器人头部公司的成员 [1][13] - 社区创建目的是提供技术交流平台,涵盖学术和工程问题,成员来自斯坦福大学、清华大学、智元机器人、优必选等知名高校和企业 [13] - 星球内容涵盖问答、干货分享、视频直播、技术路线等,适合不同阶段的从业者 [2] 星球核心资源 - 汇总近30+技术路线,包括具身智能感知、交互、强化学习、多模态大模型等方向 [3][13] - 提供近40+开源项目、60+具身智能数据集、行业主流仿真平台 [13] - 邀请数十位具身领域一线产业界和学术界嘉宾,提供答疑和直播分享 [3][70] - 建立与多家具身公司的内推机制,帮助成员对接心仪岗位 [8] 学习与研究支持 - 汇总国内外具身智能高校和实验室,为读研、申博提供参考 [16] - 整理具身智能相关研报,涵盖大模型、人形机器人等行业动态 [21] - 提供机器人导航、动力学、运动学等方向的PDF书籍 [24] - 汇总机器人零部件品牌,包括芯片、激光雷达、相机等 [26] 技术路线与项目 - 强化学习路线包括基于LLM的强化学习、可解释强化学习等 [36] - 具身智能感知路线涵盖3D视觉感知、触觉感知等任务 [38] - 多模态大模型内容涵盖理解与生成,涉及图像、视频、音频等多模态数据 [46][48] - 机械臂抓取、双足与四足机器人等方向的项目和源码汇总 [63][65] 社区互动与福利 - 成员可自由提问,获得工作或研究方向选择的建议 [72] - 提供新人优惠券,加入后可享受专属学习视频、岗位推荐等服务 [75] - 定期举办圆桌论坛和直播,分享行业最新进展 [3][70]
为什么能落地?目标导航是怎么识别目标并导航的?
具身智能之心· 2025-07-18 11:21
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划[2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模和动态决策能力[2] - 技术依赖计算机视觉、强化学习与3D语义理解的交叉突破,典型场景如"去厨房拿可乐"需识别空间特征、构建拓扑地图并避开动态障碍[2] 产业化落地现状 - 终端配送领域:美团无人配送车采用动态路径重规划技术,Starship Technologies的机器人已在欧美高校和社区部署[3] - 医疗/酒店/餐饮场景:嘉楠科技、云迹科技、擎朗智能的商用机器人实现药品、文件、餐食自主配送,美国Aethon公司TUG系列提升服务效率[3] - 人形机器人适配:宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成工业场景导航模块,特斯拉Optimus展示端到端操作能力[3] 技术演进与生态发展 - Habitat仿真生态完整记录技术迭代,从2020年CVPR点导航基准扩展至图像导航、目标导航及移动抓取任务,形成闭环评测体系[4] - 关键技术突破包括:视觉预训练模型提升特征泛化,分布式强化学习框架DDPPO使PointNav任务SPL指标显著提升,LLM解决开放词汇导航难题[4] - 当前技术梯度:PointNav和闭集ObjectNav接近人类表现,开放词汇物体导航和动态障碍场景仍存挑战,Sim2Real迁移框架推动实际部署[4] 三代技术路线迭代 - 第一代端到端方法:基于强化学习与模仿学习,在点导航和闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法:通过显式构建语义地图分解任务,零样本目标导航中未见物体场景成功率显著提升[5] - 第三代LLM/VLM融合方法:利用大语言模型生成语义指导策略,视觉语言模型提升开放词汇匹配精度,重点开发场景表征接口[7] 技术挑战与学习路径 - 具身导航需综合自然语言处理、计算机视觉、强化学习和场景图知识,领域论文碎片化且实战指导缺乏,Habitat生态文档不足提高入门门槛[9] - 解决方案包括构建领域框架、理论结合实践、系统化课程设计,覆盖语义导航核心框架、Habitat仿真生态、端到端/模块化/LLM-VLM导航方法及实战部署[10][11][12] 课程体系与目标 - 课程大纲分12周,涵盖Habitat仿真开发、端到端/模块化/LLM-VLM方法理论与实践,最终完成VLFM算法复现与真实场景部署[16][17][19][21][23][25] - 面向机器人抓取从业人员、具身智能研究者、CV/自动驾驶转行者,培养独立开展算法改进与工程优化的能力,掌握Sim2Real部署流程[33]
真香!一台机器搞定人形运控、强化学习、VLN/VLA
具身智能之心· 2025-07-18 10:28
产品概述 - TRON1是一款专为教育科研设计的一体化研究平台,支持验证人形运动控制、强化学习、VLN任务、VLA任务等多种功能 [1] - 采用双足、双点足和双轮足"三合一"模块化设计,可快速切换、自由组合,一机支持多形态算法研发 [1] - 一套产品可同步验证点足运动控制、双足人形运动控制、轮式运动控制,实现"买一得三" [1] 功能特点 - 定义为仿人形步态开发平台,支持人形运控研究和强化学习论证 [6] - EDU版本可外设深度相机或RGB相机,支持目标导航和感知功能开发 [6] - 支持外设加装机械臂,实现VLA功能验证(导航+抓取) [6] - 开发语言支持C++和Python,降低使用门槛 [6] 技术参数 硬件配置 - 感知拓展套件包含NVIDIA Ampere架构GPU(1024 CUDA核心,157 TOPS稀疏算力)、8核Arm CPU(2.0GHz)、16GB LPDDR5内存 [16] - 激光雷达参数:水平FOV 360°,点云输出200000点/秒,深度相机分辨率1280x720 [16] - 语音交互套件支持普通话/英语,拾音距离≤4m,可自定义唤醒词和大模型部署 [19] - 标准版和EDU版均采用48V三元锂电池(240Wh),续航≥2小时,充电时间<1小时(20%-80%) [26] 性能指标 - 运动速度:双足/双点足<1m/s,双轮足最高≥5m/s [26] - 负载能力:约10kg(极限15kg),最大爬坡角度≥15°,最大落差高度15cm [26] - 关节参数:额定扭矩30Nm,峰值扭矩80Nm,峰值转速15rad/s [29] 应用场景 - 支持复杂地形运动、移动操作+机械臂任务 [20] - 感知模块可用于三维建图、重定位、导航及动态避障 [13][21] - 语音交互模块适用于具身智能教育、导览解说、展会互动等场景 [18][22] 开发支持 - 提供完整URDF模型,支持NVIDIA Isaac、Mujoco、Gazebo等主流仿真平台 [9] - SDK支持数据可视化、记录回放、关节控制函数等功能 [29][34] - 配套开发指南和用户手册,提供1年免费售后服务 [40][37] 产品版本 - 分为基础版本和EDU版本,后者支持外设加装感知、语音交互组件及GPU算力资源 [4] - EDU版额外提供IMU数据获取、USB3.0/GbE拓展接口、24V外设供电(峰值200W) [29]