具身智能之心
搜索文档
怎么在仿真里面让人形机器人、四足机械狗跑起来?
具身智能之心· 2025-07-06 19:54
具身机器人步态控制的重要性 - 步态控制是具身智能机器人实现空间移动的核心技术,工业界和学术界已投入20年研究人形机器人步态以接近真实生物动作[1] - 足式机器人在复杂地形(地震废墟、火灾现场)具有不可替代性,能跨越障碍执行轮式/履带式机器人无法完成的任务[1] - 太空探索、极地科考等极端环境需要足式机器人适应崎岖地形,推动国家层面加速产品落地[1] 足式机器人的技术挑战 - 人类有近万种步态动作,机器人需学习爬楼梯、跑步、跳舞等高难度动作并实现自主学习进化[2] - 控制技术涉及运动学、动力学、多传感器融合、强化学习等10+方向,学习门槛高导致从业者易放弃[4] - 深度学习爆发后技术加速,但仿真与现实差距(Sim2Real)仍是核心难题,需域随机化、RMA等策略降低差异[16] 行业应用与市场前景 - 足式机器人被誉为"机器人领域下一座里程碑",巡检、安防、救援、工业自动化是主要落地场景[4] - 资本高度青睐,企业重金争夺人才,Unitree/DeepRobotics等硬件平台成为主流选择[11][16] - 波士顿动力已实现多姿态切换与跳跃算法,为行业提供前沿案例参考[6] 技术课程体系架构 基础模块 - 四足机器人关节布局、负载分析、步态规划,通过Isaac Gym/Gazebo仿真实现平稳行走[5][6] - 双足机器人动态平衡控制,应用PPO/SAC算法实现从行走到跳跃的进阶[6] 高阶算法 - 结合模仿学习(BC/GAIL)与终身学习(EWC),实现多任务自适应切换[14] - 多模态传感器融合(IMU/视觉/力觉),提升避障与崎岖地形行走性能[15] 实战部署 - 硬件平台特性分析与安全机制设计(碰撞检测/人体交互容错)[11] - 自定义大作业涵盖斜坡、碎石路等复杂场景,输出可视化训练指标[13] 目标人群与能力培养 - 面向AI从业者、研究生、转行者,需具备Python/PyTorch及线性代数基础[26] - 课程覆盖从四足到双足的全栈算法,通过仿真环境积累1-2年实战经验[26][27] - 采用离线视频+代码+答疑模式,配套源码与行业案例实现技术转化[29]
从坐标混乱到时空对齐!诺亚和复旦联合提出4D-VLA,提升机器人预训练效率和稳健性
具身智能之心· 2025-07-06 19:54
核心观点 - 4D-VLA通过引入3D空间坐标和历史帧信息,显著提升了视觉-语言-动作模型在复杂场景中的性能,解决了传统单帧RGB输入导致的坐标系混乱和状态模糊问题[4][8][10] - 实验证明4D-VLA在LIBERO评测中平均成功率高达88.6%,比现有最佳方法提升10.5个百分点[33] - 在真实机器人测试中,完整版4D-VLA模型平均成功率85.63%,比基线OpenVLA提升57.93个百分点[44] 现有范式的局限 - 主流方法如OpenVLA仅使用单帧RGB图像+文本指令,导致目标分布呈现高方差/非平滑特征[7] - 单帧输入导致坐标系混乱问题,在DROID数据集中约67%样本存在此问题[8] - 状态混乱问题:视觉相似观测可能对应完全不同的动作,导致局部不连续[8] 坐标系混乱影响 - 受控实验显示,无3D信息的纯RGB模型在Level 3混乱下成功率仅剩8%,而加入3D坐标编码的模型仍保持30%[17] - 坐标系漂移导致动作标签冲突,严重拖慢模型学习速度[18] 4D-VLA方法创新 - 通过深度图+相机外参将像素反投影到世界坐标,显式嵌入3D位置编码[10][21] - 采用滑动窗口和Memory Bank Sampling动态选取历史帧[25] - 引入可学习相对时间token处理非均匀采样间隔[27] 实验设置 - 预训练使用DROID数据集,包含76,000条轨迹,350小时交互,564个场景[29] - 下游评测使用LIBERO仿真套件,包含130个子任务[29] - 训练使用8张NVIDIA A6000 GPU,耗时约96小时[31] 性能表现 - 在MV-Bench跨视角评测中,4D-VLA成功率73.8%,比OpenVLA提升23.3个百分点[39] - 真实机器人测试显示,加入3D坐标编码使成功率从47%提升至63.67%[44] - 多视角实验中,4D-VLA在极端±45°视角偏移下仍保持40-55%成功率[58] 技术优势 - 3D坐标对齐使模型在不同摄像机坐标中共享统一世界坐标系[40] - 历史帧记忆帮助维持多步推理链,解决长程任务中的失败问题[48] - 时空提示带来视角不变性,使模型聚焦于物体间真实空间关系[40][41]
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 19:54
视觉-语言-动作(VLA)模型研究 - 提出一种新型VLA方法,利用视觉语言模型(VLMs)直接推断机器人末端执行器在图像帧坐标中的位姿,取代传统低级控制指令输出 [2] - 模型设计轻量但高效,采用next-token预测架构学习可执行机器人轨迹,并探索深度图像潜力及解码策略 [2] - 通过模拟数据集训练展现良好模拟到现实迁移能力,结合真实数据验证在机器人系统的有效性 [2] 技术挑战与解决方案 - VLA发展面临三大约束:高计算成本(需大量资源训练)、数据限制(高质量多模态数据集采集难)、评估基准依赖真实世界测试 [3] - 采用可控合成数据集训练轻量VLA系统,基于PaliGemma架构微调,任务定为末端执行器关键位姿单步预测以提升效率 [3][6] - 利用模拟训练构建含丰富相机视角和目标变化的数据集,通过增强设计实现模拟到现实迁移 [3][10] 模型架构与动作表示 - 基础模型基于PaliGemma2微调,输入格式为<实时图像>+<机器人状态>+<任务描述>→<预测轨迹> [6] - 动作表示借鉴RT-1,用离散化令牌编码6自由度夹爪位姿,扩展定位令牌预测深度,分割令牌编码方向 [6] - 深度图通过viridis色图转换为RGB,复用预训练图像编码器处理 [7] 数据集生成与评估 - 使用ManiSkill模拟器生成数据,含CLEVR几何形状和Objaverse真实目标两类3D资产,应用图像增强与随机化 [9][10] - 真实评估采用DROID数据集子集(DROID-hard含干扰目标,DROID-easy测试泛化性),计算预测与真实位姿的L1误差 [11] - 消融实验显示深度信息显著提升模拟成功率,多样化3D资产对泛化至Objaverse场景至关重要 [12] 实验性能与推理优化 - 单样本模仿实验中,CLEVR-easy训练模型在模拟成功率达70%,而hard版本在真实数据表现更优(轨迹L1误差11.56) [16][17] - 输入图像裁剪策略改善小目标定位性能,多预测生成采用beam-search-NMS解码策略优于贪婪搜索(Top-1误差33.42) [18][20][23] - 提出使用平均精度(mAP)评估轨迹分布,设定L1距离阈值反映操作准确性 [23]
具身什么时候可以交卷?哪些产品会率先落地?
具身智能之心· 2025-07-05 18:31
具身智能产业落地分析 - 人形机器人短期内难以实现稳定场景部署 主要受限于本体稳定性不足 摔倒风险高 维修成本高昂 责任归属不明确等问题[1] - 移动操作+机械臂方案更易落地 银河通用G1在服务领域 家居 超市等场景表现优异 智元远征A2-W在工业领域负载能力突出[1][2] - 数据层面亟需大规模基础模型预训练 真实场景数据采集效率和质量是关键 sim2real方案虽解决数据采集难题 但真实场景性能迁移仍需突破[4] 具身智能技术生态建设 - 社区汇聚近200家头部企业及高校 包括斯坦福 清华 优必选 小米等 覆盖40+开源项目 60+数据集及主流仿真平台[13] - 技术路线全面覆盖感知 交互 导航等16个领域 包括强化学习 VLA模型 Diffusion Policy等前沿方向[13][35][51][53] - 硬件生态整合零部件品牌 涉及芯片 激光雷达 ToF相机等 并提供移动+执行硬件方案快速搭建指南[25][29][63] 行业资源整合 - 汇总国内外40+具身智能公司 涉及教育 医疗 物流等细分赛道 30份行业研报持续追踪落地进展[18][20] - 建立完整学习体系 包含机器人动力学 路径规划等基础教材 以及触觉感知 多模态大模型等前沿领域专题[23][37][43][45][47] - 提供仿真平台横向对比 涵盖通用机器人仿真和真实场景仿真两类平台 加速开发流程[33] 人才发展支持 - 实时对接企业招聘需求 包含优必选 逐际动力等头部公司岗位 配套实习项目指导[11][16][70] - 构建项目孵化环境 支持Isaac Sim等仿真框架开发 提供机械臂抓取 四足机器人等实操案例[59][61] - 定期举办行业大咖直播 内容涵盖技术解析 职业规划等 支持录播回看[64][65]
秋招快要开启了!哪里可以找到具身相关的面经和题目啊?
具身智能之心· 2025-07-05 17:42
AutoRobo知识星球概述 - 国内首个专注于自动驾驶、具身智能、机器人方向的求职社区 已运营3年多 近1000名成员 [1][3] - 成员涵盖地平线、理想汽车、华为、小米汽车、momenta、元戎启行等企业社招人员及2024-2025届校招生 [3] - 提供面试题库、行业研报、谈薪技巧、内推资源、简历优化等全链条求职服务 [3][26] 核心资源分类 招聘信息 - 实时更新算法、开发、产品等岗位 覆盖校招、社招、实习 信息直接来自合作企业第一手发布 [5] 自动驾驶领域题库 - 毫米波视觉融合/3D&4D毫米波雷达量产/车道线检测算法/BEV感知等10+专项"一百问"题库 [10] - 规划控制、多传感器标定、端到端自动驾驶等实战技术面试题库 [10][13] 具身智能领域题库 - 多模态3D检测/Cuda-TensorRT部署/Nerf应用/Diffusion Policy等15+细分方向面试题库 [11][13] - 涵盖VLA视觉语言导航、VLN视觉语言导航等前沿技术面试要点 [13] 行业研究支持 - 收录《世界机器人报告》《中国人形机器人发展蓝皮书》等权威研报 [16][17] - 提供具身智能创投报告、技术路线分析、产业链深度研究等决策参考 [16][17] 面经案例库 - 分类整理社招/校招/实习面经 覆盖滴滴、英伟达、美团等企业从技术面到HR面全流程 [20] - 包含自动驾驶SLAM算法、决策规划控制等岗位的成败案例分析 [19][20] 职业发展辅助 - 汇总机器人/自动驾驶/AI领域专业书籍与技能树图谱 [23][24] - 提供转行经验、面试官建议、岗位复盘等职业规划内容 [24] - 专项谈薪技巧与HR面应答策略库 [22][25] 服务价值 - 日均成本0.3元 可获取企业直推岗位与千人行业社群资源 [26]
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 10:25
大模型优化课程核心内容 - 课程聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展和复杂推理三大方向 [1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等,实验平台采用LLaMA、GPT等主流模型 [1] - 重点解决参数压缩(剪枝稀疏化/量化加速)、知识扩展(RAG/PEFT)和推理优化(CoT/GRPO)等核心挑战 [1] 课程结构与招生信息 - 采用12周在线科研+2周论文指导+10周维护期的教学模式,每期限招6-8人 [3][10] - 目标学员包括大模型方向本硕博学生、科研人员及AI从业者,需具备PyTorch和Python基础 [4][5] - 硬件要求最低配置2张NVIDIA 4090显卡,推荐4张或使用云服务器 [11] 课程产出与学术支持 - 学员将获得定制化研究idea、baseline代码及公开数据集,最终完成论文初稿 [10][13][14] - 论文指导覆盖SCI 1-4区和CCF A/B/C类会议,提供从选题到投稿的全流程方法论 [18] - 必读论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)等前沿成果 [15][17] 课程技术模块 - 剪枝量化模块:涵盖结构化剪枝算法、GPTQ量化技术及TVM编译器优化 [15] - 知识扩展模块:通过RAG解决幻觉问题,采用PEFT实现垂类任务高效微调 [16] - 推理增强模块:包含Chain-of-Thought多步推理和GRPO强化学习优化 [16][17] - 多模态扩展:涉及LLaVA视觉语言模型和Flamingo多模态学习框架 [15][17] 教学安排与服务 - 每周1-1.5小时专题授课,包含多智能体协作、动态知识扩展等14个核心模块 [16][18] - 采用腾讯会议直播+小鹅通回放形式,提供6个月答疑周期和学术诚信监督 [18] - 课程产出包括顶会论文模板应用、动机凝练方法和选刊投稿策略 [18]
图像目标导航的核心究竟是什么?
具身智能之心· 2025-07-04 20:07
研究背景与核心问题 - 图像目标导航需要两种关键能力:核心导航技能(如检测自由空间、障碍物)和通过比较视觉观察与目标图像计算方向信息 [2] - 当前主流方法依赖专门的图像匹配或预训练计算机视觉模块进行相对位姿估计 [2] - 研究聚焦于是否可以通过强化学习对完整智能体进行端到端训练来解决该任务 [2] 核心研究内容与方法 - 探讨了多种架构设计对任务性能的影响,核心在于如何支持图像间的隐式对应计算 [3] - 主要架构包括Late Fusion、ChannelCat、SpaceToDepth + ChannelCat、Cross-attention [4] - 实验设计使用Habitat模拟器和Gibson数据集,动作空间包括前进、左右转向和停止 [7] - 评估指标包括成功率(SR)和SPL(成功路径长度与最优路径长度的比值) [7] 主要发现 - 早期patch级融合(如ChannelCat、Cross-attention)比晚期融合(Late Fusion)更关键,能更好支持隐式对应计算 [8] - ChannelCat(ResNet9)在Sliding=True时SR达83.6%,远高于Late Fusion的13.8% [6] - Cross-attention(DEBiT-b)在Sliding=True时SR达90.5% [6] - 低容量架构(如ResNet9)在Sliding=False时SR从83.6%降至31.7%,而DEBiT受影响较小(从90.5%降至81.7%) [8][9] - 能力迁移性:将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后,SR从31.7%提升至38.5% [10][11] 导航与相对位姿估计的关联 - 导航性能与相对位姿估计性能存在相关性,DEBiT在两者上均表现最优 [12] - 导航成功率(SR)与相对位姿估计精度(误差<2m, 20°)呈正相关 [12] 结论 - 支持早期局部融合(如交叉注意力、ChannelCat)的结构对任务成功至关重要 [15] - 模拟器的Sliding设置显著影响性能,但通过迁移感知模块权重可部分迁移至真实环境 [15] - 导航性能与相对位姿估计能力相关,验证了方向信息提取的核心作用 [15] - 简单低容量架构仅通过RL训练难以成功解决图像目标导航,预训练仍不可或缺 [15]
ArtGS:3DGS实现关节目标精准操控,仿真/实物双验证性能SOTA!
具身智能之心· 2025-07-04 17:48
研究背景与出发点 - 关节目标操作是机器人领域的关键挑战,核心难点在于复杂的运动学约束和现有方法有限的物理推理能力 [3] - 传统方法如端到端强化学习或模仿学习需要大量数据但常因缺乏物理知识导致动作违反约束 [3] - 3D视觉方法如GAMMA、RPMArt存在点云稀疏性、无序性和时间一致性不足的问题 [3] - 提出ArtGS框架通过扩展3D高斯溅射整合视觉-物理建模,优化关节骨骼参数保证物理一致性 [3] 核心框架与技术细节 - ArtGS包含三个关键模块:静态高斯重建、VLM基于骨骼推理、动态3D高斯关节建模 [4] 静态3D高斯重建 - 通过3D高斯溅射从多视图RGB-D图像重建高保真3D场景,场景表示为3D高斯球集合 [5] - 利用URDF文件和改进的Denavit-Hartenberg正运动学构建变换矩阵控制高斯点运动 [5] VLM基于骨骼推理 - 借助微调的视觉-语言模型InternVL-2.5-4B初始化关节参数估计 [6] - 通过3DGS新视图合成能力生成目标正视图辅助VLM输出视觉问答结果 [6] - 对旋转关节和移动关节分别采用PCA和边界框叉积方法估计初始关节参数 [8][9] 动态3D高斯关节建模 - 通过阻抗控制实现机械臂与环境的交互,结合微分渲染优化关节参数 [10] - 高斯点的均值和旋转因子通过线性混合蒙皮变换到关节空间 [10] - 通过最小化包含L1损失、结构相似性损失和正则化项的损失函数优化关节参数 [10] 实验验证与结果分析 关节参数估计 - ArtGS在关节轴误差和关节原点误差上显著低于ANCSH、GAMMA、Ditto等方法 [12] - 例如在洗碗机上ArtGS的AE为3.01°、OE为2.17cm,远低于ANCSH的15.32°和9.26cm [13] 关节目标操作 - 模拟环境中ArtGS操作成功率达62.4%-90.3%,显著高于TD3的3.1%-6.6%和Where2Act的8.4%-11.2% [14][15] - 真实世界实验中ArtGS对抽屉操作成功率达10/10,对柜子达9/10 [17] 关键能力验证 - ArtGS能通过3DGS可微分渲染优化参数,即使VLM初始轴估计误差超过20°仍能提升操作成功率 [19] - 具备跨机械臂适应性,能精确重建Franka、xArm7等不同机械臂 [19] 总结与展望 - ArtGS将3D高斯溅射转化为关节目标的视觉-物理模型,提升优化效率并解决遮挡问题 [20] - 未来方向将扩展至更复杂场景,提升对多关节、高动态目标的建模与操作能力 [21]
港大强化学习驱动连续环境具身导航方法:VLN-R1
具身智能之心· 2025-07-04 17:48
研究背景 - 视觉语言导航(VLN)是具身人工智能的核心挑战,要求智能体理解自然语言指令并在三维环境中导航,需要实时决策能力以适应变化的环境 [5] - 现有方法通常依赖离散拓扑图进行路径规划,限制了智能体在未见或连续环境中的泛化能力,且需要额外传感器信息如深度图和导航图 [5] - 部分方法使用大型语言模型(LLM)但仍受限于预定义导航图,无法实现真正的具身导航 [6] VLN-R1框架创新 - 提出VLN-R1框架利用大型视觉语言模型(LVLM)处理第一视角视频流,实现连续环境中的视觉语言导航,相比基于离散导航图的方法更接近真实世界场景 [5] - 构建VLN-Ego数据集基于Habitat模拟器生成,包含第一视角视频流及对应未来动作预测,为LVLM训练提供丰富视觉和语言信息 [5] - 采用两阶段训练方法:先通过监督微调(SFT)使模型动作序列预测与专家演示对齐,再利用强化微调(RFT)进一步优化模型 [5] 数据集构建 - 数据来源于Habitat模拟器中的Matterport3D场景(90个场景分训练/验证/测试集) [6] - 每条样本包含三部分:自然语言导航指令、历史帧(Long-Short Memory采样)+当前帧、未来6步动作序列 [6] - 采用长短期记忆采样策略平衡近期细节与长期上下文,短期部分高密度采样,长期部分低密度采样 [6] 训练方法 - 监督微调将导航任务形式化为序列预测问题,使用交叉熵损失对预测动作编号与描述进行监督训练 [8] - 强化学习微调引入GRPO策略优化通过相对奖励对生成结果排序,提升高质量策略 [9] - 设计TDR机制在奖励函数中优先强化前期正确决策,提升整体导航成功率 [9] 实验结果 - R2R任务中VLN-R1在无深度图、地图等条件下实现SR=30.2(7B模型),显著超过传统模型 [11] - RxR任务中仅使用10K样本RFT即优于完全监督模型,体现强跨域适应能力 [12] - 2B模型经RFT后可达7B模型的SFT性能,说明RFT能有效提升小模型性能 [12] 消融实验 - 预测未来6个动作的设置能取得最佳性能,仅预测单个动作会导致性能显著下降 [14] - 长短期记忆采样策略在帧选择方面表现最佳,能有效平衡当前观察与历史上下文 [16] - RFT阶段8次生成能使模型达到收敛,TDR机制在奖励函数中表现最为有效 [16] 未来方向 - 需验证VLN-R1在现实世界中的泛化能力 [16] - 可探索在更复杂现实环境中评估及扩展动作空间实现更精细导航控制 [16] - 可研究将该方法应用于其他具身AI任务如具身问答(EQA)等 [16]
传统导航和具身目标导航到底有啥区别?
具身智能之心· 2025-07-04 17:48
机器人导航技术演变 - 技术路线从传统建图定位导航向基于大模型方案演变,分为视觉语言导航(VLN)和目标导航两类 [1] - VLN核心是"听懂指令走对路",目标导航核心是"看懂世界自己找路" [1][6] 视觉语言导航(VLN)技术架构 - 任务包含理解语言指令、感知环境、规划运动策略三方面,系统由视觉语言编码器、环境历史表征、动作策略模块构成 [2] - 主流采用预训练视觉语言模型和LLM进行指令拆解,编码器设计需解决多模态表征空间投影问题 [2] - 序列决策通过隐式端到端(隐变量)或显式端到端(拓扑图/BEV语义地图)方法实现环境建模 [2] - 策略学习从标注数据转向LLM知识蒸馏,数据增强是关键 [3] 目标导航技术突破 - 需在陌生环境中仅凭目标描述自主完成探索与路径规划,涉及语义解析、环境建模、动态决策 [4][6] - 需整合计算机视觉、强化学习与3D语义理解技术,实现从被动执行到主动决策的跃迁 [6] 商业应用现状 - 美团无人配送车、Starship Technologies园区机器人实现动态环境配送 [8] - 嘉楠科技、云迹科技、擎朗智能的医疗/酒店机器人完成药品/餐食自主配送 [8] - 人形机器人领域:宇树科技Unitree系列、智元工业机器人、特斯拉Optimus集成目标导航模块 [8][9] - 导航技术岗位需求旺盛,部分公司开出七位数年薪 [9] 技术学习挑战 - 需掌握自然语言处理、计算机视觉、强化学习、图神经网络等多领域知识 [10] - 知识碎片化且论文数量庞大,跨领域学习路径困难 [10] 专业课程内容 - VLN课程覆盖仿真环境、端到端方法、数据增强策略及实战,培养1年从业经验 [13][15][16] - 目标导航课程包含Habitat仿真、LLM/VLM驱动系统、Sim2Real部署等,实现零样本导航能力 [16][17]