Workflow
具身智能之心
icon
搜索文档
智元机器人首席科学家罗剑岚老师专访!具身智能的数采、仿真、场景与工程化
具身智能之心· 2025-07-30 08:02
具身智能数据讨论 - 公司与多家传感器供应商合作,聚焦视觉触觉与高密度传感器联合研发,并构建跨平台数据采集API实现任务语义统一映射[2] - 机器人应用需达到95%成功率才能满足家庭场景需求,当前性能优化是主要门槛[2] - 仿真数据用于高效迭代但存在扩展性瓶颈,多模态大模型训练100%使用真机真实数据[2][3] - 合成数据仅用于工程迭代与模型调试,大模型训练阶段完全依赖真实数据[3][4] - 真实数据成本核心在于缺乏标准化采集机制,公司正尝试远程遥操、自动部署机器人等方式建立自动化数据工厂[6] 自动驾驶与机器人数据对比 - 自动驾驶要求99.99%安全水平,机器人开放环境操作同样需要高成功率,当前面临数据稀缺与工程伦理双重挑战[7] 具身大模型评估 - 行业缺乏通用benchmark,公司计划搭建统一真机测试场推动标准化评估[8][9] - 评估维度聚焦技术路线与性能表现,从Demo炫技转向全栈一体化产业闭环[9] - 世界模型基于统一平台实现视频生成、模型评测与策略训练,复杂场景处理能力突出[10] 技术路线争议 - VLA路线非最终方案,需结合大模型与优化策略提升成功率至远超ChatGPT的50%-60%水平[11] - 中美差异:美国重算法开源,中国强在工程集成与产业化速度[12] 遥操作与自主决策 - 自主决策需突破多模态信息融合、任务泛化与高成功率执行三大门槛[13][14] - 当前"失控"问题源于软件设计缺陷而非意识觉醒,通过安全兜底机制保障运行[14] - 通用能力需从垂直场景积累数据逐步演化,无法直接实现[15] 应用场景落地 - 部署流程分任务建模、场景迁移、适配与安全验证四步,软硬件协同是关键[17][18] - 工业场景因结构化程度高更易落地,需满足100%性能与节拍一致性[20][21] - 工商业将先于家庭实现规模化落地,长期家庭市场潜力更大[21] 技术路线选择 - 关节驱动与感知能力依赖模块化标准,行业需共建可插拔生态[22] - 家庭环境复杂性需通过垂直场景数据积累逐步攻克[22] - 执行速度慢源于过度依赖模仿学习,需引入专门优化训练提升[23] 未来发展方向 - 追求DeepSeek moment:接近100%成功率+高速执行+泛化能力,超越ChatGPT moment[24] - 数据驱动成为科学正名,通过统计显著性验证建立结论[25] - Transformer架构主流但效率待提升,类脑架构或更适合具身智能[26] 软硬件协同生态 - 构建平台化操作系统(机器人Android)统一硬件接口,与软件厂商开放合作[28][29] - 操作系统是基础设施,真正突破依赖算法与模型创新[30]
具身领域LLM结合强化学习与世界模型工作汇总
具身智能之心· 2025-07-29 14:15
具身智能领域最新研究进展 通用现实世界交互模拟器 - UniSim通过整合多维度数据集(图像/机器人/导航数据)构建生成式交互模拟器,支持从高层级指令到低层级控制的视觉结果模拟,训练后的策略可零样本迁移至现实场景[3] - 应用场景涵盖游戏/电影内容生成和具身智能体纯模拟训练,视频描述生成等AI任务也能从中获益[3] 因果世界模型与鲁棒智能体 - Google DeepMind证实因果模型是智能体实现跨领域泛化的必要条件,最优智能体的因果模型将收敛至真实因果模型[5] - 该结论对迁移学习和因果推断领域具有深远影响[5] 元强化学习效率突破 - MAMBA框架结合模型方法和元强化学习技术,在基准测试中实现15倍样本效率提升,且无需超参数调优[8] - 成功验证高维任务场景有效性,推动现实世界泛化智能体发展[8] 多模态具身智能体训练 - EMMA通过文本世界LLM指导视觉世界VLM训练,采用DAgger-DPO算法实现跨模态模仿学习,在ALFWorld任务中成功率提升20%-70%[10] - 突破传统VLM在具身视觉世界中的动态对齐障碍[10] 自动化奖励函数生成 - TEXT2REWARD框架基于LLM自动生成密集奖励代码,在17项机器人操作任务中13项超越专家编写代码,运动任务成功率超94%[14] - 支持人类反馈迭代优化,仿真器训练策略可直接部署至现实[14] 持续学习型交互智能体 - 提出Behavior-IL与环境-IL两种持续学习框架,CAMA机制无需任务边界信息,通过滑动平均实现参数更新[18] - 显著超越基于数据先验的传统持续学习方法[18] 可扩展情境强化学习 - AMAGO通过并行化Transformer训练解决记忆容量和规划视野瓶颈,在元强化学习和长期记忆任务中表现优异[21] - 结合多目标hindsight重标注方案可攻克开放世界难题[21] 大语言模型与世界模型构建 - 创新性采用PDDL构建显式世界模型,GPT-4生成含40余个动作的高质量PDDL模型,成功求解48项复杂规划任务[23] - 通过前置修正机制将人工干预需求降低至初始阶段[23]
ERMV框架:针对操作任务的数据增强,显著提升VLA模型跨场景成功率
具身智能之心· 2025-07-28 21:19
研究背景 - 机器人模仿学习依赖4D多视图序列图像,但高质量数据收集成本高且稀缺,限制了视觉-语言-动作(VLA)模型的泛化与应用 [4] - 现有数据增强方法存在局限:传统方法仅针对单张静态图像编辑,多视图编辑依赖固定相机位置,视频生成模型受限于计算成本和误差累积 [4] 核心挑战与解决方案 - ERMV框架通过单帧编辑和机器人状态条件,高效编辑整个多视图序列,解决动态视图和长时间范围内的几何与外观一致性、低计算成本下扩大工作窗口、确保关键对象语义完整性等挑战 [6] 视觉引导条件 - 采用视觉引导策略解决文本提示歧义问题,通过图像修复或手动编辑生成目标引导图像,经CLIP编码器处理为嵌入向量,确保编辑在所有视图和时间步中一致传播 [7] - 数学表达:$${\mathcal{C}}_{g u i d e}=E_{C L I P}\big(x_{g u i d e}^{\prime}\big)$$ [8] 机器人与相机状态注入 - 注入相机位姿、机器人动作、运动动态条件等状态信息,经MLP和位置编码处理后输入网络,确保准确渲染场景 [9][12] 稀疏时空模块(SST) - 通过稀疏采样将长序列问题重构为单帧多视图问题,在固定计算预算下处理更宽的时间范围,降低计算需求 [10] - 建模联合概率分布学习稀疏帧集特征,保证时空一致性 [13] 极线运动感知注意力(EMA-Attn) - 通过学习运动诱导的像素偏移,适应动态场景,确保几何一致性 [14] - 注意力计算:$$A t t e n t i o n_{E M A}(q_{i},K_{j},V_{j})=\sum_{m=1}^{M}s o f t m a x\bigg(\frac{q_{i}\cdot k_{j,m}}{\sqrt{d_{k}}}\bigg)v_{j,m}$$ [18] 反馈干预机制 - 引入多模态大语言模型(MLLM)作为自动检查器,对比原始图像和生成图像,检查关键对象一致性 [21] - 仅在模型出错时请求专家介入,最小化标注负担 [21] 扩散模型基础 - 基于潜在扩散模型(LDM),在潜在空间中进行扩散过程,编码器将图像映射为潜在表示,模型训练目标是预测添加的噪声 [23] 仿真环境实验 - ERMV在SSIM、PSNR、LPIPS等指标上大幅优于单帧编辑方法Step1XEdit,体现优异的时空一致性 [25][27] - 用ERMV增强数据训练的RDT和Diffusion Policy模型在原始场景和未知杂乱场景中的成功率显著高于基线 [27][28] 真实世界实验 - ERMV能成功编辑真实机器人操作序列,准确保留核心对象的形态和运动 [29] - ERMV增强数据训练的ACT模型在真实世界中的平均成功率从0.52提升至0.91,未知场景从0.02提升至0.89 [30][32] 扩展能力 - 基于单帧初始图像和动作序列,ERMV可预测生成多视图时空图像序列,作为低成本策略验证工具 [35] - 将仿真图像编辑为真实风格,生成"伪真实"4D轨迹,减少对高保真物理仿真的依赖 [37] 消融实验 - 移除运动动态条件和EMA-Attn后,模型无法生成真实运动模糊 [39] - SST模块相比密集采样减少50%GPU内存需求,提升模型性能 [41][43] - 禁用反馈干预机制后,长序列编辑出现质量下降和语义偏移 [43]
近2000人了!这个具身领域的黄埔军校做了哪些事情?
具身智能之心· 2025-07-28 21:19
行业与公司研究分析 具身智能行业现状 - 国内首个具身全栈社区"具身智能之心知识星球"已形成产业、学术、求职、问答交流的完整闭环 [1][7] - 社区成员覆盖斯坦福大学、清华大学等30+国内外顶尖高校实验室及智元机器人、优必选等20+头部企业 [9] - 行业技术路线覆盖40+开源项目、60+数据集,包含强化学习、多模态大模型等25个细分方向 [9][10][34] 核心资源体系 - 学术资源:汇总40+开源项目、60+数据集、主流仿真平台及25个技术学习路线 [9][26][30][32] - 产业资源:建立与多家具身公司的内推机制,汇总30+研报及零部件品牌信息 [2][16][19][24] - 人才资源:提供从入门到进阶的完整学习路径,包括技术栈、项目方案及求职指导 [3][5][14] 社区运营模式 - 内容体系:包含高校/公司数据库、技术文档、直播分享等9大板块,形成结构化知识库 [13][16][21][67] - 专家网络:聚集数十位产业界/学术界专家,定期举办圆桌论坛和答疑活动 [2][69] - 服务闭环:实现"学习-交流-求职"全流程支持,日均处理114+专业咨询 [70] 技术发展重点 - 前沿方向:重点布局多模态大模型(15个子领域)、强化学习(4类方案)、机器人导航(3大应用) [34][43][45][53] - 硬件生态:系统梳理ToF相机、传感器、机械臂等核心零部件供应链 [24][28][41][62] - 仿真平台:整合Isaac Sim等主流工具,支持sim2real等关键技术验证 [32][57][70]
AI Lab发布『书生』具身全栈引擎,推动机器人大脑进入量产时代
具身智能之心· 2025-07-28 21:19
核心观点 - 上海人工智能实验室发布具身全栈引擎Intern-Robotics,通过仿真、数据、训测三大引擎解决行业标准不统一、数据成本高、研发周期长等核心痛点 [3][4][9] - Intern-Robotics实现"一脑多形"适配10余种机器人形态、"虚实贯通"数据成本降至前代0.06%、"训测一体"一键启动模型训练 [6][10] - 同步启动"具身智能光合计划",联合15家企业机构加速技术突破工业红线,已助力合作方性能提升40%以上 [5][20] 技术突破 一脑多形 - 开发一套模型适配机器狗、人形机器人等10多种主流形态,掌握导航、操作等核心技能,避免跨本体重复开发 [9][11] - 采用可扩展数据合成和模型架构,提升跨形态适配能力 [9] 虚实贯通 - 融合真机实采与虚拟合成数据,数据成本较前代降至0.06% [6][10] - 首创Intern·Data系列虚实混合数据金字塔,单台服务器日合成数据5万条,成本较6个月前降低66% [14][15] - 提供17类任务与15种原子技能的500万仿真数据,覆盖2万种场景 [15] 训测一体 - 全任务工具链支持6大任务、20多数据集、50多模型,几分钟完成训测部署 [10][15] - Intern·VLA模型在10项导航任务中国际领先,操作任务真机成功率超业界顶尖15% [19] 三大引擎 仿真引擎 - 基于Intern·Utopia实现1行代码跨本体部署、3行代码定义任务、5分钟上手 [13] - 支持同步/异步多机仿真模式,破解算法与底层控制耦合难题 [13] 数据引擎 - 结合生成式AI与十万级场景资产,构建可交互场景Intern·Scenes [14] - 通过Intern·LandMark神经渲染技术合成高保真物理交互数据 [14] 训测引擎 - 提供Intern·Nav等工具库,兼容不同平台配置与模块化框架 [16] - Intern·VL3多模态基座实现"感知-想象-执行"一体化架构 [18] 光合计划 - 首批15家机构包括智元机器人、宇树科技等,推动技术突破工业红线 [5][20] - 与上海国地中心合作提升异构机器人数据采集速度与任务规划准确率 [5] - 提供全周期支持:技术验证指导、自动化标注工具、稀缺数据共享 [20]
找不到合适的公司与岗位?具身智能之心求职交流群来啦!!!
具身智能之心· 2025-07-28 15:14
具身智能之心求职与行业交流群成立了! 应广大粉丝的要求,我们开始正式运营具身相关的求职社群了。社群内部主要讨论相关具身产业、公司、产品 研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。欢迎加入我们! 微信扫码添加小助理邀请进群,备注昵称+具身求职; ...
从今年的WAIC25看具身智能的发展方向!
具身智能之心· 2025-07-28 15:14
具身智能行业发展现状 - 2023年世界人工智能大会(WAIC)上具身智能成为焦点 参展公司数量多且产品形态多样 其中宇树科技的铁甲拳王机器人展示出敏捷动作和强稳定性 [1] - 移动操作类机器人应用场景丰富 涵盖服务机器人和工业机器人 但在人工干涉情况下(如关门或物品移动)仍存在认知困难 鲁棒性有待提升 [3] - 灵巧手技术取得进展 灵心巧手和傲意科技等公司产品出货情况良好 触觉和力控方案已成为行业标配 [7] - 自主决策技术尚不成熟 现场多数人形机器人仍依赖遥控操作 从指令到自主导航/决策的稳定性不足 医疗领域产品功能仍较简单 替代护工还需时日 [8] 技术发展趋势 - 行业从demo展示转向产业闭环 功能模块逐步融合 形成以大模型为核心的统一技术范式 [8] - 多家公司推进全栈进程 涵盖数据采集、策略制定到系统部署 加速商业化落地 [8] - 视觉-语言-动作(VLA)模型取得突破 SafeVLA成为首个安全架构 BridgeVLA实现32%真机性能提升 [11] - 3D视觉定位技术TSP3D效率显著提升 多传感器融合框架RDP整合视触/力觉模仿学习 [12] - 具身4D世界模型EnerVerse和空间智能方案推动可泛化发展 [12] - 强化学习框架Reason-RFT面向具身推理 双臂机器人扩散大模型规模全球领先 [14] 行业生态建设 - 具身智能之心社区汇聚近200家企业和机构 包括斯坦福、清华等高校和优必选、小米等企业 [21] - 建立40+开源项目库 60+数据集 覆盖感知、交互、强化学习等30+技术路线 [21][22] - 汇总国内外40+高校实验室和机器人公司 涉及教育、医疗、工业等多领域 [25][27] - 整理行业研报、技术书籍、零部件品牌等10大类资源 包括30家头部企业分析 [29][32][34] - 构建仿真平台矩阵 涵盖通用场景和真实场景仿真工具 [42] - 建立岗位内推机制 连接企业招聘需求与人才资源 [13][19] 技术创新方向 - 感知技术:发展3D视觉定位、触觉感知、视觉语言导航等方向 形成完整学习路线 [46][50][52] - 交互技术:整合抓取检测、视觉语言模型、具身问答等模块 [48] - 多模态融合:推进图像/视频/音频/3D数据与文本的相互理解和生成 [54][56] - 模型优化:聚焦大模型微调、量化推理和轻量化部署 [58][65] - 硬件集成:完善双足/四足机器人、移动机械臂等系统设计方案 [70][72] - Sim2Real技术:开发视觉导航与运动控制的真实-仿真统一框架 [14][66]
准备扩大具身团队了,拉一些人搞点事.......
具身智能之心· 2025-07-28 15:14
行业发展趋势 - 具身智能领域发展迅速 多家明星公司准备上市 [1] - 技术孤立和闭塞不利于产业发展 鼓励行业积极交流 [1] - 公司期望汇聚全行业人才 推动行业进步 [1] 项目合作计划 - 在北京 上海 深圳 广州 杭州 武汉建立项目研发团队 [3] - 每个城市招募10名左右具身领域学术与工程人才 [4] - 要求具备2年以上具身算法和机器人研究经验 [4] - 承接各类横向 纵向项目 企业咨询 [3] 教育研发与咨询服务 - 邀请具身领域专家开发在线课程 提供企业咨询和辅导业务 [5] - 涉及方向包括大模型 多模态大模型 Diffusion VLA 强化学习等 [5] - 要求博士及以上学历 工业界需2年以上研发经验 [6] 人才待遇 - 提供大比例分红和全行业资源共享 [7] - 可兼职或全职 [7] 联系方式 - 扫码咨询负责人 备注具身智能之心+老师咨询 [8]
清华大学具身智能多传感器融合感知综述
具身智能之心· 2025-07-27 17:37
具身智能与多传感器融合感知综述 I 核心观点 - 具身AI通过物理实体载体实现动态环境中的自主决策,是突破AGI发展瓶颈的关键路径[6] - 多传感器融合感知(MSFP)通过整合相机/LiDAR/毫米波雷达等异构数据,解决单一传感器在复杂环境中的局限性[7][12] - 现有研究存在数据异构性、时空异步性、传感器故障等核心挑战,需开发新型融合方法与跨模态对齐技术[12][69] II 传感器与数据集 - **相机数据**:提供丰富颜色/纹理特征但受光照条件影响显著,恶劣天气下性能下降50%以上[13] - **LiDAR数据**:输出高精度3D点云但存在稀疏性问题,雨雾天气中有效探测距离缩短30-40%[13] - **毫米波雷达**:在恶劣天气保持稳定性能,可直接测速但点云稀疏度比LiDAR高5-8倍[13] - **主流数据集**: - nuScenes包含140万张图像+39万次LiDAR扫描,覆盖23个物体类别[16] - Waymo Open包含126万3D边界框,涵盖昼夜/雨天等多场景[17] - KITTI提供14,999帧数据,标注精度达厘米级[14][15] III 融合方法分类 - **点级融合**:通过投影实现像素-点云对齐,PointPainting方法将分割掩码特征标注到LiDAR点[25] - **体素级融合**:AutoAlign框架实现动态特征对齐,无需依赖精确投影矩阵[24] - **区域级融合**:AVOD网络处理BEV和RGB图像,生成高分辨率特征图[30] - **多级融合**:TransFusion利用Transformer建立跨模态软关联,提升鲁棒性32%[32] IV 多智能体协作 - **协作优势**:CoBEVT框架通过轴向注意力模块,使多车系统感知范围扩大2.5倍[38] - **通信优化**:When2Com方法减少带宽使用40%,同时保持95%以上的分割准确率[47] - **深度补全**:CoCa3D通过共享深度信息,将远距离目标检测准确率提升28%[39] V 时间序列融合 - **密集查询**:BEVFormer v2通过两阶段检测架构,无需深度预训练数据[55] - **稀疏查询**:Sparse4D系列采用递归方法,计算效率提升60%[56] - **混合查询**:UniAD框架集成感知/预测/规划,轨迹预测误差降低22%[59] VI 多模态大模型 - **视觉-语言**:Sce2DriveX框架通过LLM实现驾驶决策准确率提升35%[66] - **3D空间理解**:LiDAR-LLM将点云转换为语言建模任务,问答准确率达89%[67] - **知识增强**:SafeAuto通过多模态基础模型,事故率降低42%[66] VII 未来方向 - **数据生成**:采用AIGC技术合成罕见场景数据,填补真实数据集空白[74] - **模型架构**:开发几何学习与MM-LLM结合的混合架构,处理不规则传感器数据[76] - **自适应算法**:零样本学习方法使模型泛化能力提升50%[76]
通用全身机器人操控更进一步!学习现实世界全身操控任务的统一框架
具身智能之心· 2025-07-27 17:37
核心观点 - 打造通用智能机器人需模仿人类进化轨迹,通过与环境持续互动学习并由模仿人类行为推动,面临机器人硬件设计、遥操作界面开发和学习算法创建三大挑战 [4] - 提出的星尘机器人套件(Astribot Suite)整合了高性能机器人平台、直观遥操作界面和全身视觉-运动策略算法,在需全身协调的任务中展现有效性 [4][7] - 该套件通过硬件系统、数据收集方法和学习算法的紧密整合,为现实世界通用全身机器人操控奠定基础 [4][7][28] 硬件系统 - 星尘机器人S1配备双7自由度手臂、4自由度躯干、2自由度头部和3自由度全向移动基座,垂直触及范围2米,水平触及1.94米,关键性能指标超过普通成年男性 [10][12] - 单臂载荷5公斤,夹具开合最快0.15秒,末端执行器最大速度≥10m/s,最大加速度100m/s²,定位重复精度±0.1mm [10][12] - 配备多模态传感器:头部立体RGB相机、手腕RGB-D相机(30Hz)、胸部RGB-D相机和底盘360度激光雷达,实现全场景感知 [12] - 移动基座最大线速度2米/秒,支持前后运动、横向平移和原地旋转 [13] 遥操作界面 - 采用Meta Quest 3S头显和操纵杆(总成本<300美元),支持第一人称(精细操控)和第三人称(大范围运动)双模式切换 [14][16] - 控制频率100Hz,端到端延迟20毫秒,图像传输延迟约100毫秒,示范轨迹重放成功率近100% [14][16] - 通过倾翻保护机制和基于模型的主动柔顺控制实现安全防护,接触冲击力缓解效果显著 [16] 学习算法 - DuoCore-WB算法在末端执行器空间对动作去噪,采用自我中心框架的delta姿态表示,仅用RGB观测训练,与VLA预训练管道兼容 [19][21] - 实时轨迹生成模块(RTG)通过二次规划优化解决动作块间不连续性问题,执行频率250Hz,将关节速度限制在安全范围内 [21][27] - 在六个代表性任务中平均成功率80%,末端执行器空间表示比关节空间精度更高,自我中心框架增量动作表示泛化能力更强 [26] 实验验证 - 遥操作界面下专家完成简单任务耗时比人类多28.27%,复杂全身任务多41.43%,非专家分别多60.93%和94.80% [25] - "递送饮料"、"扔玩具"等任务端到端成功率最高达100%,"按下垃圾桶盖"子任务因视觉对比度低成功率最低 [23][26] - RTG模块使速度峰值降低67%,轨迹漂移减少83%,显著提升执行稳定性和策略鲁棒性 [27] 未来方向 - 硬件增强:提升敏捷性和安全性,扩展传感器融合能力 [28] - 人机交互:开发更直观的智能交互方法 [28] - 模型优化:改进架构设计,实现大规模预训练策略的高效部署 [28]