具身智能之心
搜索文档
开箱子,叠毛巾!从零把pi0部署到你的机械臂上吧!
具身智能之心· 2025-11-14 12:00
产品定位与核心价值 - 公司推出一款名为Imeta-Y1的轻量级高性价比机械臂,专为具身智能科研领域的新手和初学者设计 [2][3] - 该产品旨在帮助用户低成本、高效率地完成算法验证与项目开发,目标客户包括学生、教育工作者和机器人领域开发者 [3] - 产品定位为解决具身智能领域硬件选择难题,平衡价格与易用性 [3] 核心产品优势 - 提供全流程开源工具链和代码示例,覆盖从数据采集到模型部署的全部环节,对新手友好 [4][17] - 支持Python和C++双语言接口,兼容ROS1和ROS2,并提供URDF模型,实现仿真与真机的无缝切换 [4][18][19] - 提供24小时快速售后响应,确保用户学习过程顺畅 [4] - 产品融合高精度运动控制、低功耗设计与开放软硬件架构,支持从仿真到真机的无缝联调 [6] - 紧凑型结构与模块化接口适用于嵌入式AI与机器人学习平台的开发 [7] - 后期将陆续升级更新VLA、VA相关源码,新老客户均可享受升级 [19] 机械臂核心性能参数 - 本体重量为4.2公斤,额定负载为3公斤,具备6个自由度 [9][19] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [9][19] - 供电电压为24V,控制器为PC,材质采用铝合金 [9][19] - 通讯方式为CAN,控制方式支持轨迹跟踪、示教和API [9][19] - 关节运动最大速度范围为180°/s至220°/s [9][19] 技术生态与工具链支持 - 提供完整的开源软件开发工具包,包含驱动程序、API接口、示例代码与文档 [26] - 支持视觉、力控等多模态数据融合,兼容TensorFlow、PyTorch等主流框架,实现端到端的智能算法落地 [17][32] - 目前已开源适配的算法包括lerobot和ACT,未来将逐步适配并开源robotwin、pi0等模型 [46] - 产品适配的相机包括realsensor D435系列和奥比中光DCW2 [46] 硬件测试与质量保证 - 机械臂通过严格的硬件测试流程,包括精度校准、耐久性、负载性能与稳定性验证 [35] - 非人为损坏情况下提供半年质保,交付周期为1-2周 [44][45]
具身智能年度盛会!完整议程公开,VLA、世界模型与RL三大研讨会同期开讲
具身智能之心· 2025-11-14 09:02
大会基本信息 - 2025中国具身智能机器人大会(EAIRCon 2025)将于11月19日在深圳湾万丽酒店举办,由智一科技旗下智猩猩联合智东西、机器人前瞻主办 [2] - 大会主题为“具身启智 机器觉醒”,为期一天,由主论坛、专题论坛、研讨会和展览区组成 [2] - 大会将邀请近40位嘉宾进行致辞、报告、演讲和对话,全方位解构具身智能机器人革命 [2] 主论坛议程与核心议题 - 主论坛开场由智一科技联合创始人兼CEO龚伦常致辞,浙江大学熊蓉教授带来《具身智能作业人形机器人发展挑战与进展》的开场报告 [6] - 星尘智能副总裁王佳楠将探讨“类人操作”技术体系,分享其“绳驱本体 × 高质数采 × 智能学习”三位一体技术如何在技术和商业上持续突破 [7] - 国地共建人形机器人创新中心首席科学家江磊将解读人形机器人产业“标准+开源”双轮驱动新阶段,该中心已发布全球首个全尺寸开源公版机“青龙”与开源社区OpenLoong [8] - 北京通用人工智能研究院黄思远博士将分享其团队提出的力位混合控制算法UniFP,该算法让机器人在无需力传感器条件下同时学习位置与力的控制,成功率比仅使用位置控制的策略提高约39.5% [8] - 灵心巧手联合创始人苏洋将从灵巧手维度分享《通往灵巧技能之路》,蓝驰创投合伙人曹巍将从早期投资人视角分析具身智能投资机会 [9] - 主论坛压轴环节为高端对话,由智一科技联合创始人张国仁主持,与5位嘉宾共同探讨《具身智能机器人的"DeepSeek时刻"还有多远》 [9] 具身智能人形机器人专题论坛 - 专题论坛由清华大学莫一林教授开场,探讨突破机器人通用、高效与自主“不可能三角”的路径及融合神经网络、模型预测控制与全身控制的方法 [16] - 优必选研究院石海林博士将分享如何通过交互式强化学习唤醒VLA潜能,推动人形机器人从“感知理解”迈向“主动执行” [17] - 深圳赛博格机器人张怀东副教授将解读智能具身模型的可持续化部署挑战,云天励飞副总裁罗忆将分享具身智能与AI推理芯片的协同创新实践 [18] - 宽恒科技副总裁龙孝晗将分析传统具身智能向VLA范式跃迁的基础设施需求,极狐驭码张扬将探讨AI+DevOps如何提速Code2Real全流程的工程化 [19] - 诠视科技CEO林瓊将阐述如何通过XR+AI加速具身智能场景落地,诺亦腾机器人合伙人唐新民将分享构建具身智能训练底座的“数据金字塔”分层体系 [20][21] - 专题论坛以圆桌讨论收尾,由智一科技联合创始人何峰主持,5位嘉宾将探讨产业化的机遇与破局 [21] 三场技术研讨会 - 机器人模仿学习与强化学习研讨会汇聚6位专家,包括上海交大汶川、北京人形机器人创新中心刘宁、地瓜机器人隋伟等,聚焦机器人操作、全身运动控制与复杂动作模仿 [25] - 具身世界模型技术研讨会汇聚5位专家,包括清华大学赵昊、极佳科技朱政、北京通用人工智能研究院贾宝雄等,探讨从语言智能走向物理智能的世界模型前沿 [25] - 具身VLA大模型技术研讨会汇聚7位专家,包括上海交大穆尧、上海AI实验室曾嘉、美的文俊杰等,细解人-数字人-机器人三元一体智能、理解-想象-执行一体化模型等最热技术范式 [26] 参会与票务信息 - 大会设置四类电子门票:论坛观众票、论坛VIP票、闭门专享票和贵宾通票 [37] - 论坛观众票和VIP票可参加主论坛和专题论坛,闭门专享票和贵宾通票还可参加三场研讨会 [39]
港科大等团队提出WMPO:基于世界模型的VLA策略优化框架
具身智能之心· 2025-11-14 09:02
文章核心观点 - 香港科技大学与字节跳动Seed团队联合提出WMPO框架,通过像素级视频生成世界模型实现VLA模型的无真实环境交互on-policy强化学习 [1] - WMPO框架显著提升机器人操作的样本效率、任务性能、泛化能力与终身学习能力,并涌现出自修正等高级行为 [1] 研究背景与核心痛点 - VLA模型是通用机器人操作的关键范式,但主流模仿学习范式面对训练中未见过的分布外状态时易出错,且无法从失败中学习和自修正 [6] - 强化学习直接应用于真实机器人时样本效率极低,需数百万次交互,既不切实际也存在安全风险 [6] - 现有解决方案难以兼顾规模化与有效性:人类干预引导学习需持续监督,难以扩展;仿真器适配多样场景成本高;传统潜在空间世界模型与VLA的web-scale预训练视觉特征存在天然错位 [4] 核心框架设计 - WMPO核心逻辑是将VLA策略优化完全置于“想象”空间,基于高保真像素级世界模型生成轨迹替代真实环境交互,支持更强的on-policy强化学习 [5] - 整体流程遵循“想象轨迹生成→轨迹采样评估→策略更新”的迭代循环 [5] - 生成式世界模型核心作用是仿真机器人与环境的动态变化,生成与VLA预训练特征对齐的视觉轨迹 [8] - 轻量级奖励模型核心作用是自动判断想象轨迹的任务成败,提供稀疏奖励信号,避免复杂奖励塑造 [9] - 选择Group Relative Policy Optimization作为优化算法,适配稀疏奖励场景,兼顾稳定性与扩展性,采用无KL正则化设计以减少内存消耗并鼓励策略探索 [10] 核心技术创新 - 采用像素空间优先设计,摒弃传统潜在空间世界模型,直接在像素空间生成轨迹以完美匹配VLA的预训练视觉特征 [11] - 基于OpenSora的视频扩散骨干网络,将3D VAE替换为SDXL的2D VAE以更好保留细粒度运动细节,扩散过程在VAE潜在空间进行,优化时解码回像素空间 [12] - 通过策略自身收集的真实轨迹微调世界模型,解决专家演示与策略实际行为的分布错位问题 [12][18] - 引入噪声帧条件和帧级动作控制技术,实现数百帧无质量损失的轨迹生成,突破长horizon视频生成的瓶颈 [12][18] - 实现无真实交互的on-policy强化学习,依托世界模型进行大规模轨迹采样,规避真实环境的高成本 [18] 实验验证与性能结果 - 在仿真环境Mimicgen平台的4个精细操作任务中,WMPO表现均优于GRPO、DPO等基线方法 [13] - 当交互预算为128时,WMPO平均成功率达47.1%,超出最强基线9.8个百分点;预算提升至1280时,平均成功率达57.6%,优势扩大至15.2个百分点,样本效率突出 [14] - 在真实环境Cobot Mobile ALOHA平台的“方块插入杆子”任务中,WMPO成功率70%,显著高于基础策略的53%和DPO的60% [15] - 在空间扰动、背景替换、纹理替换三种分布外场景中,WMPO平均成功率29.6%,优于所有基线,证明其学习的是通用操作技能而非虚假视觉线索 [19][20] - 成功轨迹长度显著短于基线,动作更流畅,避免“卡壳”现象 [22] - 在终身学习测试中,迭代收集128条轨迹进行优化,性能持续稳定提升,而DPO训练不稳定且无法实现迭代改进 [23] 涌现行为与框架意义 - 框架涌现出自修正能力,面对碰撞等失败状态能自主调整动作,而基线策略会持续错误动作直至超时 [17] - WMPO构建了“世界模型+on-policy强化学习”的VLA优化新范式,解决了真实环境交互成本高、样本效率低的行业痛点 [25] - 该框架为通用机器人操作的规模化落地提供了可行路径,未来可扩展至流基策略以适配更多动作空间类型 [25]
头部的具身公司,正在投资其它公司了......
具身智能之心· 2025-11-14 09:02
文章核心观点 - 具身智能产业上下游密集 多家公司通过投资收购进行产业链布局以掌握核心技术并取得竞争优势 [2] 公司投资布局 - 智元机器人对外投资近30家公司 覆盖上游关键技术至下游市场的全产业链布局 [3] - 智元机器人通过投资将关键技术和供应链掌握在自己手中以提升安全性 [4] - 银河投资新公司揽月动力 该公司从事工业物流机器人业务 [5] - 星海图投资简智新创(北京)机器人科技有限公司 提供数据加部署落地一站式服务 [6] - 逐际动力投资上海舞肌科技 负责生产研发高性能电机及灵巧手 [7] - 松延动力投资硅基智慧(北京)机器人有限公司 主要从事陪伴及养老机器人研发 [8]
李飞飞3D世界模型公测,网友已经玩疯了
具身智能之心· 2025-11-14 09:02
Marble模型核心特点 - 李飞飞创立的World Lab推出全新3D世界生成模型Marble 开启公测 人人可玩[1][3] - 模型支持通过文本 照片 短视频轻松生成可编辑 可下载的专属3D世界 无需专业团队建模[5] - 生成的世界可长久保存 直接下载 支持多种输入方式包括文本 图像 视频 粗略3D布局等[35] 多模态生成与编辑能力 - 支持通过简短文本提示 单图提示生成3D世界 还能通过多张图片 不同视角图片拼接成统一世界[17] - 内置AI原生世界编辑工具 可进行局部编辑如移除物体 修饰区域 也可彻底改变视觉风格或重构大片区域[21] - 针对专业用户推出原生AI工具Chisel 可直接在3D中塑造Marble世界[23] 导出与兼容性 - 提供两种导出方式:导出为高斯散点(最高保真度呈现)和三角形网格(与行业标准工具兼容)[29] - 3D世界可渲染成视频 导出后视频可进行增强 添加细节 去除瑕疵并融入动态元素[31] - 组合模式能将任意数量世界组合起来 构建更广阔空间[27] 技术发展方向 - 未来重点发力交互性 从静态创造转向动态交互 实现与3D世界内元素的实时互动[36][37] - 模型发展方向与李飞飞提出的空间智能三大核心能力一致:生成 多模态 交互[37][40] - 作为World Lab首款商业世界模型产品 Marble代表了世界模型赛道的加速发展[3][34]
首款移动操作机器人!宇树正式发布G1-D
具身智能之心· 2025-11-13 21:04
产品发布与定位 - 公司于11月13日在官网正式上线首款轮式人形机器人G1-D [2] - 该产品融合轮式移动的高效性与人形机器的灵活性 [2] - 此次发布标志着公司从技术展示向场景化落地迈出关键一步 [2] 配套解决方案 - 公司同步推出一套完整的数采训练全栈解决方案 [2] 产品规格与配置 - 机器人配备高清双目相机和手部配套高清相机 [4] - 末端执行器可更换 包括单自由度夹爪、三指或五指灵巧手 [4] - 机器人身高可调节 范围约为1260毫米至1680毫米 [4] - 可选配移动底盘 移动速度最高不超过每秒1.5米 [4]
头部的具身公司,正在投资其它公司了......
具身智能之心· 2025-11-13 13:46
行业投资动态 - 具身智能产业集硬件、软件、数据和系统为一体,上下游密集,公司一边发展核心业务一边通过收购和投资创业公司以掌握核心技术取得未来竞争优势[2] 智元机器人投资布局 - 智元机器人对外投资近30多家公司,覆盖上游关键技术到产品供应链以及下游市场,积极布局全产业链[2] - 掌握关键技术和供应链在公司手中被视为更加安全的策略[3] 银河通用投资动态 - 银河通用在6月份投资新公司揽月动力,该公司从事工业物流机器人业务[4] - 星海图参与投资简智新创(北京)机器人科技有限公司,提供数据加部署落地一站式服务[5] 逐际动力投资方向 - 逐际动力主要投资上海舞肌科技,负责生产研发高性能电机和灵巧手[6] 松延动力投资领域 - 松延动力参与投资硅基智慧(北京)机器人有限公司,主要从事陪伴和养老机器人研发[7]
谁在带队小鹏机器人:IRON背后的四位关键人物
具身智能之心· 2025-11-13 10:05
文章核心观点 - 小鹏汽车将其人形机器人项目“IRON”确立为继智能汽车、飞行汽车之后的第三条增长曲线,展现出公司在该领域的坚定战略投入 [99] - 小鹏机器人业务由一支背景显赫的核心团队领导,技术路线强调仿生设计与生成式AI,并获得了公司雄厚的资金支持 [4][9][46] - 公司的发展路径与特斯拉高度相似,从纯视觉自动驾驶到全力押注人形机器人,被视为“中国版特斯拉” [101][105][110] 核心团队构成 - 米良川作为机器人业务一号位,现任小鹏汽车机器人副总裁、AI技术委员会负责人,全面统筹技术路线与产品落地 [6][7][19] - 陈杰于2025年7月加盟,负责强化学习,是业内公认的具身智能大牛,此前曾任字节跳动Seed团队强化学习负责人 [44][48] - 葛艺潇担任新成立的智能拟态部主任及首席研究员,谷歌学术引用次数已超过1万次,学术影响力显著 [51][55][56] - 小鹏汽车自动驾驶负责人刘先明率团队支援机器人研发,其团队正致力于开发第二代视觉语言模型以提升推理效率 [60][62][64] IRON机器人技术亮点 - 机器人采用独特的“脊柱”仿生设计,灵感来源于人类的脊柱、肌肉群乃至皮肤,而非简单的腰部设计 [9][10] - 前脚掌增加了自由度,并结合自研的生成式控制器,其拟人化行走能力在数据和算力积累到一定程度后实现了“阶跃”式突破 [12][14] - 团队正尝试革新视觉语言模型,去除语言中间层以实现视觉与语义的直接对齐,目标是使自监督训练成为可能并易于扩展 [62][64] 小鹏机器人业务发展历程 - 业务起点可追溯至2020年秋季对机器狗初创公司“多够机器人”的收购,并由此共同创立“鹏行智能” [72][78] - 业务发展曾经历波折,因内部对技术路线的分歧,团队规模一度从300人锐减至70余人 [85][95] - 在米良川接手后,团队恢复秩序并重启扩招,目前研发团队已回升至200余人 [96][97][98] 公司战略与行业定位 - 小鹏汽车目前账上现金储备接近500亿元人民币,为机器人等新业务研发提供了充足的资金保障 [46] - 公司被市场广泛视为“中国版特斯拉”,两者在发展路径上高度相似,均布局智能汽车并全力押注人形机器人 [101][109] - 截至11月7日,小鹏汽车美股市值约为213亿美元,而特斯拉市值高达14300亿美元,是前者的67倍 [111][112]
如果Policy模型也能动态思考推理,是否能让机器人在真实世界中表现得更好?
具身智能之心· 2025-11-13 10:05
文章核心观点 - 提出一种名为EBT-Policy的新型机器人策略架构,该架构基于能量模型,能够动态思考与推理并理解不确定性[2] - EBT-Policy在模拟与真实机器人任务中均表现出色,显著提升了训练和推理效率,并展现出独特的零样本重试能力[4] - 该方法通过能量最小化进行推理,不依赖去噪生成过程,使模型更稳定且更具推理能力[9] 技术原理与架构 - EBT模型通过学习能量值来衡量输入变量间的匹配程度,能量高代表不确定,能量低代表更有信心[5] - 核心思想是学习关于观测数据、机器人动作和上下文的能量地形,在推理阶段通过能量最小化搜索低能量的未来动作轨迹[8] - 模型通过多次前向传播最小化能量直至收敛,能根据问题难度自动调整计算资源[8] 性能优势 - 训练阶段收敛速度提升约66%,推理阶段仅需2次迭代即可完成动作生成,计算量减少约50倍[18] - 具备训练与推理一致性、不确定性建模和失败恢复能力,而Diffusion Policy在这些方面存在不足[13] - 展现出更少灾难性失败、更少训练过拟合、更平滑推理过程、更强可解释性以及更优分布外泛化能力[24] 实际应用表现 - 在真实世界任务中表现优异,Fold Towel任务成功率从10%提升至86%,Collect Pan从65%提升至75%[17] - 在Benchmark任务中如Lift和Can达到100%成功率,Square任务达到98%成功率[17] - 可直接利用行为克隆数据进行部署,几乎无需额外微调即可稳定执行任务[16] 技术对比 - 与Diffusion Policy相比,推理方式从去噪生成变为能量最小化,推理步数从约100步减少到仅需2步[11] - 性能提升源于统一的训练与推理机制以及平衡动力学,使模型能自我纠正并重新稳定[23]
传统导航与视觉语言/目标导航有什么区别?
具身智能之心· 2025-11-13 10:05
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生三维环境中仅凭目标描述即可自主完成环境探索与路径规划[2] - 与传统视觉语言导航依赖显式指令不同,目标驱动导航实现了从“听懂指令走对路”到“看懂世界自己找路”的跃迁,背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破[2] 产业化落地应用 - 在终端配送场景,该技术与社交导航算法结合,使机器人能应对动态环境和人际交互,例如美团无人配送车通过动态路径重规划在复杂城市环境中执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署[4] - 在医疗、酒店及餐饮场景,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列,已实现药品、文件和餐食的自主配送,有效提升服务响应效率[4] - 随着人形机器人发展,导航技术的适配性升级成为新焦点,宇树科技Unitree系列通过Habitat预训练完成基础导航任务,智元机器人在工业场景集成目标导航模块,特斯拉Optimus展示了“取放电池”等端到端操作能力,这些实践表明搭载目标导航系统的人形机器人正加速向家庭服务、护理及工业物流领域渗透[4] 技术演进与评测体系 - 基于Habitat仿真的具身导航生态完整记录了领域技术迭代轨迹,评测体系从2020年CVPR提出的点导航基准逐步扩展至图像导航、目标导航及移动抓取任务,形成覆盖空间认知到任务执行的闭环[5] - 技术进展呈现明显梯度,点导航和闭集物体导航接近人类表现,但开放词汇物体导航和动态障碍物场景仍面临重大挑战,Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供了方法论参考[5] 三代技术路线迭代 - 第一代端到端方法基于强化学习与模仿学习框架,聚焦于设计网络结构对齐目标描述与实时观测、优化奖励函数设计加速模型收敛,该范式在点导航与闭集图片导航任务中取得突破,部分方法的SPL指标已逼近人类表现[6] - 第二代模块化方法通过显式构建语义地图将任务分解为自主探索与目标定位两个子任务,利用预训练视觉语言模型实现跨模态语义对齐,在零样本目标导航任务中展现显著优势,尤其在未见物体场景下成功率提升明显[8] - 第三代LLM/VLM融合方法引入大语言模型的知识推理能力,在探索阶段生成语义指导的探索策略,并通过视觉语言模型提升开放词汇目标匹配精度,当前研究重点在于设计场景表征接口,将3D环境特征转化为LLM可解析的上下文格式[10] 课程核心内容框架 - 课程第一章系统构建目标驱动导航的理论基础与技术谱系,重点阐释任务定义及评测基准体系,深入剖析三代技术演进路径,通过对比分析零样本推理机制、开放词汇识别等关键技术建立完整的领域认知框架[15][16] - 课程涵盖Habitat三维仿真平台技术架构解析、基于强化学习与模仿学习的端到端导航范式、模块化导航架构的语义地图构建与任务分解策略,以及大模型在导航任务中的集成范式等核心内容[17][19][21] - 课程大作业聚焦VLFM算法复现与真实场景部署,学员需实践占据地图构建、边缘探索点生成与排序、值地图生成与导航策略构建,并在复现论文效果基础上进行算法改进及实机部署探索[23][27]