Workflow
具身智能之心
icon
搜索文档
为什么 VLA 能叠毛巾,却测不准物体位姿?解读具身 “空间感知” 补全
具身智能之心· 2025-09-23 08:03
技术方案核心观点 - 提出了一种名为OnePoseViaGen的颠覆性解决方案,旨在解决具身智能在6D物体位姿估计上的关键瓶颈,该方法无需预设3D模型,仅凭一张参考图即可完成对未知物体的6D位姿估计 [2] - 该方案通过“单视图3D生成 + 粗精对齐 + 文本引导域随机化”的组合拳,构建了“生成模型-真实物体-空间姿态”的闭环关联,为机器人与物理世界的精准交互提供了关键的空间感知能力 [2] - OnePoseViaGen是首个将单图3D生成与位姿估计融合的技术流程,证明生成式建模可直接提升位姿估计性能,无需依赖3D模型或多视图 [31] 技术框架与实现路径 - 方案遵循“先解决3D模型缺失问题,再校准真实尺度与位姿,最后缩小域差距提升鲁棒性”的递进逻辑,逐步突破单样本6D位姿估计的三大核心挑战 [5] - 基于法向量引导从单张RGB-D锚点图像生成3D纹理网格,无需多视图或预训练3D模型即可快速生成高保真的3D表示 [8][9] - 设计了“粗到精”的两步尺度-位姿联合对齐策略,通过多视图渲染、特征匹配、PnP算法和迭代优化,将归一化模型与真实世界进行精准对齐 [10][12][13] - 采用文本引导的生成式域随机化策略,通过生成纹理多样的3D变体和合成数据渲染来微调位姿估计器,显著提升模型在面对遮挡、光照变化等真实场景时的鲁棒性 [14] 性能表现与基准测试 - 在YCBInEOAT数据集上,OnePoseViaGen的平均ADD指标达到81.27%,平均ADD-S指标达到93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)和Any6D(ADD 45.6%)等主流方法 [16][17] - 在高挑战性物体上表现突出,例如在“sugar box1”任务中ADD达到75.63%(Any6D为14.3%),在“tomato soup can yalehand0”任务中ADD达到77.72%(Any6D为0.0%完全失效) [17][19] - 在TOYL数据集上,AR指标达到55.7%,比次优方法Any6D(43.3%)高出12.4个百分点,距离类指标MSSD(67.0%)和MSPD(65.1%)也显著领先 [18] - 在高遮挡无纹理的LM-O数据集上,整体AR达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%),证明了其强大的抗遮挡能力 [20] 真实世界应用验证 - 在真实机器人操作实验中,OnePoseViaGen支撑机械臂完成灵巧抓取的整体成功率高达73.3%,远超基线方法SRT3D(6.7%)和DeepAC(16.7%) [24][25] - 实验设计包括单臂抓取-放置和双臂交接两类任务,成功标准严格,涵盖了抓取稳定、运输无碰撞、放置后稳定等多个环节 [23] - 即使在抓取过程中出现手部遮挡,该方法仍能通过3D模型的几何约束精准估计位姿,避免因遮挡导致的抓取失败,展示了其在实际应用中的实用性 [27] 核心模块有效性验证 - 消融实验证实,“粗到精对齐”和“生成式域随机化微调”是提升方法性能与鲁棒性的关键模块 [28] - 在TYOL数据集上,完整模型的AR为55.7%,而移除精对齐模块后AR降至32.9%,移除整个对齐模块后AR降至0.0%,凸显了尺度-位姿联合优化的必要性 [30] - 生成式域随机化微调对提升模型在真实世界的适应性起到了决定性作用 [28][30]
具身智能绕不开的“四数”为什么这么难:数采、数据飞轮、数据工厂、仿真合成数据
具身智能之心· 2025-09-23 08:03
具身智能的哲学与理论基础 - 具身智能的思想可追溯至中国古代"知行合一"理念,强调认识活动离不开身体与物理世界的交互[4] - 1943年沃伦·麦卡洛克提出人类心智形成根植于个体与外部环境的持续物理交互,为具身认知理论发展提供重要启发[5] - 1963年理查德·赫尔德通过"被动运动猫"实验证明感知依赖于主体在行动中的主动探索与反馈机制,对行为模式建立具有决定性意义[5] - 具身智能强调完整的闭环系统,包含感知与决策、动作执行、环境反馈以及身体在时间维度上的适应与成长[7] 沉浸式感知环境构建 - 构建沉浸式感知需要物理属性、触觉、听觉以及物体相互作用产生的反应行为[9] - 第一代数字孪生环境使用视觉点云和AI语义理解,通过强化学习训练各种策略[10] - 第二代数字孪生环境将物理学的各种感知过程融入,包括物体的重量、转动惯量、泊松比等物理属性[10] - 引入触觉、听觉和操作物体的物理属性后,从虚拟环境迁移到物理世界的策略误差上限变小,鲁棒性和泛化能力远超视觉点云环境[11] 机器人训练场建设现状 - 国内已涌现多个高水平机器人训练平台,包括上海浦东智源研究院训练场、张江人工智能岛实验平台等[12] - 训练场建设面临基础设施布局碎片化、重复建设现象以及不同平台间标准不一等挑战[12] - 理想的机器人训练场应具备虚实一体功能,打通仿真环境与真实世界的边界,支持从模拟到现实的平滑迁移[14] - 训练场的关键技术挑战在于沉浸感与物理真实性,要求仿真系统准确建模重力、摩擦力、弹性、惯性等力学特性[14] 数据采集与多模态感知 - 具身智能发展高度依赖高质量、多样化的行为数据,主要采集视觉数据、行为交互数据和语义理解数据[15] - 视觉信息不仅可用于重建空间结构,还可通过学习模型间接推断力、材质、滑动趋势等非视觉属性,实现跨模态映射[17] - 触觉感知包含分布式压力、剪切力、重量感知、温度变化等多种信号,对于精细操作至关重要[17] - 遥操作仍是主流的数据采集方式,包括主从式遥操作、运动捕捉辅助采集等四类方法[20] 具身智能与大模型融合 - 具身智能与大模型的深度融合成为推动机器人技术实现产业落地的核心方向[26] - 大模型的核心价值在于其强大的场景泛化与策略泛化能力,可通过学习已有经验推演至未见过的相似场景[28] - 云-边-端协同架构形成新型工业范式,由中国研发团队在本地构建核心算法,远程赋能海外工厂的机器人系统[29] - 该模式不仅保障核心技术不外泄,还可规避高额关税壁垒,已在广东省惠州市比亚迪工厂开展试点[29] 具身智能四大发展支柱 - 人形机器人因其高度仿生结构被视为最具潜力的通用平台,具有极高的负重比和强平衡控制能力[31] - 训练场建设是推动具身智能从感知走向行动的关键支撑,必须构建真实与虚拟融合的训练环境[34] - 未来机器人应具备差异化专长,出现工程师型、艺术家型、服务型等多种智能体,服务于不同行业与任务场景[35] - 智能的本质在于持续进步,具身智能系统应具备逐年优化操作能力的进化特性[36] 训练场建设新范式 - 人形机器人发展重构了传统AI+机器人研发范式,从模型驱动走向数据驱动[47] - 训练场建设经历三个阶段技术迭代:人体动作捕捉采集、遥操作人形机器人采集、虚实融合的高保真训练环境构建[48][49][50] - 训练场不仅是基础设施,更是一项关键技术,承担高质量数据的规模化采集、工艺知识沉淀与标准化等职能[51] - 国内已有近20家主流人形机器人品牌接入麒麟训练场,涵盖双足、轮足等多种形态[52] 仿真合成数据驱动 - 银河通用坚持仿真合成数据为核心的技术路线,相较于真实数据采集具有更高可控性、更强一致性和卓越可扩展性[103] - 提出"动作用仿真,语义补真实"的混合学习范式,构建完整的仿真合成数据pipeline[104] - 采用两阶段训练范式:第一阶段利用百亿级仿真合成数据进行通识预训练,第二阶段通过少量真实世界数据进行场景微调[105] - 实证表明,引入大规模仿真预训练后,仅需约200条真实样本即可完成技能迁移,样本效率提升达千倍以上[105] 商业化落地实践 - 具身智能系统已在零售、工业、教育与服务多个领域实现商业化部署[108] - 在零售领域与美团等企业合作推进智能仓储全流程自动化,计划启动"十城百店"战略[108] - 工业应用方面与国内外车企合作开展零部件识别与货箱搬运任务,展现高度泛化能力[108] - 与博世联合成立合资公司,致力于推动具身大模型在高端制造场景的深度落地[109]
MBZUAI 机器人实验室招收2026 Fall 全奖博士生/访问研究生等
具身智能之心· 2025-09-23 08:03
文章核心观点 - 文章为一篇关于MBZUAI大学左星星博士领导的RCL实验室的招生宣传材料 旨在吸引对机器人学、3D计算机视觉和具身智能等领域有浓厚兴趣的研究生和访问学者 [1][2][3] 招生方向与要求 - 实验室主要研究方向包括机器人学、3D计算机视觉、混合现实、状态估计、基于学习的视觉-惯性SLAM、多传感器融合、强化学习、VLN/VLA、人形机器人-物体交互以及具身人工智能 [2] - 对申请者的核心要求是对机器人、混合现实或人工智能有浓厚兴趣 具备较强的数学基础和编程能力 并拥有自我管理能力、驱动力和严谨的科研态度 [3] - 博士申请者需有以主要作者身份在领域内顶级刊物发表论文的经历 具备机器人相关经验或竞赛经验者将获得额外考虑 [3] - 硕博研究生申请需提供托福或雅思成绩 实验室同时招收访问研究生和国内实习生 [3] 待遇与资源 - 博士生在免除学费外 可获得每年约42万元人民币的全额免税奖学金 [3] - 实验室提供免费往返机票、充足的GPU计算资源以及机器人、传感器等硬件资源 [3] - 访问研究生和国内实习生可获得工资 实验室也接受中国国家留学基金委资助的留学生 [3] - 实验室已下单购买大量机器人硬件 部分已到货使用 大部分将在2025年11月前运抵 [4] 申请流程与时间 - 2026年秋季入学的研究生申请系统于2025年9月1日开放 早期申请截止日期为2025年11月15日 晚期申请截止日期为2025年12月15日 建议在11月15日前完成申请 [6] - 访问研究生和国内实习生可全年申请 [6] - 申请者需先将英文简历、成绩单和代表论文发送至指定邮箱 实验室将择优组织考核面试 同时申请者必须在学校官方申请系统中提交完整材料 [7] - 邮件标题需注明"[Position]+[Name]+[Affiliation]" [8]
为什么 VLA 能叠毛巾,却测不准物体位姿?具身智能的 “空间感知” 补全是怎么做的?
具身智能之心· 2025-09-22 17:00
文章核心观点 - 文章介绍了一种名为OnePoseViaGen的颠覆性解决方案,旨在解决具身智能(如机器人)在现实世界中精准操作未知物体时面临的关键瓶颈——6D物体位姿估计 [2] - 该方法的核心创新在于,仅需单张参考图像,无需预先扫描的3D模型或多视角图像,即可通过单视图3D生成、粗精对齐和文本引导域随机化等技术,实现对未知物体的高精度6D位姿估计 [2] - 该方法在权威基准测试和真实机器人操作实验中均展现出显著优于现有主流方法的性能,为机器人从特定场景迈向开放世界交互提供了关键技术支撑 [2][31] 关键研究成果:OnePoseViaGen框架 - 该框架遵循递进逻辑,旨在解决单样本6D位姿估计的三大核心挑战:3D模型缺失、真实尺度与位姿校准、以及生成模型与真实图像的域差距 [5] - 任务定义为:基于单张RGB-D锚点图像和查询图像,估计物体的6D刚性变换(旋转和平移)并确定尺度因子,将生成的标准化模型校准到真实世界尺度 [7] 基于法向量引导的3D纹理网格生成 - 第一步解决“3D模型缺失”问题,基于改进的Hi3DGen模型,仅输入单张RGB-D锚点图像及其生成的法向量图,即可快速生成标准化的3D纹理模型,无需多视图或预训练模型 [8][9] 粗到精的尺度-位姿联合对齐 - 为解决生成的归一化模型与真实世界不匹配的问题,设计了两步对齐策略 [10] - **粗对齐**:通过多视图渲染、特征匹配和PnP算法,快速获得一个包含尺度模糊的初始位姿,并通过优化求解全局尺度因子 [12] - **精对齐**:基于粗对齐结果,采用改进的FoundationPose框架进行迭代优化,更新位姿并重新优化尺度,最终得到与真实世界尺度一致的3D模型及其精准位姿 [13] 文本引导的生成式域随机化 - 为解决单张锚点图像生成的模型缺乏外观多样性以及与真实图像的域差距问题,设计了文本引导的生成式域随机化策略 [14] - 以生成的3D模型和文本提示为输入,通过Trellis模型生成一系列结构一致但纹理多样的3D变体 [14] - 在随机条件下渲染这些变体构建大规模合成数据集,并用于微调位姿估计器,从而提升模型对遮挡、光照变化的鲁棒性 [14] 核心结果1:基准数据集验证 - **YCBInEOAT数据集**:OnePoseViaGen的平均ADD指标达81.27%,平均ADD-S指标达93.10%,远超Oryon(ADD 1.1%)、LoFTR(ADD 4.0%)、Gedi(ADD 7.7%)和Any6D(ADD 45.6%)等主流方法 [17] - 在高挑战场景下优势显著,例如在“sugar box1”物体上,Any6D的ADD仅14.3%,而OnePoseViaGen达到75.63%;在“tomato soup can yalehand0”上,Any6D完全失效(ADD 0.0%),而OnePoseViaGen达到77.72% [17][19] - **TOYL数据集**:在复杂光照与远距离挑战下,OnePoseViaGen的AR指标达到55.7%,比次优的Any6D(43.3%)高12.4个百分点;其MSSD、MSPD、VSD等距离类指标也全面领先 [18] - **LM-O数据集**:在高遮挡无纹理的挑战性场景中,OnePoseViaGen的整体AR指标达到74.8%,远超GigaPose(17.5%)和Any6D(28.6%) [20] - 定性结果显示,即使在物体被严重遮挡的情况下,估计的位姿轮廓仍与真实物体边缘高度重合,验证了其强大的抗遮挡能力 [22] 核心结果2:真实机器人操作验证 - 在真实机器人抓取与放置任务中,OnePoseViaGen指导下的整体成功率高达73.3%,远超基线方法SRT3D(6.7%)和DeepAC(16.7%) [24][25] - 实验涉及15种物体,任务要求抓取稳定、运输无碰撞且放置后稳定,证明了该方法的落地实用性 [23] - 定性结果显示,生成的3D模型与真实物体高度一致,估计的位姿能精准指导机械臂抓取,即使存在手部遮挡也能通过几何约束保持估计精度 [27] 核心结果3:消融实验 - 消融实验验证了“粗到精对齐”和“生成式域随机化微调”两大核心模块的必要性 [28] - 在TOYL数据集上,完整模型的AR为55.7%,移除精对齐模块后AR降至32.9%,同时移除粗精对齐模块后AR降至0.0%,证明了逐步对齐策略的关键作用 [30] - 使用多样化纹理微调后的模型AR为52.4%,而未使用微调或使用朴素微调的模型AR分别仅为12.6%和11.4%,证明了文本引导的生成式域随机化是提升方法鲁棒性的关键 [30]
具身方向适合去工作还是读博?
具身智能之心· 2025-09-22 12:00
具身智能行业现状与人才需求 - 行业存在真实需求与人才能力错配问题 许多从业者仅具备仿真环境和开源数据集经验 缺乏硬件、数据和算法的综合能力 难以胜任实际岗位 [1] - 具备扎实基础的从业者通常来自拥有多机器人本体的实验室 在硬件、数据、算法方面均有深厚积累 [1] - 行业对"开拓者"角色有强烈需求 要求具备从0到1的思维能力与解决问题能力 能够独立探索并忍受反复试错 [1] 具身智能技术社区生态 - "具身智能之心知识星球"是国内首个具身全栈技术社区 集视频、图文、学习路线、问答、求职交流为一体 目前拥有近2000名成员 目标2年内达到近万人规模 [2][4] - 社区覆盖产业、学术、求职、问答等多个领域 形成闭环生态 提供前沿研究解决思路和岗位对接服务 [4] - 社区成员来自斯坦福大学、清华大学等国内外知名高校以及智元机器人、优必选等头部公司 具备高端人才聚集效应 [14] 行业技术研究热点与资源 - 社区梳理近30+技术路线 涵盖VLA模型、机器人仿真、数据采集、大模型规划推理等核心领域 [4][5] - 汇总40+开源项目、60+数据集及主流仿真平台 提供强化学习、VLN、VA/VLA等全方位学习路线 [14] - 技术讨论聚焦VLA+RL融合、sim2real迁移、分层决策等前沿课题 反映行业当前技术攻关方向 [5][38][40] 产业资源与就业支持 - 社区与多家具身公司建立内推机制 提供星海图、银河通用等头部企业岗位对接 [6][14] - 汇总国内外40+具身机器人公司 覆盖教育、工业、医疗等多个应用方向 [19] - 提供行业研报、零部件品牌、开源项目等产业资源 助力从业者把握市场动态与技术趋势 [21][26][28]
IGL-Nav:基于增量式3D高斯定位的图像目标导航(ICCV'25)
具身智能之心· 2025-09-22 08:03
作者丨 Wenxuan Guo等 编辑丨视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 主要贡献 研究背景 图像目标导航任务要求智能体在未知环境中导航到由图像指定的位置和朝向,这对于智能体理解空间信息以及基于过往观测探索场景的能力提出了很高要求。 提出了 IGL-Nav 框架,通过增量式更新3D高斯表示(3DGS),实现了高效的3D感知图像目标导航,显著优于现有方法。 设计了 粗粒度到细粒度 的目标定位策略,先利用几何信息进行离散空间匹配实现粗粒度定位,再通过可微渲染优化求解精确定位,有效解决了6自由度相机姿态估 计的复杂搜索空间问题。 IGL-Nav能够处理更具挑战性的 自由视角图像 目标设置,并可部署在真实机器人平台上,使用手机拍摄的任意姿态目标图像引导机器人导航。 传统方法或依赖端到端的强化学习,或基于模块化策略使用拓扑图或鸟瞰图作为记忆,但都无法充分建模已探索3D环境与目标图像之间的几何关系。 近期虽有基于可渲染神经辐射图(如RN ...
当机器人学会 “模仿” 人类:RynnVLA-001 如何突破操作数据稀缺困境?
具身智能之心· 2025-09-22 08:03
文章核心观点 - 阿里巴巴达摩院团队提出新型视觉-语言-动作模型RynnVLA-001,旨在解决机器人操作领域大规模高质量数据稀缺的核心难题 [1] - 该模型创新性地利用1200万条以自我为中心的人类操作视频进行两阶段预训练,成功将人类演示技能迁移至机器人操作任务 [1] - 在LeRobot SO100机械臂的实验中,模型在多项操作任务中平均成功率高达90.6%,在含干扰物的复杂场景中仍保持91.7%的高成功率,性能显著超越GR00T N1.5和Pi0等主流基线模型 [2][15][18] 研究背景与问题 - 视觉-语言-动作模型的发展受限于机器人操作数据的稀缺,传统数据采集方法依赖人类远程操控实体设备,成本高昂且效率低下 [5] - 现有解决方案,如构建大规模机器人数据集或利用预训练生成模型,均未能有效弥合视觉预测与机器人动作控制之间的差距 [5] 模型创新与方法论 - 提出两阶段预训练框架:第一阶段进行以自我为中心的视频生成预训练,学习人类操作的视觉动态;第二阶段进行以人类为中心的轨迹感知建模,关联视觉预测与动作生成 [6][9][10] - 引入ActionVAE模块,将动作序列压缩为紧凑的潜在嵌入,降低模型输出空间复杂度,并保证预测动作的平滑性和时间连贯性 [6][13] - 构建大规模数据筛选流程,从网络资源中筛选出1200万条高质量人类操作视频用于模型训练 [6] 实验结果与性能对比 - 在拾取放置绿色方块、草莓抓取、钢笔入架三项任务中,RynnVLA-001的成功率分别为90.0%、91.7%和90.0%,平均成功率达90.6%,显著高于GR00T N1.5的55.6%和Pi0的70.4% [15] - 在单目标操作、多目标操作和含干扰物的指令跟随三种场景下,模型成功率分别为93.3%、86.7%和91.7%,展现出强大的指令跟随与抗干扰能力,性能稳定性优于对比模型 [18] - 消融实验证实两阶段预训练的有效性,完整模型性能最优,表明预测人类轨迹的能力能有效弥合视觉与动作间的鸿沟 [19][20][21] 技术细节与组件分析 - 模型采用双摄像头输入策略:前置摄像头负责物体粗定位与3D场景信息获取,手腕摄像头负责精细局部调整 [29][30][34] - 在Calvin基准上的消融实验显示,使用384×384图像分辨率、预测ActionVAE嵌入以及采用单一线性层动作头的模型配置性能最佳 [22][23][24][25] - 推理时,模型输出动作嵌入由ActionVAE解码器生成可执行的机器人动作序列,实现闭环控制 [16]
小扎把马斯克机器人一号位挖走了
具身智能之心· 2025-09-22 08:03
核心人才流动 - Optimus AI团队负责人Ashish Kumar决定离开特斯拉,加入Meta担任研究科学家 [1] - Ashish Kumar为UC伯克利博士,导师是Jitendra Malik教授,2023年7月以ML科学家身份加入特斯拉,一年多后成为擎天柱AI负责人 [6] - 今年6月,Optimus项目负责人Milan Kovac宣布离职,其为特斯拉9年老将,曾领导团队将人形机器人从概念发展为功能齐全的第二代双足机器人 [7][10][12] 特斯拉机器人业务战略 - 特斯拉未来80%的价值将来自Optimus [14] - 团队致力于推进可扩展方法,用强化学习取代传统技术栈,并通过视频学习提升机器人灵巧度 [3] - 人工智能被视为解锁人形机器人的最关键因素 [4] 公司内部管理动态 - xAI的几位高管在与马斯克的两位亲密顾问Jared Birchall和John Herin发生冲突后离职,部分高管对顾问缺乏正式指挥链的管理方式表示反对 [16][17][18] - 马斯克作为xAI首席执行官负责做出最终决策 [17]
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-22 08:03
核心观点 - 研究团队提出PhysicalAgent框架,旨在解决机器人操控领域的两大瓶颈:主流视觉-语言-动作模型依赖任务与平台特定微调导致跨平台鲁棒性差,以及基于世界模型的方法通用性受限 [2] - 该框架的核心思路是使用基础模型承担感知与推理的重任,仅保留轻量级机器人适配层负责执行,以实现跨形态、跨任务的通用操控,并通过迭代修正提升执行鲁棒性 [2] 架构设计:泛化性的核心逻辑 - 框架设计原则是感知与推理模块不绑定特定机器人形态,仅需为不同机器人训练轻量级骨骼检测模型,此设计计算开销小且数据需求低 [3] - 视频生成模型具有天然优势,因其预训练了海量多模态数据,隐含对物理过程的理解,且支持API调用无需本地训练即可快速集成 [5] - 视频生成模型能通过文本指令生成执行过程的视觉想象,与人类思考动作的方式一致,无需了解机器人内部结构 [5] - 同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频,无需针对特定机器人重新训练,证明了架构的跨形态适配能力 [5] 视觉语言模型的作用 - 视觉语言模型作为框架的认知核心,通过多次调用实现指令-环境-执行的接地,而非单次规划 [6] - 其具体作用分为四步:接收指令与场景图像后分解高level任务为原子子任务;为每个子任务生成带约束的文本提示;每次执行后对比图像判断子任务完成情况并输出决策;框架不绑定特定视觉语言模型,具有模型无关性 [10] 扩散基世界模型:动作生成的新范式 - 核心创新是将动作生成为条件视频合成,而非直接学习控制策略 [6] - 使用现成的图像-视频基础模型,输入机器人当前相机帧与文本指令,生成物理合理的短动作视频 [10] - 对比现有方法,该框架直接使用通用图像-视频模型,无需为特定机器人-场景对训练模型,大幅降低泛化门槛 [10] - 具有三大优势:降低新机器人部署成本;可快速迭代替换更优模型;生成视频可被人类检查以提升安全性 [10] 机器人适配层:从视频到电机指令的落地 - 生成的动作视频需转化为机器人能执行的电机指令,此部分是框架中唯一需机器人特定适配的部分 [6] - 流程包括用微调后的模型从合成视频每帧中提取机器人关节关键点,形成40维特征向量/帧;再用多输出回归器将特征映射为低level电机指令 [11] - 每个新机器人仅需约1000个样本,30分钟即可收集完成训练数据 [11] 实验验证:效果与泛化性 - 实验分为两类,分别验证跨形态/感知模态的泛化性与迭代执行的鲁棒性 [8] - 在形态与感知模态研究中,框架的成功率显著优于基线,验证了扩散视频生成思路的有效性;平台对性能无显著影响,说明框架跨形态泛化能力稳定 [14] - 在物理机器人的迭代执行实验中,双臂UR3和Unitree G1人形机器人的最终成功率均达到80%,首次尝试成功率分别为30%和20%,成功所需平均迭代次数分别为2.25次和2.75次 [13][16] - 迭代修正能有效弥补首次执行的不足,前3次迭代后未完成任务比例骤降,是提升鲁棒性的核心 [16]
合伙人招募!和我们一起运营这个具身社区吧~
具身智能之心· 2025-09-21 18:00
公司定位与发展愿景 - 公司从技术分享起步,现已发展成模块完善的社区,致力于超越媒体角色,成为为具身智能行业创造价值的平台[1] - 公司认识到少数人力量有限,因此公开邀请具身智能领域有影响力的人士进行多方位合作,共同推动行业发展[1] 具体合作方向 - 课程开发:合作搭建面向初学者、企业培训和高校学科建设的课程体系,以推动行业向前发展[2][3] - 硬件研发:合作搭建高性价比、易用的具身智能科研平台,旨在降低开发者和初学者的使用门槛与成本[3][4] - 开源项目:合作搭建具备全球影响力的开源项目[5][6] - 咨询服务:合作承接面向企业和个人的具身智能数据、本体、算法及部署等领域的咨询,以助力产业升级和人才发展[7][8] 合作者要求与待遇 - 公司对合作者的要求是具备一定的领域工程经验,或拥有博士及以上学位并发表过顶级会议论文[9][10] - 合作形式灵活,全职或兼职均可[10] - 公司提供行业内有竞争力的报酬,并承诺保护个人隐私,同时合作者将能共享公司的行业资源[9][10]