具身智能之心
搜索文档
开箱子,叠毛巾!从零把pi0部署到你的机械臂上吧!
具身智能之心· 2025-11-18 11:38
产品定位与目标市场 - 面向具身智能科研领域的轻量级高性价比机械臂 旨在解决硬件选择中价格过高或低价产品难用难上手的问题[2][3] - 专为新手和科研初学者设计 目标用户包括学生 教育工作者和刚踏入机器人领域的开发者[3] - 产品核心价值在于帮助用户低成本 高效率地完成算法验证与项目开发[3] 核心产品优势 - 提供全流程开源工具链和代码示例 覆盖从数据采集到模型部署的完整环节 显著降低上手门槛[4][18] - 支持Python和C++双语言接口 兼容ROS1和ROS2 并提供URDF模型 实现仿真与真机无缝切换[4][19][20] - 采用高精度运动控制与低功耗设计 具备开放软硬件架构 支持从仿真到真机的无缝联调[6][18] - 提供24小时快速售后响应 确保学习与开发过程顺畅[4][20] - 紧凑型结构与模块化接口使其特别适用于嵌入式AI与机器人学习平台的开发[7] 关键性能参数 **机械臂本体性能** - 本体重量为4.2KG 额定负载为3KG 具备6个自由度[9][20] - 工作半径为612.5mm 重复定位精度达到±0.1mm[9][20] - 供电电压为24V 控制器为PC 材质采用铝合金[9][20] - 通讯方式为CAN 控制方式支持轨迹跟踪 示教和API[9][20] **末端执行器参数** - 提供多种末端执行器选项 重量分别为631g 671g和704g 行程均为0-80mm 定位精度为±0.5mm[11][12][14] - 其中一款末端执行器尺寸为100 x 60 x 100mm 行程为0-90mm[22][23] 技术生态与开发支持 - 提供完整的开源软件开发工具包 包含驱动程序 API接口 示例代码与文档[27] - 支持视觉 力控等多模态数据融合 兼容TensorFlow PyTorch等主流框架 实现端到端的智能算法落地[18][33] - 目前已开源适配ACT算法示例 并将逐步适配并开源lerobot robotwin pi0等模型[47] - 机械臂已适配realsensor D435系列和奥比中光DCW2相机[47] 测试与部署能力 - 通过严格的硬件测试流程 包括精度校准 耐久性 负载性能与稳定性验证[36][40][41][43] - 模型推理时间约30-37毫秒 在NVIDIA 4060显卡上即可完成训练和推理[35][47] - 提供URDF模型 支持Gazebo等主流仿真环境与真机实时联动 用户可在仿真中验证算法后一键部署至物理设备[18][23] 交付与售后政策 - 产品交付周期为1-2周 提供快速响应的售后支持[45] - 质保政策为非人为损坏质保半年 质保期后按市场价支付售后费用[46] - 产品为单臂销售 不支持无理由退货测试[47]
大多数开始具身研究的同学卡在了这些地方.......
具身智能之心· 2025-11-18 11:38
社区技术进展与成员表现 - 部分成员采用低成本硬件方案取得良好效果,已成功部署act和pi0模型 [1] - 部分成员在算力、数据采集、模型优化和项目实战方面遇到障碍 [1] - 针对算力不足问题,社区分享轻量化方法可实现SOTA性能 [1] - 数据采集建议从遥操作入手,重点关注数据质量,噪声数据影响模型效果 [1] - 数据量不足时可尝试real2sim2real方法,机械臂用户可采用RL+VLA方案 [1] - 人形和高自由度本体不建议轻易尝试RL+VLA方案,效果难以实现 [1] 社区资源与服务体系 - 社区已建立技术路线分享、直播、问答、求职、赛事等多版块,形成产业、学术、求职闭环 [2] - 提供持续直播分享,涵盖本体、数据、算法等领域,探讨行业问题与发展方向 [4][5] - 汇总近40+开源项目、60+数据集、主流仿真平台及各类技术学习路线 [12] - 建立与多家具身公司的岗位内推机制,帮助成员对接心仪公司 [11] - 社区成员近3000名,来自斯坦福大学、清华大学等200家高校及机器人公司 [11][12][81] 技术专题研究内容 - 数据采集专题包括遥操作算法与硬件、RoboTwin 2.0数据生成器等研究方向 [6] - 灵巧手专题涵盖视觉语言动作模型、硬件设计、触觉传感器等5个子领域 [6] - VLA模型专题包含交错图文指令框架、泛化差解决方法、安全建模等5项内容 [6] - 具身世界模型专题涉及4D世界模型EnerVerse、空间泛化智能等4个前沿方向 [6] - 大模型技术专题覆盖推理加速、微调、部署框架等6个关键技术点 [6][52][62] 行业知识库建设 - 汇总国内外具身智能高校实验室信息,助力成员学术深造 [14] - 整理国内外机器人公司资料,覆盖教育、工业、医疗等应用方向 [17] - 汇集机器人导航、动力学、路径规划等基础理论书籍PDF资源 [23] - 整合机器人零部件品牌,包括芯片、激光雷达、相机等供应链信息 [25] - 建立仿真平台、ToF相机、数据采集方案等工程实践数据库 [27][29][31][35]
人形机器人赛道,早已挤满车企
具身智能之心· 2025-11-18 08:46
车企入局人形机器人赛道概况 - 一场由车企深度参与的机器人竞赛已拉开帷幕,已有广汽、上汽、比亚迪、长安、奇瑞等十余家车企涌入人形机器人赛道 [2][3] - 海外市场特斯拉、宝马等也提出了自己的人形机器人思路 [2] - 车企集体杀入机器人赛道是产业升级与技术演进的必然结果,也是新能源资本故事退潮后市场亟需的新估值锚点 [2][15] 主要车企的战略布局与进展 - 特斯拉CEO马斯克称人形机器人Optimus预计市场规模达数十亿台 [4] - 小鹏汽车计划在2026年底实现人形机器人IRON的规模化量产 [5] - 广汽计划在2025年实现自研机器人零部件的批量生产,2026年实现整机小批量生产 [6] - 奇瑞将机器人业务视为公司的第二增长曲线 [6] - 多家车企已将机器人应用于总装车间、质检区等复杂场景,实现大负载搬运、精密装配等多任务协同作业 [6] 车企布局机器人的战略分类 - 布局机器人赛道的汽车公司可分为四大类:自主研发派、投资与收购派、场景驱动派、投资+自研派 [7] - 特斯拉、小鹏、广汽为自主研发派,强调底层技术复用与协同 [7] - 现代、宝马、上汽为投资与收购派,通过投资收购快速补齐技术短板 [7] - 比亚迪为投资+自研派,兼具自研与投资特点 [7] - 北汽、奇瑞为场景驱动派,与合作方研发定制化机器人 [8] 汽车零部件产业链上游的跟进 - 2025年以来,A股近30家汽车零部件公司设立机器人子公司,瞄准核心零部件、灵巧手、传感器等关键环节 [9][10] - 例如金固股份注册全资子公司作为拓展具身智能业务的核心平台 [11] - 拓普集团投资50亿元建设机器人电驱系统生产线,年产能为30万套电驱执行器 [13] - 电驱执行器是机器人核心零部件,单机价值约数万元人民币 [13] - 雷迪克通过收购傲意科技20.41%股权,补齐灵巧手的关键生产能力 [14] 车企入局机器人的驱动力与挑战 - 车企布局机器人的核心初衷是应用于自身生产线以实现提效降本,并灵活应对市场产能波动 [6] - 汽车零部件和机器人零部件的技术同源性是车企入局的底气所在 [14] - 汽车行业竞争加剧导致零部件企业主业毛利率下降,布局机器人是为寻找增量 [14] - 车企对非结构化人机交互场景理解有限,在动态平衡、精细操作等关键环节尚处追赶阶段 [15] - 工业机器人核心零部件加速国产化,为跨界企业带来更激烈的市场竞争 [15] 资本市场视角与竞争关键 - 人形机器人仍处于技术验证与商业模式探索阶段,技术路线未收敛 [16] - 对于多数年营收达数十亿的上市企业,布局机器人更多承载着市值管理的战略意图 [16] - 胜负的关键已不在于某一单项技术的突破,而是跨系统整合能力与资本耐力的综合较量 [2][16]
CMU团队等!机器人记忆新架构:物体中心状态建模,实现长时序操作!
具身智能之心· 2025-11-18 08:46
研究背景与核心挑战 - 现实机器人操作任务的成功依赖于对象交互历史而非仅当前观测[5] - 现有视觉-语言-动作模型多遵循马尔可夫假设缺乏对象级记忆机制在重复操作视觉相似物体遮挡等场景中易失效[5] - 核心挑战集中在部分可观测性对象身份模糊和长时程时间依赖三方面[5] LIBERO-Mem基准套件 - 基准专为评估非马尔可夫场景下的对象级记忆能力设计涵盖短长时程任务与多维度记忆挑战[5] - 包含10类任务覆盖对象运动对象序列多对象关系多对象遮挡四种记忆维度[7][9] - 每个任务包含200-700帧120条轨迹支持子目标分解的细粒度性能评估[9] - 通过视觉相似物体引入身份模糊填补现有基准在非马尔可夫场景评估的空白[8] Embodied-SlotSSM模型架构 - 模型以对象槽为核心整合状态空间建模与关系推理实现高效时间序列记忆与动作预测[11] - 采用槽状态空间建模通过状态空间模型近似历史信息实现历史状态映射[13] - 核心机制包括瞬时记忆保障时间定位与一致性以及动作解码实现关系推理与上下文融合[14] - 通过槽注意力将视觉嵌入分解为离散对象槽并结合时序初始化保障对象身份跨时间传播[16] 实验结果与性能表现 - 在通用任务LIBERO-Goal中模型平均成功率达80.1%显著优于SlotVLA等基准模型[15][17] - 在非马尔可夫任务LIBERO-Mem中平均子目标完成率达14.8%远超传统模型的5.0%[23] - 在重复操作任务如3次放置碗中实现33.3%的完成率证明模型在长时程任务中的有效性[23] - 优势集中在多对象交互遮挡任务证明结构化记忆对复杂场景的适配性[19] 核心价值与行业意义 - 填补非马尔可夫机器人操作基准空白为记忆增强型模型提供标准化评估工具[24] - 验证对象中心记忆在复杂场景中的必要性为机器人从反应式操作向推理式操作转型提供新思路[24] - 时间窗口预测与关系推理机制提升动作预测稳健性为非马尔可夫场景提供可行解决方案[24]
离了大谱,21%的ICLR 2026审稿意见竟是AI生成的?官方回应来了
具身智能之心· 2025-11-18 08:46
ICLR 2026审稿中AI使用情况统计分析 - 对ICLR 2026的75,800篇论文审稿意见的系统性统计显示,AI参与程度极高,完全由AI生成的审稿意见占21%,重度AI编辑占4%,中度AI编辑占9%,轻度AI编辑占22%,完全由人类撰写的仅占43% [2] - AI生成的审稿意见呈现出明显特征,其篇幅比完全由人类撰写的评审长了26%,并且更可能给出高分,平均得分高出0.3分 [3][11] - 用于检测的EditLens模型在验证准确性时假阳性率极低,轻度AI编辑假阳性率为千分之一,中度AI编辑为五千分之一,重度AI编辑为万分之一,完全由AI生成的未出现假阳性 [21] 投稿论文中AI使用与评分相关性 - 对投稿论文的分析发现,39%的论文以某种方式使用了AI作为写作助手 [8] - 论文中的AI使用程度与较低的评分呈负相关,AI内容占比90-100%的199篇投稿平均得分仅为2.9分,而AI内容占比0-10%的11,864篇投稿平均得分高达4.36分 [8] - 随着论文中AI内容占比的增加,平均评分呈现下降趋势,从0-10%的4.36分逐步降至90-100%的2.90分 [8] SafeFlowMatcher机器人路径规划框架 - 该框架创新性地结合了流匹配和控制屏障函数,通过预测-校正两阶段积分器实现实时高效且具备安全认证的路径规划 [12] - 核心优势在于将初始路径生成与安全约束执行解耦,有效避免了分布漂移和局部陷阱问题,在迷宫导航和高维运动任务中表现优于基于扩散和EM的基线方法 [12][13] - 框架具备严格的数学证明,确保了鲁棒安全集的前向不变性及有限时间收敛性,其效率高,仅需少量函数评估即可实现高性能 [14][15] 行业及社区动态 - ICLR 2026程序委员会已发布官方回应,承认存在低质量和LLM生成的评审,并建议作者将此类问题反馈给领域主席 [24][25] - 社区内出现了针对AI审稿人的处理建议,例如移除不良评审并自动认定相关审稿人未履行职责,进而自动拒绝其提交的论文 [26] - 存在专注于具身智能领域的开发者社区和知识星球,提供学习路线、开源项目、数据集等资源,并建有近60个技术交流群 [29][31][34]
3DV 2026最新 | GaussianArt:清华智源通过高斯模型解决机器人操作仿真中关键问题
具身智能之心· 2025-11-17 18:01
研究背景与核心创新 - 提出GaussianArt单阶段训练框架,通过关节式3D高斯模型统一运动与外观建模,简化了传统两阶段流程[2][4] - 该方法支持最多20个部件的复杂物体,并集成鲁棒部件分割模块以精确分解关节级运动[2][5] - 相较于仅在19个物体上评估的先前研究,该研究通过90个铰接物体进行了大规模扩展评估[2][4] 技术方法与实现 - 采用基于3DGS的显式场景表示法,将关节物体重构为基于规范高斯表示的运动场[10] - 通过基础模型SAM2进行部件分割并微调为专用模型Art-SAM,用于初始化规范高斯分布[11] - 在训练过程中增加权重分布、空间稀疏性和刚性估计等约束,以精确表示关节物体[10][13] 数据集构建 - 构建了包含90个关节物体的综合基准测试集MPArt-90,其中79%为合成物体,36%为真实世界物体[12][16] - 数据集涵盖20个类别,主要基于Partnet-Mobility数据集构建,并包含从Multiscan数据集中选取的三个真实物体[16][17] 性能评估与结果 - 在运动参数估计方面,GaussianArt在轴向角度误差上为12.17度,优于对比方法ArtGS的24.34度[20] - 在几何重建方面,GaussianArt的静态部件倒角距离为2.68,显著优于ArtGS的11.57[20] - 对于动态部件,GaussianArt的倒角距离为5.42,远低于ArtGS的380.29[20] 应用前景 - 生成的铰链物体高斯模型可用于生成4D资产,实现数字人与动态物体的交互[25] - 该方法为机械臂操控铰接物体提供了支持,可集成至Isaac等仿真系统[7][26]
具身智能之心招募VLA+RL方向的合作伙伴~
具身智能之心· 2025-11-17 18:01
招募背景与目的 - 公司收到大量关于视觉语言动作与强化学习方向的咨询,希望进行更深入的讲解 [1] - 公司计划开发视觉语言动作与强化学习方向的在线课程 [1] - 公司向全平台粉丝招募1名该方向的课程讲师共同开发课程 [1] 讲师要求 - 研究方向需为视觉语言动作与强化学习 [2] - 学术界讲师要求博士及以上学历,并拥有相关方向的顶级会议成果 [2] - 工业界讲师要求具备实战经验和真机调试经验 [2] 公司平台优势 - 公司是国内首个具身全栈技术交流社区 [3] - 公司平台聚集了大量视觉语言动作与强化学习方向的学习者 [3] 薪酬与资源 - 公司将提供高于行业平均水平的薪酬 [4] - 公司将提供丰富的行业资源 [4] 联系方式 - 详细内容可通过添加指定微信账号进行咨询 [5]
具身界影响力最大的两位博士创业了!
具身智能之心· 2025-11-17 12:00
创业团队核心成员 - 公司CEO为Tony Z Zhao,其为斯坦福大学计算机科学专业三年级博士生(已辍学)[2][5] - 公司CTO为Cheng Chi,其为哥伦比亚大学博士及斯坦福大学新教师奖学金获得者[2][10] - 两位创始人在具身智能界具有重要影响力[2] 创始人的技术背景与成就 - Tony Z Zhao在斯坦福期间主导参与了ALOHA、ALOHA2、Mobile ALOHA等具有行业影响力的机器人项目[4][5] - Cheng Chi是通用操作接口UMI的主要提出者,该成果获RSS 2024最佳系统论文决赛奖,同时是Diffusion Policy方案的作者[4][10] - 这些技术成果为公司在机器人操作与策略学习领域奠定了坚实基础[4][5][10]
登上Science Robotic!一天学习1000个任务,内燃机的风还是吹到了机器人
具身智能之心· 2025-11-17 08:47
文章核心观点 - 帝国理工学院提出的Multi-Task Trajectory Transfer(MT3)技术通过“轨迹分解为对齐-交互两阶段 + 检索式泛化”的创新思路,解决了机器人模仿学习数据效率低下的核心难题 [1] - MT3仅需单条演示即可教会机器人完成单个任务,在不到24小时的人类演示时间内成功掌握1000种不同的日常操作任务,并能泛化到全新物体实例 [1] - 该方法打破了“越多数据越有效”的传统认知,为机器人从实验室走向实际应用提供了全新范式 [23] 当前机器人模仿学习的范式困境 - 当前主流方案陷入“数据效率困境”,单阶段行为克隆平均需175-250次演示/任务,复杂任务甚至需8000次,且泛化能力差 [3] - 传统分解式方法聚焦单任务学习,未系统探索多任务场景下的策略搭配,缺乏灵活的经验复用机制 [3] - 早期检索式方法检索仅用于训练阶段,无法在测试时适配新场景,且依赖单一模态匹配,检索精度有限 [3] MT3的核心设计原理 - 核心设计是将操作轨迹拆分为对齐与交互两阶段,通过语言-几何双模态检索复用历史演示 [4] - 对齐阶段解决“去哪里操作”的定位问题,通过姿态估计和运动规划实现,无需学习复杂路径生成逻辑 [6] - 交互阶段解决“怎么操作”的执行问题,通过直接重放检索到的历史演示轨迹完成精准物体操作 [7] - 采用双模态检索机制:语言过滤从任务描述中提取微技能筛选同类任务,几何匹配利用PointNet++编码器提取物体几何特征计算余弦相似度 [9] - 检索仅在任务开始前执行一次,找到的历史演示同时为对齐阶段提供定位参考、为交互阶段提供轨迹模板,实现跨阶段复用 [10] MT3的技术亮点与性能优势 - 数据效率取得突破,每个任务仅需1条演示即可完成学习 [11] - 泛化能力强劲,对于未见过的物体,通过几何匹配找到同类物体演示,在100个unseen任务上保持68%的成功率 [12] - 扩展效率极高,研究中仅用17小时采集演示就让机器人掌握了1000种任务,涵盖31类宏技能、402种不同物体 [13] - 在低数据场景下性能碾压传统方法,仅用3次演示/任务在seen任务上的成功率就超过其他方法用50次演示的表现 [16] - 整体性能表现优异,seen任务成功率78.25%,unseen任务成功率68%,在包含干扰物体、光照变化、物体随机摆放的复杂环境中仍保持稳定性能 [18] MT3的局限性 - 高精度对齐任务如硬币投入存钱罐插槽,对齐阶段的姿态估计误差无法通过开环交互弥补,成功率仅30%左右 [20] - 变形物体操作如将书插入背包,不同变形物体的动态特性无法通过视觉几何推断,轨迹重放易失败 [20] - 检索匹配失败场景如刷卡支付,物体关键特征过小时全局几何匹配无法识别,导致检索到不匹配的演示 [20] 关键结论与行业意义 - 轨迹分解是低数据学习的关键,将操作任务拆分为对齐-交互两阶段比单阶段学习数据效率提升一个数量级 [22] - 检索泛化比模型泛化更高效,在少量演示场景下直接复用历史经验比学习通用模型更可靠 [22] - 千任务学习无需复杂模型,为机器人规模化应用提供了低成本方案,对家庭服务、仓储物流等需要快速适配多种任务的场景极具落地价值 [22][23]
3D视觉被过度设计?字节Depth Anything 3来了,谢赛宁点赞
具身智能之心· 2025-11-17 08:47
技术突破与核心观点 - 字节跳动团队推出Depth Anything 3(DA3),将单目深度估计扩展至任意视角场景,使计算机空间感知能力媲美人类[5] - 研究证明当前多数3D视觉研究存在过度设计问题,仅需一个简单的、用深度光线表示训练的Transformer即可实现强大性能[2][9] - DA3采用最小化建模理念,仅使用标准Transformer架构(如DINOv2编码器)和单一深度光线预测目标,无需复杂多任务学习或专门架构设计[7][12] 方法创新与架构设计 - DA3将几何重建目标建模为密集预测任务,训练模型根据N张输入图像输出N个对应的深度图和光线图[13] - 引入输入自适应的跨视图自注意力机制,在前向传播中动态重新排列token以实现跨视图高效信息交换[13] - 采用双DPT头联合输出深度值和光线值,并通过相机编码器选择性整合已知相机姿态增强灵活性[13] - 训练采用师生范式统一不同训练数据,使用伪标注策略为真实世界数据生成高质量伪深度图[14] 性能表现与基准测试 - 在姿态估计方面比当前最先进方法(SOTA)提升44%,在几何估计方面提升25%[7] - 建立新视觉几何基准,在10项任务中均取得SOTA成绩,相机姿态精度比SOTA VGGT平均提高35.7%,几何精度提高23.6%[15] - 单目深度估计性能优于Depth Anything V2,同时在细节和鲁棒性方面表现相当[15] - 所有模型完全基于公开学术数据集训练[16] 应用潜力与功能展示 - 具备视频重建能力,能从任意数量视图(单视图到多视图)恢复视觉空间[18] - 提升SLAM性能,在大规模环境下仅替换VGGT-Long中的VGGT(DA3-Long)即可显著降低漂移,效果优于需48小时以上的COLMAP[20] - 通过冻结主干网络并训练DPT头部预测3D高斯参数,实现强大泛化能力的新颖视图合成[22] - 适用于自动驾驶多摄像头空间感知,从车辆不同视角估计稳定可融合的深度图[24]