Workflow
具身智能之心
icon
搜索文档
宇树之外,这个狗子勇夺IROS 2025四足机器人挑战赛冠军
具身智能之心· 2025-10-24 08:40
赛事与产品表现 - 智身科技钢镚L1机器狗平台在IROS 2025四足机器人挑战赛中首次参赛即夺得冠军 [1] - 钢镚L1是本次比赛中唯一一款非宇树品牌的比赛用机 [3][8] - 比赛包含楼梯、阶梯场地、K型护栏、托盘堆、坡道等多种复杂地形,全面考验机器人的运动稳定性和环境适应性 [8] 产品硬件与技术优势 - 钢镚L1自研关节模组峰值扭矩高达48N·m,为同级别产品最高水平 [3][11] - 机器狗搭载智航EDU高性能套件,集成Intel RealSense深度感知摄像头、Livox Mid360激光雷达及NVIDIA Orin NX计算单元,形成多模态感知与边缘计算能力结合 [11] - 平台AI计算性能高达100TOPS,能实时处理多传感器数据流以应对复杂地形 [11] 软件与仿真平台 - 公司自研RoamerX导航平台提供高效导航框架rmx_lite,可实现快速训练部署后自主运行 [11] - 自研开源高保真科研仿真环境MATRiX提供物理精确虚拟实验环境,支持运动控制、导航算法等多种研究任务的仿真验证 [13] - 完整仿真-部署工具链将算法迭代周期缩短了70%,助力赛前充分准备 [13] 行业意义与竞争力 - 此次夺冠创造了挑战赛冠军比赛用机新纪录,彰显中国具身智能和机器人技术实力 [8] - 赛事被誉为机器狗领域的“奥运会”,历年吸引麻省理工学院、苏黎世联邦理工学院等世界顶尖实验室参与 [4][6] - 产品标志着结合强大本体性能与高度智能、能快速赋能科研的创新机器人平台正展现出竞争力 [15]
港科大最新!超越人类示范:基于扩散的强化学习为VLA训练生成 “高质量、低方差“ 数据
具身智能之心· 2025-10-23 12:00
文章核心观点 - 提出一种改进的扩散策略优化算法,用于为视觉-语言-动作模型生成高质量、低方差的训练轨迹数据,以替代对大规模人类示范数据的依赖 [2] - 该方法在包含130项长时程操作任务的基准测试上,仅使用扩散强化学习生成的数据训练VLA模型,平均成功率可达81.9%,相比基于人类数据训练的模型提升5.3个百分点 [2] - 该扩散强化学习方法被证实可作为一种高效替代方案,为VLA模型生成数量充足、质量优异且方差较低的演示数据 [2] 技术方法与优势 - 该方法构建了一套以扩散强化学习为核心的VLA训练流程,其优势在于借助扩散模型的高表达能力探索复杂行为,并依托迭代去噪过程的隐式正则化生成平滑一致的演示数据 [2] - 所生成轨迹不仅比人类演示数据更平滑、一致性更强,也优于标准高斯强化学习策略生成的轨迹 [2] - 该方法是一个通用强化学习框架,可适配任意VLA架构 [6] 性能成果 - 在LIBERO基准测试集上评估,基于扩散强化学习生成数据训练的VLA模型平均成功率为81.9% [2] - 该成绩相比基于人类数据训练的模型提升5.3个百分点,相比基于高斯强化学习生成数据训练的模型提升12.6个百分点 [2] - 该方法实现了超越人类示范的性能突破 [6]
人形机器人被干到万元以下,还有的同学不知道怎么入门......
具身智能之心· 2025-10-23 12:00
人形机器人价格突破 - 松延动力推出全球首款万元以内高性能人形机器人Bumi,售价为9998元[1] - 机器人价格低于某些高端手机,表明供应链和技术方案成熟使本体价格大幅降低[1][2] 消费级市场影响 - 低价策略使产品面向消费级市场,科研机构和个人均可负担,批量复购压力小[2] - 销量提升有望吸引更多研究者贡献新思路,推动社区发展[2] 技术社区资源 - 具身智能之心知识星球社区已搭建近一年,覆盖近2000名成员和200家相关公司与机构[12][79] - 社区提供技术路线分享、直播、问答、求职、赛事等多版块内容,形成产业、学术、求职闭环[2][12] 学习与研发支持 - 社区汇总40+开源项目、60+具身智能数据集及主流仿真平台,涵盖感知、交互、强化学习等技术路线[14] - 提供国内外高校实验室和公司汇总,助力学术深造和职业发展[13][16][18] 行业活动与竞赛 - 社区推广2025中关村具身智能大赛等赛事,提供学生直通研究院等福利[78] - 通过直播和圆桌论坛分享行业动态与待解决问题[3][4]
我们开始招募具身领域相关的产品经理了~
具身智能之心· 2025-10-23 12:00
公司业务发展 - 公司正在面向全领域招募具身智能和机器人领域的产品经理 [1] - 公司计划在课程开发、企业咨询与培训等多个业务方向上展开合作 [1] - 合作待遇与模式需通过指定联系方式进行详细沟通 [1]
正式开课啦!具身智能目标导航算法与实战教程来了~
具身智能之心· 2025-10-23 08:03
文章核心观点 - 目标驱动导航是具身智能的核心领域,通过赋予机器人自主决策能力,使其能在陌生三维环境中仅凭目标描述自主完成探索与路径规划 [2] - 该技术正经历从依赖显式指令到自主感知决策的跃迁,并已在多个垂直领域实现产业化落地 [2][4] - 技术发展经历了三代迭代:端到端方法、模块化方法、LLM/VLM融合方法,当前研究重点在于解决开放词汇和动态环境等挑战 [6][8][10] 具身导航技术定义与价值 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向 [2] - 与传统视觉语言导航不同,目标驱动导航系统需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 技术背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化落地现状 - 在终端配送场景,美团无人配送车通过动态路径重规划在复杂城市环境中执行任务,Starship Technologies的机器人已在欧美高校和社区部署 [4] - 在医疗、酒店及餐饮场景,嘉楠科技、云迹科技、擎朗智能及美国Aethon公司的机器人已实现药品、文件和餐食的自主配送 [4] - 随着人形机器人发展,宇树科技Unitree系列、智元机器人、特斯拉Optimus均已集成目标驱动导航模块,加速向家庭服务、护理及工业物流领域渗透 [4] 技术演进与评测体系 - 基于Habitat仿真的生态完整记录了技术迭代轨迹,评测体系从点导航扩展至图像导航、目标导航及移动抓取任务 [5] - 视觉预训练模型提升特征泛化能力,分布式强化学习框架使PointNav任务SPL指标显著提升,大语言模型通过跨模态对齐解决部分开放词汇导航难题 [5] - 当前PointNav和闭集ObjectNav接近人类表现,但开放词汇物体导航和动态障碍物场景仍面临重大挑战 [5] 三代技术路线迭代 - 第一代端到端方法基于强化学习与模仿学习,在点导航与闭集图片导航任务中取得突破,部分方法SPL指标逼近人类表现 [6] - 第二代模块化方法通过显式构建语义地图分解任务,在零样本目标导航任务中展现显著优势,尤其在未见物体场景下成功率提升明显 [8] - 第三代LLM/VLM融合方法引入大语言模型的知识推理能力,重点在于设计场景表征接口,以在开放词汇目标导航任务中实现对未知类别的有效识别 [10]
直击IROS现场:宇树禾赛自变量杭州论剑,美团C位攒局
具身智能之心· 2025-10-23 08:03
美团战略与场景落地 - 公司战略已从"零售"升级为"零售 + 科技",零售是场景,科技是赋能 [9][10] - 具身智能是未来5到10年核心技术范式,公司关键词是autonomy(无人化),旨在构建真正的"具身智能网络" [13][14][17] - 公司是全国唯一获得民航局许可在所有城市合法飞行且夜间也能飞的无人机运营商 [16] - 无人机可送汉堡披萨,无人配送车能从北京到深圳,机场酒店园区场景有小黄蜂承担闪购配送 [15][20] 技术理论框架与创新 - 港大席宁教授提出GAT模型,即生成对抗转导,让机器学习模型和解析模型彼此纠错循环迭代,实现生成性博弈 [25][26][28] - 提出非向量空间控制理论,在感知空间中直接控制,机器人行动不再依赖精确轨迹规划,而是从视觉听觉中直接感知下一步 [29][32] - 提出感知控制框架,感知信息实时介入控制指令,实现"Planning and control in perceptive frame" [33][34] - 基于香农采样定理探讨在采样不足时如何有效控制,为算力受限数据不完备场景提供思路 [35][36] 硬件基础设施与产业逻辑 - 禾赛创始人李一帆强调专注基础设施是支撑行业发展的关键,硬件开发存在质量性能成本的不可能三角 [38][39][42] - 降本关键是自己掌握关键部件并优化设计,而非压榨供应商,公司自2017年起每年投入数亿元自研核心技术 [45][46] - 在软硬不解耦环境下,中国创业者凭借强大供应链和制造能力有望快速抢占市场,这可能是未来20年最好的机会 [48][49] 具身智能的本质与模型构建 - 自变量机器人CEO王潜认为具身智能不是把大模型塞进机器人,也不是AI应用,而是平行于虚拟世界的物理世界基础模型 [50][52] - 物理世界基础模型需要端到端训练和统一模型应对多样任务,核心是数据为中心,强调高质量真实数据而非单纯增加数据量 [54][55][57] - 通才模型是未来通用机器人核心,可通过学习物理规律实现few-shot learning,真正人工智能基点是物理基点 [58] 圆桌讨论:第一性原理与软硬件协同 - 具身智能第一性原理尚未收敛,有观点提出"牛顿加辛顿"模型,结合物理规律约束与神经网络学习能力 [60][63][64] - 另一观点提出"三原论"智能闭环,由欲望(目标驱动)—先验(内在结构)—经验(现实反馈)共同组成 [65][66][72] - 软件需要硬件别太脆别太热别太容易坏,硬件认为AI越强对硬件要求越低,但当前AI不够强仍需高稳定性硬件 [82][84][86] - 软硬件关系是螺旋式迭代,未来关键在于实现软硬一体融合设计,而非谁先行 [88][90] 数据驱动与模型驱动路径 - 模型驱动方式可解释可控但覆盖面有限,数据驱动覆盖面更广且可能催生新理论,但需要"好数据"而非"多数据" [92][93] - 当前机器人研究学生更多转向数据驱动,因其成果更可见,智能自动化需机器能自己"挖数据矿"实现采集训练闭环 [95][96] - 纯粹依赖数据拟合动力学系统不现实,需结合物理规律如流体力学多体动力学,才能让具身智能具备稳健性 [100] 理想机器人形态与未来展望 - 理想机器人形态包括能踢足球进行综合考场训练,计划205年机器人足球队与人类世界杯冠军对抗 [102][103] - 其他理想形态包括拥有好奇心能自我制造,与人类完美共生实现绿色智能节能高效,以及最终实现AGI用于生产消费娱乐和星际探索 [105][108][109] - 当前是年轻人最幸运时代,有机会定义智能,再早无算力再晚市场已被占据 [110]
刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠
具身智能之心· 2025-10-23 08:03
ICCV 2025会议概况 - 国际计算机视觉大会ICCV于10月22日揭晓年度奖项,该会议是全球计算机视觉三大顶会之一,每两年举办一次[2][5] - 本届会议共收到11,239份有效投稿,最终录用2,699篇论文,录用率为24%,论文数量相比上一届有大幅增长[5] 最佳论文奖:BrickGPT - 最佳论文奖由卡耐基梅隆大学获得,论文标题为《Generating Physically Stable and Buildable Brick Structures from Text》,由知名学者朱俊彦带领团队完成[3][7][9] - 该论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接积木装配模型的方法[11] - 研究团队构建了包含47,000多个积木结构的大规模数据集StableText2Brick,并训练了自回归大型语言模型来预测下一块积木[13] - 方法引入了有效性检查和基于物理约束的回滚机制,实验结果显示其有效性达100%,稳定性达98.8%,平均积木稳定性为0.996,全面优于基线模型[20][22] 最佳论文提名奖 - 同样来自卡耐基梅隆大学的论文《Spatially-Varying Autofocus》获得最佳论文提名奖,该研究突破了传统镜头成像规律,能够构建可任意调整景深的计算镜头[24][26] 最佳学生论文奖 - 最佳学生论文奖由以色列理工学院的《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》获得,该论文提出了一种无需反演的新型图像编辑方法[27][28][30] - FlowEdit通过构建常微分方程直接在源图像分布与目标图像分布间建立映射路径,实现了更低的传输成本和更高保真度的编辑,在Stable Diffusion 3和FLUX模型上取得SOTA效果[32][34] 最佳学生论文提名奖 - 德州大学奥斯汀分校的《RayZer: A Self-supervised Large View Synthesis Model》获得最佳学生论文提名奖,该模型在训练时无需任何3D监督信息即可学习3D感知能力[36][38] Helmholtz Prize(测试方法奖) - 该奖项表彰在计算机视觉基准测试中的贡献,获奖论文包括Ross Girshick的《Fast R-CNN》和何恺明等人的《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》[39][41] - 《Fast R-CNN》提出了用于目标检测的快速区域卷积网络,显著提升了训练和测试速度[39] - 何恺明等人的论文引入了PReLU激活函数和He初始化方法,并首次在ImageNet上达到超越人类水平的分类性能[41] Everingham Prize(严谨评估奖) - 该奖项表彰对社区有重大贡献的研究者,获奖团队包括人体3D模型SMPL的团队和VQA数据集团队[44][46] - SMPL模型以参数化方式精准表示人体姿态与形状,被广泛应用于动画、虚拟人及生成式AI中[44] - VQA数据集结合了图像理解与自然语言问答,推动了多模态AI在视觉理解和语言推理方向的研究[46] 研究者个人奖项 - Significant Researcher Award授予David Forsyth和Michal Irani,表彰其研究显著推动了计算机视觉领域进展[48][53] - Azriel Rosenfeld终身成就奖授予Rama Chellappa,表彰其在人脸识别、运动分析、3D建模等领域的奠基性贡献[54][57]
星际硅途发布FoldPlanet-500数据集,开启智能叠衣机器人新纪元
具身智能之心· 2025-10-23 08:03
公司产品发布 - 星际硅途推出Fold Planet-500折叠星球衣物折叠数据集 专为训练和评估下一代智能叠衣机器人、衣物折叠算法及计算机视觉模型而打造的核心资源库 [3][4] - 数据集包含500+小时高质量、多样化的叠衣任务实例 覆盖不同衣物和不同折叠阶段 [7] - 数据集发布即包含500小时以上高质量叠衣任务实例 数据采集过程标准化以降低数据处理成本 [7] 数据集核心价值 - 数据集价值在于真实场景与专业动作 包含绝大部分常见衣物类型的专业级折叠流程 由专业人员在真实场景执行验证以确保动作合理性和真实性 [5] - 提供多模态数据并实现精准对齐 包括多角度高分辨率视觉感知数据、全身31节点动作捕捉数据以及步骤化自然语言语义标注 [6] - 多模态数据适配预训练、微调和评测多环节 是训练模型理解动作意图和执行步骤的黄金数据 [6] 产品应用场景 - 应用于智能家居机器人 为家用服务机器人提供核心衣物折叠技能学习数据 加速实现洗衣-烘干-折叠-收纳全流程自动化 [9] - 应用于商业自动化场景 如大型洗衣工厂和酒店布草处理中心 以提升衣物后处理效率和标准化程度 [9] - 推动计算机视觉研究 包括衣物状态识别、精细动作理解和多步骤任务规划等前沿技术发展 [10] - 为机器人学习与模仿提供宝贵真实世界演示数据 支持模仿学习和强化学习等算法 [11] - 服务于AI助手与虚拟教学 为开发衣物整理教学APP或AR/VR应用提供标准化动作分解指导 [12] 公司背景与定位 - 上海星际硅途技术有限公司成立于2025年4月 2025年9月入驻上海人形机器人孵化器 [14] - 公司是具身智能数据解决方案服务商 致力于通过动作捕捉+视觉感知+语义标注的多模态技术进行真实场景下的人类数据采集 [14] - 公司目标是建立通专融合、覆盖千行百业的数据生态 推动具身智能数据行业宽度和深度的发展 促进具身智能大模型的快速迭代 [14]
智元机器人亮相IROS 2025 :国际挑战赛圆满收官,全系产品实战演示圈粉
具身智能之心· 2025-10-22 20:00
公司技术实力与产品展示 - 公司在IROS 2025大会上展示了全系列产品矩阵,包括精灵系列、灵犀X2和远征A2,通过实机演示呈现技术落地成果 [2][3][4] - 精灵G1在物流场景实现全程无人工干预的全自动供包操作,并能通过采集作业数据持续训练“见过即会”的场景泛化能力 [4] - 精灵G2首次线下公开亮相,配备两条7自由度机械臂,额定负载达5kg,可实现亚毫米级高精度力控作业,并具备3自由度腰部和2自由度腿部设计以复刻人类动作 [4] - 灵犀X2展示了高自由度运控能力和多模态交互能力,能准确识别语音指令并配合表情与肢体语言实现自然互动 [6] - 远征A2依托虚拟仿真环境中的学习训练数据,无需预先调试即可实现从感知、决策到执行的端到端闭环作业 [6] 行业生态构建与影响力 - 公司与OpenDriveLab联合主办了首届“AgiBot World Challenge @ IROS 2025”国际挑战赛,设置Manipulation和World Model两大赛道,总奖池高达56万美元 [9] - 赛事吸引全球5大洲、23个国家、431支顶尖战队参赛,覆盖高校及研究机构等创新主体,Manipulation赛道决赛有11支队伍晋级线下对决 [9] - World Model赛道聚焦“让AI预见物理世界”,参赛者基于公司开源的数据集和基线模型探索创新,形成多项技术突破 [11] - 公司通过产品演示和主办国际赛事,以“技术+生态”双轮驱动战略推动具身智能技术的规模化应用和产业融合 [12]
宇树最新机器人发布:1米8大高个,能跳舞会功夫,就是颜值一言难尽
具身智能之心· 2025-10-22 14:02
产品发布与定位 - 公司发布第四款人形机器人Unitree H2,定位为仿生人形机器人,旨在为每个人安全友好地服务而生 [2][13] - H2身高180厘米,体重70公斤,比同身高的H1机器人重了23公斤 [2] - 产品外观设计宽肩窄腰,电池和控制板需集成在胸膛内 [3] 产品规格与技术参数 - H2全身拥有31个自由度,相较于H1的19个自由度有显著提升 [14][16][25] - 与公司其他型号相比,H1售价65万元,G1售价9.9万元,R1售价3.99万元,H2价格尚未公布 [14] - 产品形态更接近真人,外观上增加了仿生人脸,是相较于前作的最大变化 [5][6] 功能演示与性能表现 - 官方宣传视频展示了H2的三种能力:跳舞、功夫和走秀 [20] - 在功夫演示中,H2表现出色,重拳出击,其表现力、稳定性和协调性与130厘米高的G1机型几乎无异,显示出公司在机器人鲁棒性和协调性技术方面的提升 [28][32][33][34] - 在走秀演示中,H2穿上衣服后走路姿态协调自然,戴上帽子后从背面看很有仿生人感觉 [34][36][38] 市场反应与用户反馈 - 产品仿生人脸设计引发讨论,被指神似电影《我,机器人》中的NS-5机器人,但部分用户认为其外观诡异,可能引发恐怖谷效应 [8][10][11] - 有用户对H2的舞蹈表现提出意见,认为其动作像喝醉的人乱比划或像没有情感的僵尸在跳舞 [25][26] - 部分用户期待产品功能能向洗衣服做家务等实用方向靠拢 [38]