Workflow
具身智能之心
icon
搜索文档
上交&ai lab团队联合提出MM-ACT:一个统一的VLA模型实现感知-规划-执行的高效协同
具身智能之心· 2025-12-02 17:30
文章核心观点 - MM-ACT模型通过统一多模态表征、差异化并行解码和上下文共享学习三大创新设计,有效解决了机器人操作领域“通用性”与“高效性”的平衡难题[1][3][27] - 该模型在模拟与真实场景中均展现出超越现有方案的性能,平均成功率高达96.3%,在长序列任务中提升5.0%[13][14] - 模型实现了文本规划、图像预测和动作生成的高效协同,推理延迟低至0.22秒,支持40Hz高频率动作输出[10][19] 技术架构创新 - 采用统一多模态表征空间,将文本、图像、机器人状态与动作编码为离散token,消除模态壁垒[6] - 设计差异化并行解码策略:文本/图像采用重掩码并行解码保证质量,动作采用单步并行解码满足实时需求[8][10] - 创新上下文共享学习范式,通过双阶段训练实现跨模态正向迁移[9][11] 性能表现 - 在LIBERO基准测试中平均成功率96.3%,超越UniVLA(95.5%)和DreamVLA(92.6%)等基线模型[13] - RoboTwin2.0跨域任务平均成功率52.38%,较单动作训练提升9.25%,显著优于To(48.13%)和OpenVLA-OFT(23.13%)[14] - 真实机器人实验在3个实物操作任务中平均成功率72.0%,优于对比模型[15] 跨模态协同价值 - 文本-动作联合训练使动作生成成功率提升3.37%[16][17] - 图像-动作联合训练带来5.62%的成功率提升[16][17] - 三模态联合训练实现1+1+1>3的效果,验证跨模态信息互补性[17] 效率优化 - 单步并行解码配置实现0.22秒推理延迟,平衡效率与精度[19][20] - 动作块大小8的配置支持40Hz高频率动作输出[10][19] - 重掩码解码虽提升精度但耗时增至1.06秒,最终选择单步解码满足实时需求[19] 应用场景拓展 - 在双臂机器人复杂操作场景表现优异,如Place Burger Fries任务成功率73%[22][25] - 自动化文本标注生成70k训练样本,无需人工干预[25] - 为工业分拣、家庭服务等规模化落地场景提供重要技术参考[27]
担心买得起机械臂,玩不转代码?小白友好,你的第一台科研机械臂
具身智能之心· 2025-12-02 17:30
产品定位与目标用户 - 产品为面向具身智能科研领域的轻量级高性价比机械臂,专为新手和科研初学者设计 [5] - 目标用户包括学生、教育工作者及刚踏入机器人领域的开发者,旨在帮助其低成本、高效率地完成算法验证与项目开发 [6] 核心价值主张:解决行业痛点 - 传统具身科研实战中,70%的时间耗费在调试硬件通信、校准传感器以及手动在仿真与真机间移植代码 [1] - 算法迭代一次需要数天才能看到真实效果,研发效率低下 [1] - 该产品通过提供全流程工具链,将工作流转变为在Gazebo中快速仿真验证,并可一键部署至真机进行精细化调优,实现从“灵感”到“物理动作”的高效迭代 [2][20] 产品关键性能参数 - 机械臂本体重量为4.2千克,额定负载为3千克,具备6个自由度 [11][22][24] - 工作半径为612.5毫米,重复定位精度达到±0.1毫米 [11][22][24] - 供电电压为24V,通讯方式采用CAN,控制方式支持轨迹跟踪、示教和API [11][22] 核心产品优势 - 提供从数据采集、模型训练到推理部署的全流程开源工具链和代码示例,支持视觉、力控等多模态数据融合,并兼容TensorFlow、PyTorch等主流框架 [7][20][39] - 提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动,实现仿真验证后一键部署至物理设备 [20][25] - 同时提供Python和C++双语言开发接口,并兼容ROS1与ROS2,降低开发者上手门槛 [7][21][22] - 提供完整的开源软件开发工具包(SDK),包含驱动程序、API接口、示例代码与文档 [32][33] 售后服务与支持 - 提供24小时快速售后响应,确保用户遇到问题不卡壳 [7] - 产品交付周期为1至2周,非人为损坏质保半年 [51][52] - 产品已适配Realsense D435系列、奥比中光DCW2等相机,并逐步适配更多开源模型如lerobot、act、robotwin等 [53]
竟速机器人“母港”! 2026具身智能首展,3月杭州集结!
具身智能之心· 2025-12-02 11:03
行业市场规模与增长前景 - 2025年中国具身智能市场规模预计逼近53亿元,占全球份额超过25% [3] - 市场预计在2026年突破200亿元,并指向2030年全球8700亿元的广阔蓝海 [3] - 技术奇点临近,核心零部件不断突破成本极限,大模型为机器人注入"常识",应用场景从"可行"迈向"好用" [5] 杭州产业生态优势 - 杭州已集聚700余家产业链关键企业,贯通从"大脑"研发到"本体"制造的全链条 [6] - 依托领先的算力数据与科研网络,孕育出"杭州六小龙"等行业标杆,实现技术攻关到商业落地的高效耦合 [6] - 全国率先为具身智能立法,以"数字经济第一城"的基因构建最优产业发展生态圈 [6] 2026第三届中国具身智能机器人产业大会暨展览会概况 - 展会将于2026年3月11-13日在杭州国际博览中心举办,展览面积30,000平米 [8] - 汇聚500+参展企业与30,000+专业观众,由十余家权威机构联合组织 [8] - 构建"会、展、技术、趋势"四位一体的产业核心生态场 [8] 展会产业链覆盖范围 - 展品范围涵盖从灵巧手、力矩电机等核心零部件到完整的人形机器人、特种机器人的全产业链 [14] - 具体包括动力系统、控制与计算、感知系统、执行与驱动、软件与算法等关键环节 [16] - 致力于打通从原材料、核心零部件到整机与系统集成的全产业链 [14] 参会企业与机构规模 - 吸引包括越疆、智元等在内的500+家产业链核心企业 [20] - 汇聚50+家顶尖行业协会与科研院校 [20] - 历届参会品牌涵盖华为、优必选、宇树科技、达闼等行业领军企业 [27] 大会同期活动与议题设置 - 大会将汇聚逾500位顶尖学者、产业领袖与投资大咖,以及5000名资深业界精英 [29] - 议题纵贯产业链,深度解构从"大脑小脑肢体"技术突破到千行百业场景实践 [29] - 同期举办5场专题峰会,包括产业链协同峰会、核心技术创新论坛等,总规模达2400人 [31][32] 产业年度颁奖盛典设置 - 2026中国具身智能产业年度颁奖盛典以"AI智行·共启机器人新纪元"为主题 [38] - 设立十大卓越整机品牌、十大创新整机品牌、十大关键部件技术突破奖等七大奖项 [38][39][41][42][43][44][45][47] - 评选维度涵盖品牌创新力、技术突破性、供应稳定性、投资价值等关键指标 [39][41][42][43][44][45][47] 媒体传播与后续展会规划 - 通过全媒体精准引流,实现展前深度种草、展中高效交易匹配、展后持续内容曝光 [48] - 合作媒体涵盖中国机器人网、OFweek、机器之心等50余家行业权威媒体 [51] - 2026年还将在上海和大湾区举办第四届和第五届具身智能机器人产业大会 [55]
IPO辅导收官!A股首个人形机器人正式开启冲刺
具身智能之心· 2025-12-02 11:03
公司上市进展 - 2025年11月29日,宇树科技向浙江证监局提交更新后的IPO辅导进展报告,辅导状态正式转为“辅导工作完成” [2] - 公司已成功通过中国证监会关于A股上市的前期合规审查,即将迈出提交招股说明书的关键一步 [2] - 公司有望成为“A股人形机器人第一股” [2] 公司商业模式与业务状况 - 公司采用“四足机器人业务实现盈利 + 人形机器人业务加速拓展”的双轮驱动商业模式 [2] - 核心业务围绕四足机器人展开,已形成清晰的客户群体划分,涵盖B端工业应用与C端消费市场,并建立了稳定且可持续的收入流 [4] - 人形机器人业务正处于积极的研发推进及小批量试产阶段 [4] - 公司业务布局集中,边界清晰,不存在盲目跨界经营或业务多元化导致的资源分散问题 [4] 公司财务与行业意义 - 自2020年起,公司已步入盈利轨道,未出现持续亏损或业绩剧烈波动等影响财务健康的突出问题 [3] - 研发支出的资本化处理及收入确认等关键会计操作均严格遵循相关会计准则,财务数据真实准确 [3] - 若成功上市,公司将成为A股市场上首个以“实际盈利”为特征的人形机器人企业 [2] - 这对于验证整个行业的估值逻辑、引导市场理性认知具有里程碑式的意义 [2] 行业竞争态势 - 国内人形机器人企业的“上市竞速赛”正进入白热化阶段 [2]
转具身最好的机会在昨天,其次是现在...
具身智能之心· 2025-12-01 18:00
文章核心观点 文章旨在推广一个名为“具身智能之心”的付费知识星球社区,该社区定位为国内首个具身智能全栈技术交流平台,通过系统性地整合行业资源、技术路线、学术进展与产业信息,为从业者、研究者和学生提供一站式学习、交流与求职服务,以加速具身智能领域的人才培养与技术发展 [1][9][17] 行业资源与公司梳理 - 社区已梳理了行业内从事具身大脑和本体研发的公司,以及活跃的具身智能实验室,帮助成员判断行业趋势与升学选择 [1] - 社区汇总了涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向的国内外具身智能相关机器人公司 [23] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [31] - 社区成员包括来自近**200**家具身公司与机构的专业人士,以及近**3000**名具身领域成员 [17][85] 科研与开发本体推荐 - 推荐了数款适合科研的机器人本体产品,包括SO-100系列、openarm系列和XLerobot系列 [2] - SO-100系列及其升级版本能够运行VA和VLA算法,实现常见功能 [2] - Openarm是一款双臂任务框架,已有公司开始生产相关本体,能完成叠衣服、pick and place等任务,但其VR版本在数据采集中体验更佳 [4] - XLerobot具备一定的移动能力,适合入门科研与个人开发,可适配移动操作任务 [6] - 对于资金充足的开发者,可参考方舟无限、星海图、宇树等公司提供的更高成本开发平台 [8] 技术路线与算法研究 - 社区收拢了广泛的技术研究方向,包括VLA(视觉-语言-动作)模型的训练、无需训练方式、与强化学习(RL)结合、与世界模型结合、轻量化及部署等 [9] - 其他研究方向涵盖VLN(视觉语言导航)、运动控制(强化学习、MPC、WBC)、仿真(通用与真实)、触觉感知等 [9] - 社区整理了全面的技术学习路线,包括但不限于:具身智能感知、交互、强化学习全栈、VLN、VA/VLA、多模态大模型理解与生成、Diffusion Policy、多传感器融合、机械臂抓取与策略学习、双足/四足机器人、大模型部署、sim2real等超过**20**个具体路线 [13][18][43][44][46][48][50][52][54][56][58][60][62][64][66][68][71][73][75] 社区内容与知识库 - 社区提供持续的直播分享,内容覆盖从本体、数据到算法的圆桌论坛,探讨行业现状与待解决问题 [11] - 直播分享目录包含超过**15**个大类,如数据采集、灵巧手、VLA模型、VLN模型、多传感器融合、机器人操作系统、协同感知、机器人模型、Sim2Real、具身世界模型、触觉感知、大模型与规划推理、推理加速、模型微调等,具体细分话题超过**50**项 [12] - 社区汇总了**近40+**个开源项目、**近60+**个具身智能相关数据集,以及行业主流仿真平台 [18][33][39][41] - 社区汇总了国内外具身智能知名高校实验室,供成员读研、申博参考 [20] - 社区汇总了大量行业研报,帮助成员了解大模型、人形机器人等领域的发展与工业落地情况 [1][25][26] - 社区汇总了机器人导航、概率机器人、动力学与运动学等多个方向的PDF书籍,供基础学习 [29] - 社区汇总了国内外知名ToF与3D相机厂家的产品与技术资料 [35] - 社区汇总了数据采集相关的遥操作、动作捕捉、AR等方案,以及多个领域的开源数据集 [37][39] 求职与产业对接 - 社区与多家具身公司建立了岗位内推机制,可帮助成员将简历第一时间送达目标公司 [17] - 社区提供具身智能相关工作岗位推荐,并第一时间对接企业 [21] - 社区提供行业机会挖掘、投资与项目对接服务 [21] - 社区内部设有问答板块,成员可就工作选择、研究方向等问题提问并获得解答,案例显示有资深成员为研一学生提供方向与文献推荐 [77]
港理&清华等首个具身程序性综述:让机器人从第一人称视角学习步骤、纠错与问答
具身智能之心· 2025-12-01 18:00
文章核心观点 - 文章提出构建第一人称视角程序性AI助手(EgoProceAssist)的概念,旨在通过可穿戴设备辅助人们完成日常程序性任务,例如烹饪、装配等 [6] - 该研究首次系统性地总结了构建此类助手所需的三大核心技术任务:第一人称视角程序性错误检测、程序学习和程序问答,填补了现有综述的空白 [1][2] - 通过补充实验验证,现有主流视觉语言模型和AI代理在辅助程序性任务方面表现不足,存在巨大发展空间 [7][8][23] 核心技术任务分类与总结 - **第一人称视角程序性错误检测**:根据输入数据模态划分为仅需视频数据的方法和需要多模态数据的方法,程序性错误检测不同于视频异常检测,它关注于步骤序列中的特定顺序约束 [9][11] - **第一人称视角程序学习**:按照监督水平划分为无监督、弱监督和自监督三大类,其核心目标是识别出对实现目标真正重要的关键步骤序列,过滤无关动作 [14][15][16] - **第一人称视角程序问答**:根据算法结构分为以大型语言模型为固定推理引擎的方法和专门训练理解第一人称视角视频的模型两类,后者能更好地捕捉细微的视觉差异和时空关系 [17][19][20] 补充实验发现 - **程序性错误检测实验**:在CaptainCook4D数据集上,传统方法EgoPED的精确度为56.5,EDA为69.8,而主流VLM如Video-LLaVA的精确度为40.1,EDA为60.8,显示出现有模型识别程序性错误的能力有限 [25][26] - **程序学习实验**:在EgoProceL数据集的电脑装配任务中,传统方法RGWOT的F1分数为43.6,IoU为28.0,而AI代理Vinci 7的F1分数仅为14.1,IoU为7.5,表明现有方法在关键步骤识别和时间定位上准确性不足 [27][28] 行业面临的挑战 - **数据稀缺**:现有第一人称视角视频数据集场景单一,缺乏多样性,且与程序性任务相关的细粒度动作标注较少 [29] - **理解能力有限**:现有模型难以捕捉程序性活动中的逻辑和时间依赖关系,在计算效率、语义理解和多模态信号整合方面存在困难 [30] - **实时性不足**:严重依赖人工标注限制了在真实世界环境下的实用性,目前很少有方法能在实时在线环境中有效运行 [31]
带硬件!最全的VLA实战教程来啦
具身智能之心· 2025-12-01 11:12
VLA技术发展现状 - 具身智能领域高度依赖硬件本体,算法性能与硬件紧密相关,仿真和互联网数据在泛化性能上无法保证,许多公司坚持采用真机数据路线[2] - 近2年来VLA技术框架快速发展,从ACT到OpenVLA,再到π0、π0.5、π0.6系列,新方法层出不穷且性能持续提升,基于强化学习的优化方案使VLA模型运行更加流畅[4] - 开源硬件本体多样化,支持各类研究需求,包括SO-100机械臂、openarm双臂操作系统、XLeRobot移动操作平台等[4] VLA落地技术挑战 - 完整打通数据采集、VLA模型训练优化和部署全流程存在较大困难,初学者可能花费半年时间仍无法有效入门[6] - 数据采集主要采用模仿学习和强化学习方法,模仿学习包括遥操作、VR和全身动捕捉三种方式,机械臂领域多采用前两种,如何保证数据质量和实现real2sim2real是关键问题[8] - 模型训练需要先进行仿真调试,在真机数据不足时sim2real技术尤为重要,使用mujoco、Isaac Gym等框架,训练技巧对结果影响显著,不同算法难度差异大[10] - 部署阶段需要进行模型轻量化处理,即使2B参数规模的模型对边缘芯片也是挑战,必须通过量化、蒸馏等技术在保证性能的同时最小化参数量[12] 教育培训解决方案 - 针对VLA技术快速迭代的特点,推出了国内首个面向实战与求职的VLA小班课,涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、部署等完整内容[14][16] - 课程配备SO-100机械臂硬件套装(包含示教臂和执行臂),由拥有5年以上机器人行业实战经验的VLA高级研究员授课,具备IEEE Trans系列顶级期刊发表经验[22][26] - 目标学员包括求职者、VLA入门进阶人员、高校学生及转行人员,要求具备Python和Pytorch基础,推荐使用3060以上显卡进行推理,2张以上3090ti进行训练[27] - 课程于2025年12月30日开课,共九章内容,学完后可掌握真机调试与数据采集、VLA算法部署、模型量化等技术,达到1-2年算法工程师经验水平[28][30][31]
VLA+RL方案的部署落地如何啦?
具身智能之心· 2025-12-01 11:12
直播活动概览 - 具身智能之心公众号举办线上直播活动,主题为“VLA与RL的真机部署 如何更好落地” [5] - 直播时间为12月6日19:30,可通过扫描二维码免费观看 [16] - 活动将围绕VLA算法与RL落地问题展开讨论 [3] 核心讨论议题 - VLA的架构和模型现存痛点分析 [8] - 提升机器人全身运动控制方案性能的进化空间探讨 [8] - VLA+RL技术如何更有效地部署到真实机器人硬件,包括硬件选型和轻量化实现方案 [8] 分享嘉宾阵容 - 隋伟:地瓜机器人算法副总裁 [9] - 张强:北京人形机器人首席研究员、学术委员会主任 [11] - 汪天才:原力灵机合伙人 [11] - 于超:清华大学博士,即将加入清华深研院任助理教授,担任主持人 [13] - Gloria:具身智能之心联创 [15] - 刘斯坦:知乎大V,全网拥有13万关注者的专业自媒体,深度流光CTO [15] 后续内容获取 - 直播完整版深度内容已独家上线知识星球「具身智能之心」,涵盖所有技术细节、QA及未公开彩蛋 [19] - 知识星球内容包含灵巧手设计与难题分析、Agent概念探讨、Spec-VLA推理加速框架、CMU跨实体世界模型等深度解析 [19]
炸了!ICLR 一键清零 rebuttal,全网研究者怒了
具身智能之心· 2025-12-01 11:12
ICLR审稿重置事件 - 国际机器学习顶会ICLR因系统漏洞被滥用,官方采取“强制重启”措施,将所有论文的领域主席重新分配,并将所有审稿意见与评分重置回讨论前状态 [2][3] - 此举导致大量作者在反驳阶段所做的努力被清零,例如有作者通过大规模补实验和长反驳将评分从4分提升至8分,但所有努力因重置而无效 [6] - 本届ICLR投稿量巨大,接近两万篇,评审意见超过七万份,此次重置使得整个评审工作量爆炸,所有参与者需重新适应新规则 [13] 学术社区反应与争议 - 事件引发国内外AI社区强烈不满,多位作者在社交平台控诉,认为这是对无辜作者的“连坐式惩罚”,因其并未参与利用漏洞却要共同承担后果 [4][8] - 有观点质疑会议组织者拥有完整的日志和元数据,应自行筛查可疑行为,而非采取“一刀切”的惩罚方式让所有人背锅 [8] - 部分作者担忧新上任的领域主席无法在短时间内妥善处理大量论文,例如有领域主席需接手二三十篇稿件,难以逐篇细读论文与反驳并做出公正裁决 [12] - 也有少数作者认为重置可能带来意外获益,例如之前遇到不回应反驳的审稿人,重置后大家回到同一起跑线,评分可能更为公平 [13] 对学术发表机制的反思 - 此次事件暴露了机器学习顶会发表机制的深层次问题,包括为追求论文数量而疯狂内卷,导致审稿质量不断下滑 [14] - 泄密与重置事件将原本就存在的评审系统问题赤裸裸地放大出来,引发了学术界对现有机制的广泛系统性悲观 [14]
ICRA 2026 | 首个真实世界场景的具身学习挑战赛!最高7万美金奖励
具身智能之心· 2025-12-01 11:12
赛事概况 - IEEE机器人与自动化顶会ICRA 2026官方赛事REAL-I首届具身智能挑战赛正式发布 [1] - 赛事由IEEE ICRA背书,乐聚机器人、北京通研院联合全球顶尖高校举办 [1] - 旨在推动具身智能与数据驱动机器人操作的前沿研究 [1][5] 赛事核心特点 - 赛事以真实工业任务为核心,挑战动态抓取、双臂协调等核心技术难点 [1] - 采用「仿真赛→真机赛」双阶段赛制,推动算法在现实挑战中持续进化 [1][15] - 最终模型将在乐聚智能的KUAVO-4 Pro全尺寸人形机器人上进行评估 [10][26] 赛事任务设置 - 任务一:快递包裹称重,包括拾取包裹、称重、检索和最终精准放置 [16][17] - 任务二:零件分拣,从传送带上拾取零件并放入正确的料箱中 [19] - 任务三:全周期托盘运输,移动到目标区域、拾取目标托盘、移动到正确区域并成功放置托盘 [21] 赛事资源与支持 - 提供工业级数据集,包含30,000+多模态轨迹,100小时数据,具备多模态特性 [11] - 提供全栈工具链,包括数据转换脚本、基线实现和综合文档 [13] - 获奖者有望瓜分9万美元奖池,冠军可获得价值7万美元的KUAVO-4Pro全尺寸人形机器人 [1][30] 赛事日程与学术价值 - 赛事日程从2026年1月1日持续至6月1日,最终阶段在ICRA 2026现场举行 [24][27] - 基于赛事平台和数据集发表的论文(前十名)每篇可获得500美元奖励 [32] - 参与者可借助赛事数据与真机验证成果,发表高价值论文 [1]