具身智能之心
搜索文档
如何构建通用具身导航大模型?
具身智能之心· 2025-11-20 08:03
通用导航大模型研究背景与行业痛点 - 当前具身智能的导航研究多受限于特定任务与特定机器人平台,阻碍了通用智能的发展[2][5] - 面对非结构化、高动态环境以及需要语言理解的复杂任务,传统导航系统已难以满足需求[2] - 导航大模型的出现将导航算法从专用能力拓展至通用智能移动能力,为具身智能落地开启新路径[2] 核心模型技术演进 - 跨任务导航大模型Uni-NaVid旨在突破任务局限性[2][5][6] - 跨本体导航大模型NavFoM进一步实现了跨机器人平台的通用性[2][5][6] - 技术演进路径从解决跨任务问题推进到解决跨本体问题[2][5] 实际应用场景 - 模型技术已成功应用于视觉避障、城区微出行与智能跟随等实际场景[2][5] - 具体落地应用案例包括TrackVLA++、UrbanVLA和MM-Nav[6] - 应用场景覆盖从室内避障到室外城区出行等多个领域[2][5][6]
适配简单、效率高!U-Arm:你的具身通用遥操臂来啦~
具身智能之心· 2025-11-19 18:00
产品核心定位 - 专为具身智能研究与多场景遥操作需求打造的高性价比解决方案,旨在解决传统遥操设备“适配难、成本高、效率低、封闭化”的痛点 [1][4] - 通过“稳定、普适、生态”三大优势,赋能科研教育领域高效落地 [4] 核心优势 - **稳定可靠**:采用关节双轴固定设计解决松动隐患,主体使用4mm壁厚光固化树脂材料,兼顾轻量化与抗冲击性 [7][8] - **超强普适**:兼容市面上95%商用机械臂,提供3种硬件结构遥操臂,控制逻辑统一,无需二次开发即可快速连接,实现即插即用 [7][8] - **生态完善**:配套真机遥操与ROS仿真例程,轻松搭建“采集-训练-验证”全流程,支持多模态遥操数据同步记录 [7] - **极致性价比**:传统专用设备如GELLO动辄数万美金,该产品定价仅为1999元/件,大幅降低方案门槛 [8] - **完全开源**:硬件、软件完全开放,支持二次开发,满足科研团队的定制化需求 [8] 应用场景 - **科研数据采集**:适配模仿学习模型训练,助力具身智能研究高效推进 [7] - **教育实践教学**:可模拟抓取、装配等场景,帮助学生理解主从控制逻辑,提升机器人实际操作能力 [7] 产品竞争力对比 - **操作体验**:相比传统手柄/VR方案的反直觉和易眩晕,该产品提供“手把手”自然操作,生成平滑运动轨迹,新手可快速上手 [11] - **适配能力**:传统方案1台设备仅对应1款机械臂,该系统3种构型覆盖95%主流机械臂,实现1臂多用 [11] - **数据采集效率**:较传统方法提升39%,高质量数据采集支持高性能模型训练 [11] - **成本投入**:传统专用设备需数万美金,该方案仅1999元/件,包含全套配件 [11] - **扩展性**:传统系统封闭难以二次开发,该方案硬件软件完全开源,支持科研教学定制 [11] 适配机械臂清单 - **Config 1**:适配Xarm6, Fanuc LR Mate 200iD, Trossen ALOHA等 [11][12] - **Config 2**:适配Dobot CR5, UR5, ARX R5*, AUBO i5等 [11][12] - **Config 3**:适配Franka FR3, Franka Emika Panda, Flexiv Rizon, Xarm7等 [11][12] - 对于5自由度机械臂如SO-100、XLeRobot,可通过忽略joint4指令使用Config 1构型适配 [8][15] 定价与交付 - 每件定价1999元,构型三选一 [18] - 交付包含U-Arm本体、7根舵机连接线、ZLink控制板、桌面夹,无额外隐性成本 [8][18]
调研一下!你们最想关注具身的哪个方向?
具身智能之心· 2025-11-19 12:01
研报筹备与调研 - 公司正在为具身行业起草一份综合性研报 预计明年第一季度公布[1] - 研报内容覆盖多个模块 包括具身公司融资、产业、政策、算法、落地、出口等方向[1] - 为确定研报侧重点 公司发起一项涵盖多个板块的快速调研 填写仅需10秒[2] 研报关注领域 - 国内具身产业与政策发展情况[4] - 国外具身产业发展现状[4] - 具身公司融资进展与业务状况[4] - 具身数据采集相关领域[4] - 具身算法优化与部署技术[4] - 机器人边缘芯片领域[4] - 具身智能下游产业发展[4] - 具身产业人才结构与需求分析[4] - 具身公司上市辅导等相关服务[4]
全球首个量产绳驱AI机器人公司完成数亿元A++轮融资!
具身智能之心· 2025-11-19 08:34
融资与资金用途 - 公司于2025年11月18日完成数亿元A++轮融资,由国科投资和蚂蚁集团联合领投,多家财务机构及产业资本跟投,老股东锦秋基金继续追投 [2] - 2025年4月,公司曾连续完成数亿元A轮及A+轮融资,蚂蚁集团连续多轮领投,华兴资本担任A++轮独家财务顾问 [2] - 本轮融资将重点用于研发人才梯队建设、绳驱本体的规模化制造准备、多场景解决方案深化与产业化能力提升 [2] 技术平台与产品优势 - 公司是全球首个实现绳驱AI机器人量产的企业,产品采用独特的绳驱传动设计,模拟人类肌腱的丝滑运动与精密力控特性 [4] - 绳驱技术具备高拟人表现力、高动态响应与高交互安全等先天操作优势,特别适合复杂灵巧操作和人机交互协作场景 [4] - 公司提出Design for AI的软硬件底层架构,绳驱技术能提供低摩擦、高跟随、连续力域,避免传统刚性传动的力控信息丢失 [6] - 公司已构建“顶尖本体-领先遥操-高效模型”具身智能全栈平台,并在IROS顶会上展示了升级平台,包括半身商用机器人Astribot S1-U、超远程数字分身遥操作系统及更新版DuoCore全身VLA模型 [6] - 公司于2025年6月攻克绳驱量产难关,实现多个月批量稳定交付,比OpenAI投资的绳驱机器人公司1X至少领先一个周期 [6] 商业化进展与合作伙伴 - 公司已获得数千台订单,在科研、文旅文娱、商业服务、工业物流等高价值场景实现部署 [9] - 2025年11月15日,公司与金马游乐达成战略合作,推出新一代文旅文娱机器人系列产品,是国内人形机器人在该领域最早一批规模化订单 [9] - 全球首个由绳驱AI机器人全自主运营的零售服务店“机器人MART”在中山落地,AI主理人可全自主完成语音接待、下单支付、小食制作等复杂操作 [9] - 2025年9月2日,公司与全球最大控制器系统厂商仙工智能签约,获得国内最早一批工业领域规模化订单 [9] - 公司与字节跳动、腾讯、百度、央视、京东等多行业头部客户合作,推动产品在多场景加速落地 [10] - 公司积极构建开放科研生态,与Physical Intelligence、MIT、清华大学、香港大学、字节跳动AI Lab等国内外顶尖团队合作 [10] 管理层与投资方观点 - 公司创始人兼CEO来杰强调具身智能发展需要AI+机器人、软件+硬件协同发展,公司坚持全栈自研,围绕“本体—遥操—模型”长期积累 [14] - 国科投资董事总经理周晓峰认为公司是市场稀缺的具备量产绳驱本体能力的具身智能企业,全球领先,国内唯一,其VLA模型及机器人的动态性、柔顺度和同步性独树一帜 [14] - 锦秋基金合伙人臧天宇看好公司基于高拟人度、高柔性绳驱机器人平台,推进L2和L4两套方案场景落地,加速建立真实场景的数据闭环 [14] - Bloom Advance Capital管理合伙人杜鹤群博士指出公司以类肌腱创新绳驱技术“材料+算法”为核心,通过独创“本体-数据-模型”全栈架构,在工业、文娱、医疗等多场景推动具身智能与物理世界深度融合 [14]
具身机器人的大脑和小脑分别负责哪个任务?
具身智能之心· 2025-11-19 08:34
具身智能行业概述 - 具身智能是通用人工智能(AGI)的关键方向,强调智能体与物理环境的交互与适应,使其具备感知环境、理解任务、执行动作并反馈学习的能力 [1] - 具身智能的核心模块包括大脑(负责思考感知和任务规划)和小脑(负责高精度运动执行) [1] 国内外产业布局 - 近2年,星海图、银河通用、逐际动力等明星团队从实验室走向商业和工业界,推动具身本体和大小脑技术进步 [3] - 华为于2024年底启动"全球具身智能产业创新中心",与乐聚机器人、大族机器人等企业合作建设具身智能大脑、小脑等关键技术 [5] - 京东自2025年5月以来连续投资智元机器人、千寻智能、逐际动力等公司,以强化物流科技与家庭服务场景的效率与服务能力 [5] - 腾讯、蚂蚁集团、小米等科技巨头也积极通过战略投资与合作布局,加快构建具身智能产业生态 [5] - 国外方面,Tesla/Figure AI在工业与物流机器人应用上持续推进,美国投资机构积极支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人 [5] - 国内企业以产业链投资与综合平台驱动具身智能落地,国外科技巨头侧重基础模型、模拟环境与类人机器人原型研发,双方加速进入关键竞赛阶段 [5] 技术演进路径 - 第一阶段技术研究聚焦抓取位姿检测,通过点云或图像预测末端执行器姿态实现静态物体抓取,但缺乏对任务上下文和动作序列的建模 [6] - 第二阶段进入行为克隆阶段,机器人借助专家演示数据学习从感知到控制的端到端映射,具备模仿人类完成复杂任务的能力,但泛化能力弱、误差累积 [6] - 第三阶段兴起Diffusion Policy方法,通过扩散模型生成整个动作轨迹,提升策略稳定性与泛化能力 [6] - 2024年进入Vision-Language-Action模型阶段,融合视觉感知、语言理解与动作生成模块,支持零样本或小样本快速泛化,体现从"感知+控制"向"感知+推理+行动"的范式跃迁 [7] - 2025年业界探索VLA模型与强化学习、世界模型、触觉感知等模块融合,提升长时任务试错能力、环境动态预测能力和多模态融合感知能力 [9][11][12] - 技术演进从低层感知到高层理解,逐步迈向通用任务和开放环境的智能体时代,推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地 [14] 工程与系统能力需求 - 随着产业界重视,具身智能从"论文"走向"部署",对工程能力提出更高要求 [19] - 工程能力需求包括在Mujoco/IsaacGym/Pybullet等平台完成策略训练与仿真测试,训练并部署Diffusion Policy/VLA/力触融合的VLA模型,实现强化学习在VLA后训练上的应用,以及实现从世界建模预测到策略学习再到物理执行的一体化具身智能架构 [19]
1299元起!戴盟发布视触觉新品+端侧AI平台,为具身精细化操作提供更优解!
具身智能之心· 2025-11-19 08:34
公司概况与行业定位 - 公司为具身智能头部企业,孵化于香港科技大学,由国际机器人权威专家联合创立[4] - 公司自2023年正式运营至今已完成累计数亿元的多轮融资,创下全球视触觉领域融资新高[4] - 公司拥有原创的单色光视触觉传感技术路线,区别于美国麻省理工学院主导的传统三色光方案,构建了技术护城河[4] 技术优势与产品演进 - 公司技术解决了传感器算力要求高、发热量大、耐用性差的行业痛点[4] - 2025年4月公司发布全球首款多维高分辨率高频率视触觉传感器系列,产品发布两个月内即完成全球千片级量产并销往欧美地区[4] - 2025年11月公司推出全新一代视触觉系列产品,在丰富度、稳定性、精细度、智能水平四个维度有显著进步[1][4] 新一代产品核心特点 - 产品线更丰富:推出DM-Tac W2视触觉传感器,大号感知面积提升55%,中号厚度减少20%,并推出锋刃传感器和指尖产品以适应多元场景[6] - 产品稳定性更高:成为全球首款防尘防水视触觉传感器,超越IP65国际标准,抗电磁干扰能力持续提升[8] - 感知更精细:具有三维超高分辨率,可输出精准六维力信息,新增微米级纹理识别功能[10] - 智能化提升:端侧AI计算平台DM-Flux可同时接入五路触觉传感器,算力模块即插即用[12] 市场策略与未来展望 - 新一代视触觉系列产品以1299元起的定价亮相,定位"不止触觉",致力于打造极致用户体验[2] - 公司致力于研发含视觉、触觉和语言的操作模型,为具身智能、智能制造等领域提供创新性解决方案[14] - 公司计划于年内发布新一代"以人为中心"的穿戴式遥操作数据采集设备[14]
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练
具身智能之心· 2025-11-19 08:34
文章核心观点 - Physical Intelligence团队提出了一种名为RECAP的通用强化学习方法,旨在使视觉语言动作模型能够通过在实际部署中收集的经验数据进行自我改进 [4] - RECAP方法通过整合演示数据、自主执行数据以及专家远程干预数据,采用优势条件机制对VLA模型进行训练,从而显著提升模型在复杂任务上的性能和鲁棒性 [4][7] - 实验结果表明,采用RECAP方法训练的模型在衣物折叠、纸箱组装和咖啡制作等高难度任务中,任务吞吐量提升超过两倍,同时任务失败率降低约50% [4][10][28][30] RECAP方法概述 - RECAP是一种基于经验与校正的优势条件策略强化学习方法,其核心流程包括数据采集、价值函数训练和优势条件训练三个步骤 [11] - 该方法首先通过离线强化学习在多样化多任务数据集上预训练通用VLA模型,随后利用机器人现场收集的数据进行下游任务的性能优化 [4][7] - 在部署阶段,机器人根据任务执行结果获得稀疏奖励反馈,并可接受专家干预以修正错误,所有这些数据都被整合到后续的训练迭代中 [7][12][22] 模型架构与技术细节 - RECAP基于VLA模型进行实例化,该模型源自模型,并增加了基于二值化优势值的条件调控能力,使其适用于强化学习训练 [14][16] - 模型采用知识隔离训练流程,能够通过流匹配灵活表示分块动作分布,并生成用于高级策略推理的中间文本 [15] - 价值函数采用670M参数的视觉语言模型作为骨干网络,其训练目标是根据片段级成功标签预测成功完成所需的步数,奖励函数设计确保失败片段具有低价值 [17][19] 实验任务与性能评估 - 评估任务涵盖三大类:衣物折叠、咖啡制作和纸箱组装,每项任务均涉及复杂的多步骤操作,持续时间在5到15分钟之间 [23][24][25] - 在衣物折叠任务中,模型需要处理多种物品,评估最具挑战性的纽扣衬衫折叠,成功标准为500秒内正确折叠并堆叠 [24] - 咖啡制作任务要求使用商用意式咖啡机完成双份浓缩咖啡的全套流程,成功标准为200秒内完成且无严重错误 [25] - 定量结果显示,RECAP方法在所有任务上均实现吞吐量和成功率的大幅提升,其中多样化衣物整理和咖啡制作任务的吞吐量增加超过两倍 [28][30] 迭代优化与对比分析 - 通过多轮RECAP迭代,模型性能持续改善,衣物整理任务迅速达到高成功率,而纸箱组装任务的成功率则保持稳定增长 [32] - 与AWR和PPO等其他策略提取方法相比,采用RECAP的模型在衣物整理任务上展现出显著的吞吐量优势 [35] - 在针对特定故障模式消除的实验中,RECAP方法仅需相对较少数据即可有效调整策略行为,消除在严格标准下的失败模式 [35] 应用部署与未来方向 - 经过RECAP训练的模型已实现实际部署,包括连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时,以及在工厂场景中组装实际包装纸箱 [10] - 未来改进方向包括实现奖励反馈和任务重置的自动化、开发更复杂的探索机制,以及将当前的迭代式离线更新模式扩展为完全并行的在线强化学习框架 [36]
61岁贝佐斯创业物理AI!亲任CEO,首轮获投62亿美元融资
具身智能之心· 2025-11-19 08:34
贝佐斯创立新公司Project Prometheus - 前世界首富贝佐斯创立新公司Project Prometheus并亲自担任联席CEO [2][6] - 公司已获得62亿美元(约合人民币440亿元)的雄厚资金支持 [3][8] - 员工规模达上百人,包括从OpenAI、DeepMind等顶级人工智能公司招募的研究人员 [9] 公司业务与技术方向 - 研究项目包括将人工智能应用于机器人、药物设计和科学发现等物理任务 [9] - 明确将重点放在计算机、汽车、航空航天等高科技领域 [9] - 技术目标是开发比现有聊天机器人(如ChatGPT)学习方式更复杂、能够从物理世界中学习的AI模型 [11] - 技术焦点与贝佐斯将人类送入外太空的兴趣相吻合,其曾深度参与蓝色起源公司 [10] 联合创始人背景 - 另一名联席CEO是物理学家兼化学家Vik Bajaj,为斯坦福医学院兼职教授 [12] - Bajaj拥有宾夕法尼亚大学生物化学学士和硕士学位,MIT物理化学博士学位,并在UC伯克利从事博士后研究 [14] - 曾与谷歌联合创始人谢尔盖·布林在谷歌X研究机构紧密合作,并参与创立Alphabet旗下的生命科学研究实验室Verily [14][15] - 2018年创立人工智能和数据科学孵化公司Foresite Labs并担任CEO,近期已离开以全身心投入新公司 [16][17] 物理AI行业竞争格局 - 物理AI领域已有OpenAI、谷歌和Meta等行业巨头在研究相关技术 [18] - 来自Meta、OpenAI和谷歌DeepMind的离职研究人员共同创立了Periodic Labs公司,获得3亿美元支持,目标是构建“AI科学家”和自主实验室 [19] - 资本和顶尖人才正加速汇流,大型科技公司及其离职人员创立的初创企业在该领域展开激烈角逐 [21]
从投稿来看,具身方向的论文已经出现了堆积.......
具身智能之心· 2025-11-18 18:00
研究领域与方向选择 - 具身智能研究活跃方向包括视觉语言导航、视觉语言行动、强化学习以及真实到仿真再到真实的循环方法 [1] - 人形机器人研究热点集中在强化学习与真实仿真循环方法 若实验室具备相关机器人本体可优先考虑这些方向 [1] - 机械臂本体适合开展视觉语言行动、视觉语言行动结合强化学习以及扩散策略的研究 其中视觉语言行动方向普遍对计算资源要求较高 [1] - 四足机器人平台非常适合强化学习研究 但该领域创新点已相对有限 因已有较多研究工作完成 [2] - 移动操作是结合视觉语言导航与视觉语言行动的潜在优秀研究方向 [3] 研究挑战与资源考量 - 新入行研究者面临方向选择困惑 例如在强化学习与视觉语言行动之间 或传统SLAM与视觉语言导航之间难以抉择 [1] - 研究方向选择需考虑计算资源需求差异 某些方向需要较大算力而有些则不需要 充足算力是快速产出实验结果的必备条件 [1] - 研究者需根据预算选择适合的机器人本体 预算不足时可考虑采用仿真方案替代 [1] - 优秀研究想法的产生对新研究者而言充满挑战 往往需要经历多次试错 [3] 专业服务与支持 - 提供从CCF-A到CCF-C级别会议 以及SCI一区到四区期刊的论文辅导服务 覆盖毕业论文和博士申请支持 [3] - 辅导团队由来自国内外名校博士及头部企业研究员组成 具备ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议投稿与审稿经验 [3] - 服务提供全流程闭环辅导 涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略 [4] - 辅导结合工业界与学术界双重视角 不仅关注论文发表 更注重研究成果的落地应用价值 [5]
Physical Intelligence团队正式发布π*0.6!VLA+强化学习训练达到实际可用的鲁棒性水平
具身智能之心· 2025-11-18 11:38
RECAP方法概述 - Physical Intelligence团队提出RECAP方法,使视觉语言动作模型能够通过强化学习在现实部署中实现自我改进[4] - RECAP方法通过优势条件机制实现VLA模型的强化学习训练,整合异构数据到自我改进过程,包括演示数据、在线收集数据以及专家远程干预数据[4][7] - 该方法首先通过离线强化学习预训练通用型VLA模型,随后通过机器人现场数据收集实现下游任务的专业化性能提升[4] 技术实现细节 - RECAP方法包含三个核心步骤:数据采集、价值函数训练和优势条件训练,通过重复执行这些步骤优化基础VLA模型[11] - 在数据采集阶段,系统运行VLA执行任务并为每个任务周期标注结果标签,可选择引入人工干预来为早期迭代中的错误提供修正范例[12] - 价值函数训练利用收集的全部数据训练大型多任务价值函数,该函数能检测故障并预估任务完成所需时间[13] - 优势条件训练在VLA前缀中加入基于价值函数推导优势值的最优性指标,提供从次优数据中基于价值函数提取更优策略的有效方法[13] 模型架构改进 - 基于VLA模型实例化RECAP,该模型是在基础上的升级版本,采用了更大型的主干网络和更多样化的条件机制[8] - 模型新增了基于二值化优势值的条件调控能力,使其能够通过价值函数来优化策略[8][14] - 基础视觉语言模型采用Gemma 3 4B模型,动作专家的规模增加到860M参数[19] - 价值函数采用670M参数视觉语言模型backbone,从Gemma 3初始化,并在少量多模态网络数据的混合集上联合训练以防止过拟合[20] 实验性能表现 - 在衣物折叠、咖啡制作和纸箱组装任务中,采用完整RECAP方法训练的模型实现任务吞吐量提升超过两倍[4][29] - 在高难度任务中,RECAP将任务失败率降低约50%,相当于故障率降低超过两倍[4][31] - 模型达到实际可用的鲁棒性水平:成功部署连续制作浓缩咖啡达13小时,在新环境中折叠陌生衣物持续运转超过两小时无中断[10] - 在工厂场景中组装实际包装所用纸箱的任务也展示了稳定的成功率表现[10][31] 训练流程优化 - 预训练阶段在多样化多任务多机器人数据集上进行离线强化学习,该数据集包含来自大量任务和不同机器人的数万小时示范数据[8][13] - 部署阶段采用迭代式离线更新模式,收集数据批次后重新训练模型并循环进行,而非实时更新策略与价值函数[23][37] - 价值函数和策略均从预训练检查点微调,而非上一轮迭代的模型,这有助于避免多轮迭代中的漂移[23] - 即使一轮迭代也能带来显著的结果改进,但随着RECAP方法迭代次数的增加,任务吞吐量实现持续提升[23][31]