Hi Robot

搜索文档
快慢双系统成为具身智能主流技术路线?10家企业的差异、特性都在哪?
机器人大讲堂· 2025-10-02 08:34
机器人快慢双系统架构核心观点 - 机器人领域借鉴人类认知的"双系统理论",采用快慢双系统架构以解决高频精准控制与复杂高层任务规划难以在单一系统中兼顾的核心矛盾[1] - 快慢系统解耦实现独立升级AI算法而不改动底层稳定控制框架,降低系统开发复杂性[1] - 该架构将长链条端到端模型拆分为视觉语言模型和动作执行两个模型,实现功能解耦与真异步并行,避免机器人因思考而卡顿[4] - 机器人快慢双系统架构已成为实现高级别机器人智能的主流范式,但在具体实现上呈现百花齐放局面[5] 代表性企业技术方案 - **Figure AI Helix**:采用系统1(快思考)和系统2(慢思考)双系统架构,系统1为8000万参数Transformer模型以200Hz频率执行闭环控制,系统2为70亿参数预训练视觉语言模型以7-9 Hz频率传递潜在向量[6][7] - **PI Hi Robot**:分层交互式机器人学习系统通过协同训练技术融合多机器人知识源,慢系统视觉语言模型理解复杂指令全局意图并分解子步骤,生成可解读中间指令[9][10] - **智平方 GOVLA**:由空间交互基础模型、慢系统和快系统组成,慢系统基于大规模参数视觉语言模型负责高层次语义理解,快系统实时生成可执行动作,首次实现机器人全身协同控制和移动轨迹端到端输出[12][13] - **星海图 G0**:构建全球首个开放场景高质量真机数据集涵盖500小时时长、150个任务、50个场景,采用三阶段渐进式课程学习策略,仅需不到100条特定任务演示数据即可快速掌握复杂新技能[15][16] - **擎朗智能 KOM2.0**:慢系统基于视觉语言模型通过K-Infinity数据集实现服务场景环境感知,快系统采用动作专家模型利用大量真机数据训练,开创性提出岗位化垂域模型KEENON ProS实现快速落地[18][19] - **星动纪元 ERA-42**:采用高层次规划与低层次控制双系统架构,慢思考世界模型使用70亿参数视觉语言模型进行任务预演生成未来动作预测,快思考高频执行系统使用4000万参数Transformer模型实现抗干扰能力[21][22] - **节卡 JAKA EVO**:慢系统实现快速任务解析与规划,通过轻量模仿学习机制在交付后能通过少量示教快速迁移适配新场景,打破传统机器人需要数周调试困境[25][26] - **微亿智造**:通过云、边、端三层技术架构实现快慢思考,基于超过15TB、包含超过10亿条精标数据点的真实工业场景数据库,实现开箱即用[28] - **魔法原子 原子万象**:快系统基于高效动作专家模型处理毫秒级实时控制,慢系统由参数规模更大
蚂蚁、字节押注后,“腾讯系”人形机器人创企再迎技术、商业化重大突破!
Robot猎场备忘录· 2025-06-09 12:24
公司商业化进展 - 星尘智能与深圳市养老护理院达成深度战略合作,聚焦AI养老机器人研发、多模态数据训练及智慧照护系统落地,探索具身智能技术在生活辅助、健康监测、情感陪伴等养老场景的创新应用[3] - 旗下轮式仿生机器人Astribot S1成为国内首个进入养老护理院的人形机器人[4] - 公司于2024年12月30日开启Astribot S1预售,并为客户配置丰富套件和开发工具,与头部高校、企业、数据中心等合作落地实践[16] 技术突破 - 自研VLA大模型DuoCore系统实现重大更新,采用快慢系统架构,具备「本能反应+深度思考」双智能模式,显著提升抗干扰能力、泛化性和自适应性[6] - DuoCore采用高度仿人的知识迁移机制,实现跨场景「元技能」迁移,降低新技能学习数据成本[8] - 首创"Design for AI"软硬件一体化架构,实现视觉、触觉、力觉等多模态数据交互,在ICRA大会上展示0延时遥操体验[9] 行业趋势与竞争格局 - 国际电工委员会发布全球首个养老机器人国际标准IEC 63310,护理和陪伴机器人成为产业发展重点[4] - 具身智能领域双系统架构VLA模型成为主流,Figure AI、Physical Intelligence、英伟达等均推出同类技术[8] - 星尘智能是首家与Physical Intelligence战略合作的人形机器人公司,并获科技大厂投资认可[9][16] 产品性能 - Astribot S1单臂自由度7个,末端速度超10m/s,额定负载10公斤,负载自重比1:1,重复定位误差仅30微米,性能超越普通成年男性[11] - 搭载Physical Intelligence的机器人基础模型π0,定位为"新一代AI机器人助理"[13] 融资与资本动态 - 2025年4月完成A轮及A+轮数亿元融资,由锦秋基金(字节系)、蚂蚁集团领投,道彤资本、云启资本跟投[14] - 科技大厂加速布局具身智能赛道,华为、美团、腾讯、京东等通过投资加码入局[16] 战略定位与团队背景 - 公司愿景为"让数十亿人拥有AI机器人助理",核心团队6人来自腾讯RoboticsX实验室,兼具AI与机器人工程化能力[10] - 创始人兼CEO来杰曾任职百度小度机器人团队负责人及腾讯RoboticsX嵌入式组组长[10] 行业前景与挑战 - 陪伴型机器人预计三年内进入家庭,护理型机器人五年内有望催生万亿级市场[4] - 养老场景对机器人泛化性要求极高,目前仍处于早期阶段,需解决安全性、感知算法等技术瓶颈[18] - 人形机器人商业化需突破算力、算法、数据、硬件、工程化等多维瓶颈,具备自研大模型能力的企业更具竞争优势[17][19]
顶级专家带队,这家创企宣布万台人形机器人量产计划!
Robot猎场备忘录· 2025-05-15 14:35
核心观点 - 智平方发布全栈自研全域全身具身智能大模型Alpha Brain和新一代仿生机器人AlphaBot 2,具备从桌面到开放环境、从单臂到全身、从简单到长程任务的能力 [1][3] - Alpha Brain采用GOVLA架构,整合空间交互基础模型、慢系统(System2)和快系统(System1),实现复杂逻辑推理与实时动作控制 [5] - 公司首次将DeepSeek技术融入VLA大模型,提升长程复杂任务理解能力,并与优必选科技等企业共同推动双系统架构VLA模型成为行业主流 [5][8] - AlphaBot 2搭载Alpha Brain,具备34+全身自由度、0-240cm垂直工作范围和6h+续航能力,适配汽车制造、半导体等多场景任务 [7][8] 技术架构 - GOVLA大模型由空间交互基础模型、慢系统(System2)和快系统(System1)组成,慢系统负责复杂逻辑与任务拆解,快系统控制实时动作 [5] - 双系统架构技术路径将VLA拆分为VLM和动作执行模型,解决传统VLA数据采集难和长期规划问题,提升复杂场景适应性 [13] - 智平方是国内最早研发端到端VLA模型的企业,其RoboMamba模型在未见任务泛化能力上超越Google RT系列模型 [14] 商业化进展 - 公司已签约多家车企和高端制造企业,2024年实现数千万收入,并提供AI2R Brain MaaS订阅服务,计划按"智能操作工时"收费 [20] - 与吉利科技晶能微电子合作研发半导体制造机器人,与华熙生物开发生物科技领域智能解决方案 [24] - 目标2028年实现万台应用,2030年达成百亿级营收,2033年拓展至百万台规模 [20] 融资与行业动态 - 2025年完成Pre-A+轮数亿元融资,投资方包括敦鸿资产、云启资本等,此前Pre-A轮由达晨财智领投 [25] - 具身智能赛道吸引车企和自动驾驶领域人才创业,它石智航等公司完成亿级融资,行业进入融资热潮 [22][23] - 行业共识认为全栈自研是核心竞争力,智平方等具备AI+本体能力的企业更受资本青睐 [26][27] 创始团队背景 - 创始人郭彦东为国家级创新领军专家,曾任小鹏汽车首席科学家和OPPO首席科学家,具备AI与硬件复合背景 [17] - 副总裁邱巍拥有清华大学和德国高校背景,曾在西门子工作13年,后加入驭势科技任高管 [17] - 核心团队来自微软、小鹏、OPPO及清华、北大等顶尖高校,覆盖AI、机器人、智能终端领域 [18]
Physical Intelligence 创始人:人形机器人被高估了
海外独角兽· 2025-03-28 19:51
文章核心观点 - 通用机器人是AGI从数字世界走向物理世界的重要路径,robot foundation model旨在为机器人构建大脑以实现通用能力 [3] - Physical Intelligence(PI)被视为机器人领域的OpenAI,专注于开发通用机器人的foundation model,近期开源了通用模型π0并推出分层推理系统Hi Robot [3][10][26] - 实现机器人泛化的核心在于获取多样化数据而非仅追求数据质量,需扩大真实机器人数据规模并优化跨平台数据共享 [12][17][18] - 人形机器人形态当前被高估,未来机器人形态将呈现多样化"寒武纪大爆发",物理智能才是AGI核心 [4][22][36] Chelsea Finn机器研究的开端 - 研究始于10年前伯克利博士阶段,早期探索神经网络控制将图像像素直接映射到机器人扭矩,当时属非主流方向 [6] - 关键挑战在于让机器人在不同环境/物体间泛化任务能力,如拧瓶盖、挂衣架等基础操作 [6] - 研究路径涉及构建广泛数据集,结合强化学习、模仿学习等方法,曾在Google Brain工作并创立斯坦福实验室 [7] PI的研究进展和发展 - 目标构建可控制任何机器人执行任何任务的神经网络模型,突破传统单一任务优化局限 [10] - 采用跨平台数据整合策略(六轴/七轴/单双臂机器人),最大化数据复用价值以解决硬件迭代导致的数据废弃痛点 [10][12] - 2023年10月展示复杂任务能力(叠衣/清理/纸箱搭建),当前重点扩展语言交互与环境泛化能力 [13][15] - 技术架构依托Transformer和预训练Vision-Language Model,利用互联网知识迁移(如Taylor Swift案例) [15][16] 机器人实现AGI的路径 - 短期难预测具体应用场景,需探索人机协作模式降低容错要求,语言交互是重要突破方向 [21] - 运动控制蕴含进化级智能,基础操作(倒水/做麦片)实际具有极高复杂性 [23] - 关键里程碑研究:SayCan(语言模型规划)、RG2(网页数据集成)、RT-X(跨机器人形态训练)、Aloha(远程操作训练) [24] Hi Robot系统设计 - 分层推理架构:高层模型处理任务规划(如"拿起番茄"),低层模型转换为具体动作指令 [26] - 解决长周期任务执行与实时交互需求,已实现三明治制作/购物/清理等场景 [28] 传感器与硬件发展 - 当前依赖视觉(RGB摄像头)已取得显著进展,手腕摄像头可部分替代触觉传感器 [29] - 嗅觉/味觉等冗余传感器虽有益但非优先级,当前瓶颈在于数据处理与记忆功能开发 [30] - 未来硬件将趋向场景专用化(厨房/折叠衣物等),形成多形态共存的生态系统 [36][37] 自动驾驶与机器人领域对比 - 机器人操作空间维度更高(14维vs自动驾驶2D),精度要求更严但分布问题范围较小 [31] - 初创公司优势在于快速迭代部署,大公司受限于安全规范难以实现多样化数据收集 [34] 训练数据方法论 - 人类观察数据(如YouTube)价值有限,机器人需从自身物理经验中学习运动控制 [35] - 数据泛化能力取决于分布广度,通过建筑物/场景数量等指标粗略评估 [36] - 自动化经验与强化学习结合是提升数据价值的关键路径 [35]