物理AGI
搜索文档
章鱼动力成立不足2月即完成近5000万美元首轮融资,下一轮融资同步推进
IPO早知道· 2026-03-20 10:52
公司融资与团队背景 - 公司于2026年1月成立,并于成立不足两个月内完成近5000万美元的首轮融资[2][5] - 本轮融资由地平线、高瓴创投、小米战投、顺为资本和线性资本共同投资,资金将用于核心技术研发、数据体系建设和人才引进[2] - 公司下一轮融资正在同步推进,并持续获得国际产业资本、家族资本与顶级美元资本的关注与支持[5] - 公司团队汇聚了来自地平线机器人、百度、微软、阿里、字节跳动、蔚来、小鹏、理想等顶尖科技公司的研究人员、工程师与领导者,是一个具备世界级AI研发能力且经过软硬件全链路量产洗礼的AI原生团队[3] 公司使命与战略定位 - 公司是一家以物理AGI(通用人工智能)为使命的前沿科技公司,致力于打造可持续自进化的具身智能生产力[3] - 公司认为真正的具身智能不仅在于理解世界,更关键的是在真实物理环境中完成操作任务并形成执行闭环[7] - 投资方认为公司投身物理AI是一条“难而正确的路”,其技术站位和面向终局的判断与地平线的技术信仰高度一致[14] - 投资方看好公司所代表的产业方向和长期价值,认为物理AI是下一代智能终端演进的关键方向,而家庭场景是其中最重要的战略高地之一[14] 核心技术体系:SYNTH深思架构 - 公司从第一性原理出发,提出了SYNTH深思架构,这是一套围绕操作智能、物理世界建模与数据体系协同演化的系统架构,而非单点技术[6][8] - **深思·执行 (SYNAction)**:公司首创REMA分频多尺度端到端操作架构,通过三层系统完成闭环[8] - System 2(低频)负责任务理解、认知推理与高层规划[9] - System 1(中频)负责动作策略生成,连接认知与执行[9] - System 0(高频)负责底层控制与精细交互执行[9] - **深思·世界 (SYNWorld)**:公司构建了VFT-WFM模型,将视觉、力觉、触觉统一纳入物理交互建模框架,使机器人不仅能感知“看到了什么”,更知道“如何完成操作、接触和施力”[10] - **深思·数据 (SYNData)**:公司构建了OPDS全模态物理数据系统,通过独特硬件和AI算法实现视、力、触等多模态物理信号的高精度采集与规模化生成,为模型持续进化提供数据支撑[12] 投资方评价与行业前景 - 地平线创始人余凯高度评价公司创始人是极少数能贯通前瞻研究、系统架构与工程实现的人才,并对团队充满信心[14] - 高瓴创投认为公司在具身智能爆发前夜展现了罕见的技术前瞻性,团队敢于打破路径依赖,实现了底层重构,构筑了极深的技术护城河[14] - 顺为资本认为公司凭借从底层物理规律出发的创新理念和SYNTH架构,突破了传统操作智能的局限,并指出其核心团队兼具前沿技术研发、顶级战略资本和全栈商业化闭环的复合能力[14] - 线性资本看好公司团队在AI改造物理世界道路上的靠谱与格局,以及其技术先进性和领导力[14] - 投资方普遍期待公司能成为定义下一代通用机器人技术范式的核心力量,并推动通用具身智能时代的到来[14]
「具身原生」元年!专访原力灵机汪天才,解析具身智能的「PyTorch时刻」
机器之心· 2026-02-10 16:52
文章核心观点 - 具身智能正从“大模型外挂机械手”的初级阶段,进入感知、决策与控制高度协同的“具身原生”时代 [9] - 原力灵机发布的开源具身原生框架Dexbotic 2.0及其与RLinf的战略合作,被定义为具身智能行业的“PyTorch时刻”,旨在通过标准化基建解决行业碎片化问题,降低开发门槛 [5][15] - 公司通过“框架孵化模型、模型驱动应用”的递进逻辑,构建了从底层框架(Dexbotic 2.0)、核心模型(DM0)到量产工作流(DFOL)的完整技术闭环,推动物理AGI发展 [51] 定义“具身原生”与行业痛点 - “具身原生”核心在于构建感知、决策与执行的高度闭环,包含数据原生、训练原生和框架原生三个层面 [15] - 当前行业痛点在于“大模型大脑+机器肢体”模式存在数字模型与物理世界的失配,机器人难以自主行动 [12] - 行业研发处于高度碎片化状态,开发者超过一半精力耗费在适配不同硬件接口、数据格式及仿真环境等底层工程上 [16] Dexbotic 2.0 框架详解 - **设计理念**:旨在终结模块化与端到端之间的摇摆,在架构上保持高度解耦的模块化设计,但底层数据流是纯正的端到端逻辑 [22] - **核心特性1 - 框架原生(模块化)**:系统拆分为视觉编码、LLM认知规划、动作专家三个可自由组合的模块,支持独立升级,但训练时形成整体 [31][33] - **核心特性2 - 框架原生(操作与导航统一)**:在一个框架下实现了视觉-语言-动作(VLA)与视觉-语言-导航(VLN)的统一,为“全身控制”奠定基础 [35][37] - **核心特性3 - 数据原生**:支持多模态互联网数据与具身数据的混合训练,让模型同时具备通用语义理解能力和可落地的操作技能 [39] - **核心特性4 - 训练原生(全流程标准化)**:建立了从数据采集、训练管线到仿真评测的标准化全流程,推出Dexdata统一数据格式,并深度适配多种主流仿真器 [45] - **核心特性5 - 训练原生(模仿学习与强化学习统一)**:通过统一框架打通从VLA策略初始化到强化学习后训练的闭环,集成了SimpleVLA-RL工具并与RLinf深度合作 [47] 核心模型DM0 - **定位与性能**:DM0是全球首个具身原生大模型,在RoboChallenge真机评测中获得单任务与多任务双项第一,位居全球榜单第一 [57] - **关键参数**:采用2.4B参数的轻量化设计,支持三视角728×728高分辨率输入,跨8种机型泛化,推理延迟约60ms,单机成功率达62.0% [57][58] - **技术特点**:引入了“空间推理思维链”机制,将环境感知、任务理解、运动规划与精细执行串联成闭环 [59] - **模型架构**:由一个VLM主干和一个基于流匹配(Flow Matching)的动作专家组成 [61] 量产工作流DFOL - **核心价值**:通过“硬件通用+模型智能”的模式,打破非标自动化与人工的边界,实现具身应用的批量落地 [62] - **关键创新**:构建了完整的数据回流机制,形成“云端训练-现场执行-数据回流-模型更新”的持续进化闭环,新任务可在两天内达到量产标准 [63][65] - **商业验证**:构建了评估落地的三大硬性指标:成功率、动作质量与节拍,作为商业价值的“铁三角” [66] 生态合作与开源战略 - **战略合作**:原力灵机宣布与由清华大学、无问芯穹支持的强化学习框架RLinf达成深度战略合作,双方分工明确,实现研发效率最大化 [68][69] - **融合计划**:公布了“Dexbotic & RLinf融合研发计划”,预计2024年5月支持大规模真机强化学习,6月发布深度耦合的通用具身框架 [69] - **开源生态**:坚定选择开源路径以汇聚行业力量,Dexbotic已汇聚包括清华大学、北京大学、普林斯顿大学、帝国理工学院、腾讯、通义千问等在内的全球化社区 [68][71] 未来展望与行业趋势 - **技术演进**:强调触觉、六维力等多模态传感信息深度融合的重要性,并计划开发包含听觉与语音交互的全模态模型 [74] - **发展愿景**:未来的机器人应像“灵巧的动物”一样,具备感知、理解空间和直觉反应的能力 [75] - **迭代速度**:具身智能发展正在显著加速,从Dexbotic 1.0到2.0仅三个多月,行业迭代速度几乎每周都有新发布 [75] - **现实预期**:对具身智能的近期期待是成为一个外形无威胁、能处理倒茶、擦桌子、聊天等简单事务的生活助手 [75]
3个月连融5亿!具身智能公司极佳视界完成2亿元A2轮融资,推出物理AGI的原生模型与原生本体
机器人圈· 2025-12-10 17:37
公司近期融资与业务进展 - 极佳视界于近期再获2亿元A2轮融资,由达晨财智领投,多家知名机构跟投[1] - 公司在3个月内连续完成4轮累计5亿元的A轮系列融资[1] - 公司已于2025年11月26日发布物理AGI原生本体,布局终端业务[1] - 公司产品矩阵包括世界模型平台GigaWorld、通用具身大脑GigaBrain、通用具身本体Maker等全栈软硬件产品[1] 行业趋势与公司战略观点 - 行业模型架构正向通用行动模型收敛,数据来源转向以真机数据与世界模型生成数据为核心,学习方式形成「模仿学习+强化学习+世界模型」的通用范式[2] - 世界模型正成为物理AGI在数据来源、学习方式与模型架构层面的核心驱动力[2] - 以“操作与上肢”为中心、能更好与物理世界交互的原生本体成为关键需求[2] - 公司认为物理AI正在进入关键时代,未来2-3年是物理AGI突破的关键窗口期,物理世界的“ChatGPT时刻”正在加速到来[2] - 原生模型和原生本体的深度结合是抵达上述目标的关键[2] 公司核心团队与技术背景 - 公司核心团队完整经历了过去十年物理AI的发展历程,在技术创新和产业落地上持续做出世界级成果[3] - 在CV时代,团队多次主导获得FRVT、COCO、VOT等全球最具影响力视觉AI比赛的世界冠军,并实现大规模产业落地[4] - 在自动驾驶时代,团队提出的BEVDet系列工作是全球最有影响力的自动驾驶BEV范式之一,长期排名nuScenes全球第一,并实现规模化量产落地[4] - 团队还主导了地平线AIDI平台等行业最大规模的数据闭环产品研发和商业落地,以及百度Apollo仿真框架的研发和商业化落地[4] - 在世界模型和具身智能时代,公司的DriveDreamer系列是全球最早的面向物理世界的世界模型代表性工作,并实现规模化量产落地[4] - 创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士学位,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人&算法副总裁,并拥有三星中国研究院、微软亚洲研究院等工作经历[4] 核心产品:物理AGI原生模型 - 公司已发布物理AGI原生行动模型GigaBrain-0,以及物理AGI原生世界模型GigaWorld-0[6] - GigaBrain-0是具身机器人的大脑,提供端到端的决策控制,支持图像、深度、文本、本体状态的输入,输出结构化的任务规划和运动规划[6] - GigaBrain-0重点提升了3D空间感知能力和结构化的推理能力,能够完成更精准的移动导航和更长序列的复杂操作,并且具备更强泛化性[6] - GigaBrain-0可以完成多项长程复杂任务,包括灵巧操作任务、长程任务和移动操作任务,其成功率显著优于现有SOTA方法[6] - GigaWorld-0是具身机器人的养料,提供高质量、大规模训练数据[7] - 通过几何一致、物理准确的世界模型建模,GigaWorld-0生成高保真、可控、多样化的具身交互数据,实现“数据放大”[7] - GigaWorld-0构建了最完整的具身数据体系,使得所训练的VLA模型在新纹理、新视角、新物体位置三大泛化维度上均实现近300%的性能提升[7] - 在PBench基准上,GigaWorld-0为所有对比模型中参数量最小,整体性能最高的世界模型,兼具卓越的生成质量与极致的推理效率[7][8] 核心产品:物理AGI原生本体 - 公司推出了原生本体Maker H01,这是一款高自由度具身智能机器人,采用双臂+移动底盘形态[9][13] - Maker H01可在家庭、工业、服务、科研等多种场景中执行取放物品、巡检、接待、协助实验等任务[13] - 其底盘为全向全驱,具备较高机动性与续航能力,单臂具备公斤级负载与多指手爪配置,整体更偏向“工程可用”的具身平台[13] - 该机器人提供约1.6米的成人身高版本,全身拥有二十余个自由度,配合多种传感器,能够完成精细的操作和柔顺运动控制[13] - Maker H01支持多种遥操方案,结合自研的具身大脑“GigaBrain”,使其在复杂动作中实现全身协同[13] - 搭配GigaBrain和GigaWorld的工具链,Maker H01可以快速在家庭、商业服务、轻工业等开放场景中以更低成本、更高成功率完成落地和任务泛化[12] 未来规划与商业进展 - 公司未来将持续迭代「世界模型+行动模型+强化学习」的物理AGI原生模型,加速研发适配具身大脑的物理AGI原生本体,同时推进标杆场景落地和通用场景布局[14] - 通过「原生模型-原生本体-通用场景」三位一体,加速走向物理AGI的“ChatGPT时刻”[14] - 公司已经和多个行业头部客户达成签约和量产合作,包括全球多个头部主机厂、多地人形机器人创新中心和实训场、多个具身方向头部工业/服务/家庭场景公司等客户[14]
达晨财智领投 极佳视界完成2亿元A2轮融资
新浪财经· 2025-12-08 23:14
公司融资与业务进展 - 具身智能公司极佳视界近期完成2亿元人民币A2轮融资 由达晨财智领投 老股东华控基金联合领投 并有首发展创投 浦耀信晔 财鑫资本 珠海科技产业集团 张科垚坤 复琢创投等机构跟投 老股东合鼎共资本超额跟投 [1][3] - 公司在3个月内连续完成Pre-A Pre-A+ A1及A2共四轮融资 累计完成5亿元人民币A轮系列融资 [1][3] - 公司已于2025年11月26日发布相应本体 布局物理AGI的终端业务 [1][3] 公司产品与技术布局 - 公司产品矩阵为物理AI全栈软硬件产品 包括世界模型平台GigaWorld(驾驶和具身) 通用具身大脑GigaBrain 通用具身本体Maker [1][3] - 公司技术采用“世界模型+行动模型+强化学习”的原生范式 其中每一环节均以世界模型为驱动 [1][3] - 公司认为以“操作与上肢”为中心 能更好与物理世界交互 数据优先的原生本体是关键需求 “传感器-执行器-数采设备-通用模型”之间可规模化的闭环迭代价值凸显 [2][4] 行业趋势与公司观点 - 行业模型架构正向通用行动模型(如VLA与世界行动模型)收敛 数据来源转向以真机数据与世界模型生成数据为核心 学习方式形成“模仿学习+强化学习+世界模型”的通用范式 [2][4] - 世界模型正成为物理AGI在数据来源 学习方式与模型架构层面的核心驱动力 [2][4] - 公司认为物理AI正在进入全新的关键时代 未来2-3年是物理AGI突破的关键窗口期 物理世界的“ChatGPT时刻”正在加速到来 [2][5]
3个月连融5亿!极佳视界A2轮获2亿,推出物理AGI原生模型与本体
36氪· 2025-12-08 15:56
公司融资与战略定位 - 具身智能公司极佳视界在3个月内连续完成4轮累计5亿元A轮系列融资,最新一轮为2亿元A2轮融资,由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投[2] - 公司定位为专注物理世界通用智能(物理AGI)的公司,目标是通过原生模型和原生本体的深度结合,实现物理世界的“ChatGPT时刻”[2][3] - 公司认为物理AI正进入关键时代,未来2-3年是物理AGI突破的关键窗口期[3] 产品与技术体系 - 公司产品矩阵包括世界模型平台GigaWorld、通用具身大脑GigaBrain、通用具身本体Maker等物理AI全栈软硬件产品[3] - 技术核心是“世界模型+行动模型+强化学习”的原生范式,其中世界模型是数据来源、学习方式与模型架构层面的核心驱动力[3] - 公司已发布并开源全球首个世界模型驱动的具身VLA大模型GigaBrain-0,以及行业领先的具身世界模型GigaWorld-0[4] 核心模型性能与优势 - GigaBrain-0是具身机器人的大脑,提供端到端决策控制,支持图像、深度、文本、本体状态输入,输出结构化任务和运动规划,其成功率显著优于现有SOTA方法[6] - GigaBrain-0重点提升了3D空间感知和结构化推理能力,能完成灵巧操作、长程任务和移动操作等多项复杂任务[6] - GigaWorld-0是具身机器人的养料,通过生成高质量、大规模训练数据实现“数据放大”,使VLA模型在新纹理、新视角、新物体位置三大泛化维度上均实现近300%的性能提升[8] - 在PBench基准上,GigaWorld-0是参数量最小(2B)、整体性能最高的世界模型,兼具卓越生成质量与极致推理效率[8][9] 硬件本体与产业化 - 公司发布了自研的全新一代物理AGI原生本体Maker H01,并已开启规模化量产交付[4] - Maker H01是一款高自由度具身智能机器人,采用双臂+移动底盘形态,拥有二十余个自由度,具备公斤级负载与多指手爪,适合家庭、工业、服务、科研等多种场景[14] - 该机器人搭配GigaBrain和GigaWorld工具链,可在开放场景中以更低成本、更高成功率完成落地和任务泛化[13] 团队背景与历史成就 - 公司核心团队紧密依托清华大学自动化系智能视觉实验室,完整经历了过去十年物理AI的发展历程[4] - 在CV时代,团队多次主导获得FRVT、COCO、VOT等全球最具影响力视觉AI比赛的世界冠军,并实现大规模产业落地[4] - 在自动驾驶时代,团队提出的BEVDet系列工作长期排名nuScenes全球第一,并实现规模化量产落地,还主导了地平线AIDI平台、百度Apollo仿真框架等产品的研发和商业化[5] - 在世界模型和具身智能时代,公司的DriveDreamer系列是全球最早的面向物理世界的世界模型代表性工作,并实现规模化量产落地[5] - 创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士学位,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人&算法副总裁,并在三星中国研究院、微软亚洲研究院等机构工作[5] 商业化进展与未来规划 - 公司已经和多个行业头部客户达成签约和量产合作,包括全球多个头部主机厂、多地人形机器人创新中心和实训场、多个具身方向头部工业/服务/家庭场景公司等[16] - 未来公司将持续迭代物理AGI原生模型,加速研发适配具身大脑的原生本体,同时推进标杆场景落地和通用场景布局,通过“原生模型-原生本体-通用场景”三位一体加速发展[16]
达晨、华控领投,极佳视界A2轮再融2亿,押注“世界模型+行动模型”原生架构
钛媒体APP· 2025-12-08 15:17
公司融资与团队背景 - 具身智能公司极佳视界在3个月内连续完成Pre-A、Pre-A+、A1及A2四轮融资,累计融资额达5亿元,其中A2轮融资2亿元 [2] - 本轮融资由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投,老股东合鼎共资本超额追加投资 [2] - 公司创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士背景,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人兼算法副总裁,并曾在三星中国研究院、微软亚洲研究院等顶尖科研机构工作 [2] - 创始人团队在过去十年深度参与并推动了物理AI从技术萌芽到产业落地的关键演进,带领团队在FRVT、COCO、VOT等全球最具影响力的视觉AI竞赛中多次斩获冠军,并实现多项技术的大规模产业化应用 [2] 核心技术优势与历史成就 - 在自动驾驶领域,公司团队提出的BEVDet系列方法已成为全球最具影响力的BEV感知范式之一,长期稳居nuScenes榜单首位,并已实现规模化量产 [3] - 团队主导了地平线AIDI平台(业内最大规模的数据闭环系统)以及百度Apollo仿真框架的研发与商业化落地,奠定了其在智能系统工程化方面的领先优势 [3] 行业趋势与公司战略判断 - 行业正加速向通用行动模型(如VLA与世界行动模型)演进,数据来源日益依赖真机实采与高保真世界模型合成,学习范式逐步统一为“模仿学习 + 强化学习 + 世界模型”的融合架构 [3] - 公司判断物理AI正迈入决定性突破的关键窗口期,未来2至3年将是物理AGI从实验室走向规模化落地的分水岭 [3] - 随着世界模型与行动模型的持续跃迁,属于物理世界的“ChatGPT时刻”正在加速到来 [3] - 公司面向具身智能新时代,率先提出“世界模型 + 行动模型 + 强化学习”的原生AGI范式,强调以世界模型为核心驱动力,贯通数据生成、模型训练与决策执行全链路 [3] 核心产品发布:模型与机器人平台 - 公司已正式发布两大物理AGI核心模型:原生行动模型GigaBrain-0与原生世界模型GigaWorld-0,并同步推出高自由度具身智能机器人平台Maker H01,共同构建端到端的具身智能系统 [4] - GigaBrain-0是一款基于视觉-语言-动作(VLA)架构的端到端决策控制模型,可融合图像、深度、文本及本体状态等多模态输入,输出结构化的任务规划与运动指令 [5] - GigaBrain-0重点强化了3D空间感知与结构化推理能力,以提升在复杂环境中的导航精度与长序列任务执行能力,具备更强的泛化性能 [5] - GigaWorld-0是公司自研的高质量世界模型,依托“GigaWorld”平台,通过几何一致、物理准确的建模机制生成高保真、可控且多样化的具身交互数据,实现高效“数据放大” [6] - GigaWorld-0构建了目前最完整的具身训练数据体系,在三大关键泛化维度(新纹理、新视角、新物体位置)上实现近300%的性能提升 [6] - 在PBench(Robot Set)基准测试中,GigaWorld-0以最小参数量实现最高整体性能,成为当前最具性价比的世界模型方案 [6] - Maker H01是专为家庭、商业服务与轻工业等开放场景设计的高自由度具身机器人,采用双臂 + 全向全驱移动底盘架构,全身拥有20+自由度,单臂支持公斤级负载,配备多指灵巧手爪 [6] - Maker H01标准版高度约1.6米,适配多种空间环境,适用于物品取放、巡检、接待、实验协助、仓储搬运等真实业务场景 [6] 产品性能与应用场景 - GigaBrain-0已成功应用于一系列高难度、长程的具身任务,在真实场景中展现出卓越的综合能力,能稳定高效地完成制作咖啡、叠衣服、整理卷纸、桌面清理、倒饮料、搬运箱子、拾取衣物等复杂任务 [5] - 在多项权威基准测试中,GigaBrain-0的任务成功率显著超越当前最先进的方法(SOTA) [5] - Maker H01不仅是可靠的作业平台,也是高效的算法验证载体,支持多种遥操作方案,并与自研“具身大脑”GigaBrain深度集成,实现抓取、搬运、协作等复杂动作的全身协同控制 [7] - 通过GigaBrain-0、GigaWorld-0与Maker H01的三位一体架构,公司正加速推动具身智能从实验室走向规模化落地,迈向真正“可用、可靠、可泛化”的物理AGI时代 [7]
智源发布具身数据创新基座,携手行业共筑物理AGI基础设施
具身智能之心· 2025-12-03 11:47
具身智能数据创新基座发布 - 2025年11月20日北京智源人工智能研究院发布具身数据创新基座包括智源具身一站式平台RoboXstudio、大型高质量双臂机器人真机数据集RoboCOIN、具身数据软件框架CoRobot [6] 具身智能数据发展挑战 - 面临数据孤岛挑战具身数据格式不统一标准缺失导致数据处理复杂工具链分散形成数据使用壁垒 [7] - 存在质控缺失挑战数据普遍存在丢帧卡顿静止帧关节信息不齐时间戳错位等记录问题以及动作过快过慢等操作问题 [7] - 面临成本难题挑战数据生成依赖大量人工操作与标注缺乏成熟平台支撑设备场地人力综合导致生产成本居高不下 [8] CoRobot具身数据软件框架 - 框架目标为定标准保质量提效率面向异构本体规范操作流程提升研发效率 [10] - 由5大组件构成包括泛本体数采工具支持接入各种本体和遥操作设备格式转换工具支持双向转换数据处理工具可处理丢帧卡顿等标注信息数据管理工具支持原子化存储可视化模型训推工具支持模型训练任务快速接入 [10] - 软件框架主页为https://github.com/FlagOpen/CoRobot [11] RoboCOIN双臂机器人数据集 - 数据集由智源研究院联合8家企业及多所高校共建具备本体数最多标注最精细使用最便捷三大优势 [14] - 涉及15款双臂机器人数据量达18万条覆盖工业家居零售等10多个场景 [16] - 完成轨迹级段级帧级三层次细粒度标注依托CoRobot实现开箱即用 [16] - 数据集主页为https://flagopen.github.io/RoboCOIN/ [16] RoboXstudio一站式平台 - 平台基于CoRobotFlagOS-RoboEmu3.5打造覆盖数据采集标注管理训练评测部署全流程 [19] - 具备更全面特点支持多类型机器人及人体数据采集覆盖全场景多样化任务 [22] - 具备更系统特点构建数采前配置数采中监控数采后管理闭环体系 [22] - 具备更智能特点集成开源框架与多模态大模型内置智能算子实现任务拆解数据扩增 [22] - 平台体验申请地址为https://ei2data.baai.ac.cn/home [20] 开源生态与行业协作 - 智源FlagOpen体系开源模型全球总下载量达6.9亿次截至2025年8月 [23] - 发布智源具身智能一站式平台社区版供免费使用CoRobot和RoboCOIN面向全社会开源 [23] - 以RoboCOIN为起点分享高质量数据工具链及方法论推动行业统一标准协同创新 [23]
万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里
自动驾驶之心· 2025-08-10 11:31
具身智能行业核心观点 - 具身智能正通过构建独特计算大脑将AI能力转化为物理能力 解决AI系统在物理世界中的交互难题 [8] - 行业面临性能与通用性的关键权衡 ASI(人工专门智能)与AGI(人工通用智能)路径并行发展 [24][27][65] - 机器人基础模型(如RT-2/VLA模型)展现跨具身泛化能力 预训练模型比专用模型性能提升50% [47][48] - 物理世界对性能要求严苛 工业应用需99%以上成功率 远超其他AI领域90%的标准 [12][13] - 数据获取是核心挑战 真实物理数据仅占PI-0 5训练集的3% 但推动模型理解物理交互的关键 [57][74] 技术演进与突破 基础模型发展 - RT-2作为第一代VLA模型 将控制问题转化为问答任务 基于PaLI-X视觉语言模型构建 [46] - 第二代VLA模型(如PI-Zero)增加专用动作专家模块 采用流匹配技术处理连续动作 支持50个时间步动作块生成 [49][50] - PI-0 5实现高级推理能力 可分解"清理卧室"等复杂指令为子步骤 在未见场景完成任务 [54][55] - 跨具身数据集RTX包含34个实验室/22类机器人数据 验证通用模型性能优于专用模型50% [47][48] 关键技术融合 - 多速率系统成为硬件关键 力扭矩传感器需1kHz采样率 10Hz控制会丢失99%数据 [42][43] - 强化学习(SERL系统)与基础模型互补 专用策略可实现PCB插接等复杂操作 成功率超99% [90][92] - 视觉语言模型支持草图/照片交互 自动生成代码并插入ML技能 实现工作流程智能化 [81] 商业化路径选择 应用场景聚焦 - 工业领域优先选择结构化/半结构化环境 因非结构化环境商业可行性低且回报周期长 [14] - 汽车等行业要求TRL 8-9级成熟度 拒绝浅蓝色阶段原型 对性能有严格标准 [10] - ASI路径通过专用模型实现 支持本地部署/实时控制 适合气隙计算等工业需求 [28][32] 数据飞轮构建 - 人工专门智能工作单元成为数据主要来源 需结合安全/多机器人协调等传统机器人技术 [71] - 真实物理数据占比虽小(3%)但至关重要 模拟数据无法替代物理系统交互 [57][74] - 未来数据瓶颈将从收集转向筛选 需从数万亿轨迹中识别最有价值样本 [76] 前沿研究方向 技术突破点 - 持续学习成为关键挑战 需解决大规模模型在线更新而不破坏系统的问题 [106] - 反馈学习机制待优化 强化学习效率提升是重要方向 [107] - 物理常识理解是根本挑战 需建立导航/移动/操作的统一表征框架 [104] 学术产业协同 - 产业界需将实际问题反馈给学术界 共同缩小"演示即终结"的研究应用差距 [97][98] - 选择对失败容忍度高的应用领域(如垃圾分类) 逐步提升性能而非追求完美初始表现 [99] - 操作被视为最具挑战领域 需融合复杂环境理解与精细物理交互能力 [101][102]
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 16:39
智源研究院"悟界"系列大模型发布 - 推出原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS2.0与具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 构建模态无关的统一表征空间 实现文本、图像、视频的任意组合理解与生成 [3] - Brainμ基于Emu3架构 引入脑信号模态数据 实现单一模型完成多种神经科学任务 在自动化睡眠分型等任务中性能显著超越现有专有模型 [4] 原生多模态世界模型技术突破 - Emu3支持多模态输入输出的端到端映射 验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 [4] - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 有望成为神经科学领域的"AlphaFold"模型 [5] - 与强脑科技BrainCO合作 首次在便携式消费级脑电系统上重建感觉信号 展现脑机接口应用潜力 [5] 具身智能技术进展 - RoboOS2.0是全球首个基于具身智能SaaS平台的开源框架 支持无服务器一站式轻量化机器人本体部署 整体性能提升30% 全链路平均响应时延低至3ms以下 [6][7] - RoboBrain2.0在多项空间推理与任务规划指标上超越主流大模型 任务规划准确率相较1.0版本提升74% 空间智能性能提升17% [8][9] - 新增多本体时空记忆场景图共享机制和深度思考能力 支持动态环境下的实时感知与建模 提升任务执行稳定性与成功率 [7][9] 微观生命模型突破 - OpenComplex2实现从静态结构预测到动态构象分布建模的突破 能表征生物分子系统的连续演化能量景观 [11] - 在CASP16竞赛中成功预测蛋白质T1200/T1300的空间构象分布 成为23支参赛队伍中唯一取得该突破的团队 [12] - 突破静态结构预测瓶颈 为原子级结构生物学提供全新建模工具 有望显著缩短生物医药研发周期并降低成本 [12] 技术发展趋势 - 人工智能正加速从数字世界走向物理世界 原生多模态世界模型是实现物理AGI的重要发展路径 [2][3] - 公司预判大模型技术将从大语言模型向多模态尤其是原生多模态世界模型方向发展 当前工作布局围绕该趋势展开 [2] - 未来5-10年可能出现大小脑融合模型 但当前数据受限不具备融合条件 现阶段采用大小脑协作框架 [7]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]