物理AGI
搜索文档
3个月连融5亿!具身智能公司极佳视界完成2亿元A2轮融资,推出物理AGI的原生模型与原生本体
机器人圈· 2025-12-10 17:37
公司近期融资与业务进展 - 极佳视界于近期再获2亿元A2轮融资,由达晨财智领投,多家知名机构跟投[1] - 公司在3个月内连续完成4轮累计5亿元的A轮系列融资[1] - 公司已于2025年11月26日发布物理AGI原生本体,布局终端业务[1] - 公司产品矩阵包括世界模型平台GigaWorld、通用具身大脑GigaBrain、通用具身本体Maker等全栈软硬件产品[1] 行业趋势与公司战略观点 - 行业模型架构正向通用行动模型收敛,数据来源转向以真机数据与世界模型生成数据为核心,学习方式形成「模仿学习+强化学习+世界模型」的通用范式[2] - 世界模型正成为物理AGI在数据来源、学习方式与模型架构层面的核心驱动力[2] - 以“操作与上肢”为中心、能更好与物理世界交互的原生本体成为关键需求[2] - 公司认为物理AI正在进入关键时代,未来2-3年是物理AGI突破的关键窗口期,物理世界的“ChatGPT时刻”正在加速到来[2] - 原生模型和原生本体的深度结合是抵达上述目标的关键[2] 公司核心团队与技术背景 - 公司核心团队完整经历了过去十年物理AI的发展历程,在技术创新和产业落地上持续做出世界级成果[3] - 在CV时代,团队多次主导获得FRVT、COCO、VOT等全球最具影响力视觉AI比赛的世界冠军,并实现大规模产业落地[4] - 在自动驾驶时代,团队提出的BEVDet系列工作是全球最有影响力的自动驾驶BEV范式之一,长期排名nuScenes全球第一,并实现规模化量产落地[4] - 团队还主导了地平线AIDI平台等行业最大规模的数据闭环产品研发和商业落地,以及百度Apollo仿真框架的研发和商业化落地[4] - 在世界模型和具身智能时代,公司的DriveDreamer系列是全球最早的面向物理世界的世界模型代表性工作,并实现规模化量产落地[4] - 创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士学位,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人&算法副总裁,并拥有三星中国研究院、微软亚洲研究院等工作经历[4] 核心产品:物理AGI原生模型 - 公司已发布物理AGI原生行动模型GigaBrain-0,以及物理AGI原生世界模型GigaWorld-0[6] - GigaBrain-0是具身机器人的大脑,提供端到端的决策控制,支持图像、深度、文本、本体状态的输入,输出结构化的任务规划和运动规划[6] - GigaBrain-0重点提升了3D空间感知能力和结构化的推理能力,能够完成更精准的移动导航和更长序列的复杂操作,并且具备更强泛化性[6] - GigaBrain-0可以完成多项长程复杂任务,包括灵巧操作任务、长程任务和移动操作任务,其成功率显著优于现有SOTA方法[6] - GigaWorld-0是具身机器人的养料,提供高质量、大规模训练数据[7] - 通过几何一致、物理准确的世界模型建模,GigaWorld-0生成高保真、可控、多样化的具身交互数据,实现“数据放大”[7] - GigaWorld-0构建了最完整的具身数据体系,使得所训练的VLA模型在新纹理、新视角、新物体位置三大泛化维度上均实现近300%的性能提升[7] - 在PBench基准上,GigaWorld-0为所有对比模型中参数量最小,整体性能最高的世界模型,兼具卓越的生成质量与极致的推理效率[7][8] 核心产品:物理AGI原生本体 - 公司推出了原生本体Maker H01,这是一款高自由度具身智能机器人,采用双臂+移动底盘形态[9][13] - Maker H01可在家庭、工业、服务、科研等多种场景中执行取放物品、巡检、接待、协助实验等任务[13] - 其底盘为全向全驱,具备较高机动性与续航能力,单臂具备公斤级负载与多指手爪配置,整体更偏向“工程可用”的具身平台[13] - 该机器人提供约1.6米的成人身高版本,全身拥有二十余个自由度,配合多种传感器,能够完成精细的操作和柔顺运动控制[13] - Maker H01支持多种遥操方案,结合自研的具身大脑“GigaBrain”,使其在复杂动作中实现全身协同[13] - 搭配GigaBrain和GigaWorld的工具链,Maker H01可以快速在家庭、商业服务、轻工业等开放场景中以更低成本、更高成功率完成落地和任务泛化[12] 未来规划与商业进展 - 公司未来将持续迭代「世界模型+行动模型+强化学习」的物理AGI原生模型,加速研发适配具身大脑的物理AGI原生本体,同时推进标杆场景落地和通用场景布局[14] - 通过「原生模型-原生本体-通用场景」三位一体,加速走向物理AGI的“ChatGPT时刻”[14] - 公司已经和多个行业头部客户达成签约和量产合作,包括全球多个头部主机厂、多地人形机器人创新中心和实训场、多个具身方向头部工业/服务/家庭场景公司等客户[14]
达晨财智领投 极佳视界完成2亿元A2轮融资
新浪财经· 2025-12-08 23:14
公司融资与业务进展 - 具身智能公司极佳视界近期完成2亿元人民币A2轮融资 由达晨财智领投 老股东华控基金联合领投 并有首发展创投 浦耀信晔 财鑫资本 珠海科技产业集团 张科垚坤 复琢创投等机构跟投 老股东合鼎共资本超额跟投 [1][3] - 公司在3个月内连续完成Pre-A Pre-A+ A1及A2共四轮融资 累计完成5亿元人民币A轮系列融资 [1][3] - 公司已于2025年11月26日发布相应本体 布局物理AGI的终端业务 [1][3] 公司产品与技术布局 - 公司产品矩阵为物理AI全栈软硬件产品 包括世界模型平台GigaWorld(驾驶和具身) 通用具身大脑GigaBrain 通用具身本体Maker [1][3] - 公司技术采用“世界模型+行动模型+强化学习”的原生范式 其中每一环节均以世界模型为驱动 [1][3] - 公司认为以“操作与上肢”为中心 能更好与物理世界交互 数据优先的原生本体是关键需求 “传感器-执行器-数采设备-通用模型”之间可规模化的闭环迭代价值凸显 [2][4] 行业趋势与公司观点 - 行业模型架构正向通用行动模型(如VLA与世界行动模型)收敛 数据来源转向以真机数据与世界模型生成数据为核心 学习方式形成“模仿学习+强化学习+世界模型”的通用范式 [2][4] - 世界模型正成为物理AGI在数据来源 学习方式与模型架构层面的核心驱动力 [2][4] - 公司认为物理AI正在进入全新的关键时代 未来2-3年是物理AGI突破的关键窗口期 物理世界的“ChatGPT时刻”正在加速到来 [2][5]
极佳视界完成2亿元A2轮融资 达晨、华控领投
证券时报网· 2025-12-08 21:38
公司融资与业务概览 - 公司极佳视界于12月8日宣布完成2亿元A2轮融资,由达晨财智领投,老股东华控基金联合领投,并有首发展创投、浦耀信晔、财鑫资本、珠海科技产业集团、张科垚坤、复琢创投等跟投,老股东合鼎共资本超额跟投,庚辛资本中国担任财务顾问 [1] - 公司在3个月内连续完成Pre-A、Pre-A+、A1及A2共4轮融资,累计A轮系列融资额达5亿元 [1] - 公司成立于2023年,聚焦物理AI,专注于“世界模型驱动的物理世界通用智能” [1] - 公司产品矩阵包括世界模型平台GigaWorld(驾驶和具身)、具身基础模型GigaBrain、通用具身本体Maker等物理AI全栈软硬件产品 [1][1] - 公司已于2025年11月26日发布相应本体,布局物理AGI的终端业务 [1] 技术路径与行业观点 - 公司在模型方面提出“世界模型+行动模型+强化学习”的原生范式,其中每一环节均以世界模型为驱动 [2] - 行业模型架构正向通用行动模型(如VLA与世界行动模型)收敛,数据来源转向以真机数据与世界模型生成数据为核心,学习方式形成“模仿学习+强化学习+世界模型”的通用范式 [2] - 世界模型正成为物理AGI在数据来源、学习方式与模型架构层面的核心驱动力 [2] - 以“操作与上肢”为中心、能更好与物理世界交互、数据优先的原生本体成为关键需求,“传感器—执行器—数采设备—通用模型”之间可规模化的闭环迭代价值凸显 [2] - 公司认为物理AI正在进入全新关键时代,未来2—3年是物理AGI突破的关键窗口期,物理世界的“ChatGPT时刻”正在加速到来 [2] - 原生模型和原生本体的深度结合,是抵达物理世界通用智能目标的关键 [2]
3个月连融5亿!极佳视界A2轮获2亿,推出物理AGI原生模型与本体
36氪· 2025-12-08 15:56
公司融资与战略定位 - 具身智能公司极佳视界在3个月内连续完成4轮累计5亿元A轮系列融资,最新一轮为2亿元A2轮融资,由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投[2] - 公司定位为专注物理世界通用智能(物理AGI)的公司,目标是通过原生模型和原生本体的深度结合,实现物理世界的“ChatGPT时刻”[2][3] - 公司认为物理AI正进入关键时代,未来2-3年是物理AGI突破的关键窗口期[3] 产品与技术体系 - 公司产品矩阵包括世界模型平台GigaWorld、通用具身大脑GigaBrain、通用具身本体Maker等物理AI全栈软硬件产品[3] - 技术核心是“世界模型+行动模型+强化学习”的原生范式,其中世界模型是数据来源、学习方式与模型架构层面的核心驱动力[3] - 公司已发布并开源全球首个世界模型驱动的具身VLA大模型GigaBrain-0,以及行业领先的具身世界模型GigaWorld-0[4] 核心模型性能与优势 - GigaBrain-0是具身机器人的大脑,提供端到端决策控制,支持图像、深度、文本、本体状态输入,输出结构化任务和运动规划,其成功率显著优于现有SOTA方法[6] - GigaBrain-0重点提升了3D空间感知和结构化推理能力,能完成灵巧操作、长程任务和移动操作等多项复杂任务[6] - GigaWorld-0是具身机器人的养料,通过生成高质量、大规模训练数据实现“数据放大”,使VLA模型在新纹理、新视角、新物体位置三大泛化维度上均实现近300%的性能提升[8] - 在PBench基准上,GigaWorld-0是参数量最小(2B)、整体性能最高的世界模型,兼具卓越生成质量与极致推理效率[8][9] 硬件本体与产业化 - 公司发布了自研的全新一代物理AGI原生本体Maker H01,并已开启规模化量产交付[4] - Maker H01是一款高自由度具身智能机器人,采用双臂+移动底盘形态,拥有二十余个自由度,具备公斤级负载与多指手爪,适合家庭、工业、服务、科研等多种场景[14] - 该机器人搭配GigaBrain和GigaWorld工具链,可在开放场景中以更低成本、更高成功率完成落地和任务泛化[13] 团队背景与历史成就 - 公司核心团队紧密依托清华大学自动化系智能视觉实验室,完整经历了过去十年物理AI的发展历程[4] - 在CV时代,团队多次主导获得FRVT、COCO、VOT等全球最具影响力视觉AI比赛的世界冠军,并实现大规模产业落地[4] - 在自动驾驶时代,团队提出的BEVDet系列工作长期排名nuScenes全球第一,并实现规模化量产落地,还主导了地平线AIDI平台、百度Apollo仿真框架等产品的研发和商业化[5] - 在世界模型和具身智能时代,公司的DriveDreamer系列是全球最早的面向物理世界的世界模型代表性工作,并实现规模化量产落地[5] - 创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士学位,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人&算法副总裁,并在三星中国研究院、微软亚洲研究院等机构工作[5] 商业化进展与未来规划 - 公司已经和多个行业头部客户达成签约和量产合作,包括全球多个头部主机厂、多地人形机器人创新中心和实训场、多个具身方向头部工业/服务/家庭场景公司等[16] - 未来公司将持续迭代物理AGI原生模型,加速研发适配具身大脑的原生本体,同时推进标杆场景落地和通用场景布局,通过“原生模型-原生本体-通用场景”三位一体加速发展[16]
达晨、华控领投,极佳视界A2轮再融2亿,押注“世界模型+行动模型”原生架构
钛媒体APP· 2025-12-08 15:17
公司融资与团队背景 - 具身智能公司极佳视界在3个月内连续完成Pre-A、Pre-A+、A1及A2四轮融资,累计融资额达5亿元,其中A2轮融资2亿元 [2] - 本轮融资由达晨财智领投,老股东华控基金联合领投,多家知名机构跟投,老股东合鼎共资本超额追加投资 [2] - 公司创始人兼CEO黄冠博士拥有清华大学自动化系创新领军工程博士背景,曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人兼算法副总裁,并曾在三星中国研究院、微软亚洲研究院等顶尖科研机构工作 [2] - 创始人团队在过去十年深度参与并推动了物理AI从技术萌芽到产业落地的关键演进,带领团队在FRVT、COCO、VOT等全球最具影响力的视觉AI竞赛中多次斩获冠军,并实现多项技术的大规模产业化应用 [2] 核心技术优势与历史成就 - 在自动驾驶领域,公司团队提出的BEVDet系列方法已成为全球最具影响力的BEV感知范式之一,长期稳居nuScenes榜单首位,并已实现规模化量产 [3] - 团队主导了地平线AIDI平台(业内最大规模的数据闭环系统)以及百度Apollo仿真框架的研发与商业化落地,奠定了其在智能系统工程化方面的领先优势 [3] 行业趋势与公司战略判断 - 行业正加速向通用行动模型(如VLA与世界行动模型)演进,数据来源日益依赖真机实采与高保真世界模型合成,学习范式逐步统一为“模仿学习 + 强化学习 + 世界模型”的融合架构 [3] - 公司判断物理AI正迈入决定性突破的关键窗口期,未来2至3年将是物理AGI从实验室走向规模化落地的分水岭 [3] - 随着世界模型与行动模型的持续跃迁,属于物理世界的“ChatGPT时刻”正在加速到来 [3] - 公司面向具身智能新时代,率先提出“世界模型 + 行动模型 + 强化学习”的原生AGI范式,强调以世界模型为核心驱动力,贯通数据生成、模型训练与决策执行全链路 [3] 核心产品发布:模型与机器人平台 - 公司已正式发布两大物理AGI核心模型:原生行动模型GigaBrain-0与原生世界模型GigaWorld-0,并同步推出高自由度具身智能机器人平台Maker H01,共同构建端到端的具身智能系统 [4] - GigaBrain-0是一款基于视觉-语言-动作(VLA)架构的端到端决策控制模型,可融合图像、深度、文本及本体状态等多模态输入,输出结构化的任务规划与运动指令 [5] - GigaBrain-0重点强化了3D空间感知与结构化推理能力,以提升在复杂环境中的导航精度与长序列任务执行能力,具备更强的泛化性能 [5] - GigaWorld-0是公司自研的高质量世界模型,依托“GigaWorld”平台,通过几何一致、物理准确的建模机制生成高保真、可控且多样化的具身交互数据,实现高效“数据放大” [6] - GigaWorld-0构建了目前最完整的具身训练数据体系,在三大关键泛化维度(新纹理、新视角、新物体位置)上实现近300%的性能提升 [6] - 在PBench(Robot Set)基准测试中,GigaWorld-0以最小参数量实现最高整体性能,成为当前最具性价比的世界模型方案 [6] - Maker H01是专为家庭、商业服务与轻工业等开放场景设计的高自由度具身机器人,采用双臂 + 全向全驱移动底盘架构,全身拥有20+自由度,单臂支持公斤级负载,配备多指灵巧手爪 [6] - Maker H01标准版高度约1.6米,适配多种空间环境,适用于物品取放、巡检、接待、实验协助、仓储搬运等真实业务场景 [6] 产品性能与应用场景 - GigaBrain-0已成功应用于一系列高难度、长程的具身任务,在真实场景中展现出卓越的综合能力,能稳定高效地完成制作咖啡、叠衣服、整理卷纸、桌面清理、倒饮料、搬运箱子、拾取衣物等复杂任务 [5] - 在多项权威基准测试中,GigaBrain-0的任务成功率显著超越当前最先进的方法(SOTA) [5] - Maker H01不仅是可靠的作业平台,也是高效的算法验证载体,支持多种遥操作方案,并与自研“具身大脑”GigaBrain深度集成,实现抓取、搬运、协作等复杂动作的全身协同控制 [7] - 通过GigaBrain-0、GigaWorld-0与Maker H01的三位一体架构,公司正加速推动具身智能从实验室走向规模化落地,迈向真正“可用、可靠、可泛化”的物理AGI时代 [7]
智源发布具身数据创新基座,携手行业共筑物理AGI基础设施
具身智能之心· 2025-12-03 11:47
具身智能数据创新基座发布 - 2025年11月20日北京智源人工智能研究院发布具身数据创新基座包括智源具身一站式平台RoboXstudio、大型高质量双臂机器人真机数据集RoboCOIN、具身数据软件框架CoRobot [6] 具身智能数据发展挑战 - 面临数据孤岛挑战具身数据格式不统一标准缺失导致数据处理复杂工具链分散形成数据使用壁垒 [7] - 存在质控缺失挑战数据普遍存在丢帧卡顿静止帧关节信息不齐时间戳错位等记录问题以及动作过快过慢等操作问题 [7] - 面临成本难题挑战数据生成依赖大量人工操作与标注缺乏成熟平台支撑设备场地人力综合导致生产成本居高不下 [8] CoRobot具身数据软件框架 - 框架目标为定标准保质量提效率面向异构本体规范操作流程提升研发效率 [10] - 由5大组件构成包括泛本体数采工具支持接入各种本体和遥操作设备格式转换工具支持双向转换数据处理工具可处理丢帧卡顿等标注信息数据管理工具支持原子化存储可视化模型训推工具支持模型训练任务快速接入 [10] - 软件框架主页为https://github.com/FlagOpen/CoRobot [11] RoboCOIN双臂机器人数据集 - 数据集由智源研究院联合8家企业及多所高校共建具备本体数最多标注最精细使用最便捷三大优势 [14] - 涉及15款双臂机器人数据量达18万条覆盖工业家居零售等10多个场景 [16] - 完成轨迹级段级帧级三层次细粒度标注依托CoRobot实现开箱即用 [16] - 数据集主页为https://flagopen.github.io/RoboCOIN/ [16] RoboXstudio一站式平台 - 平台基于CoRobotFlagOS-RoboEmu3.5打造覆盖数据采集标注管理训练评测部署全流程 [19] - 具备更全面特点支持多类型机器人及人体数据采集覆盖全场景多样化任务 [22] - 具备更系统特点构建数采前配置数采中监控数采后管理闭环体系 [22] - 具备更智能特点集成开源框架与多模态大模型内置智能算子实现任务拆解数据扩增 [22] - 平台体验申请地址为https://ei2data.baai.ac.cn/home [20] 开源生态与行业协作 - 智源FlagOpen体系开源模型全球总下载量达6.9亿次截至2025年8月 [23] - 发布智源具身智能一站式平台社区版供免费使用CoRobot和RoboCOIN面向全社会开源 [23] - 以RoboCOIN为起点分享高质量数据工具链及方法论推动行业统一标准协同创新 [23]
万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里
自动驾驶之心· 2025-08-10 11:31
具身智能行业核心观点 - 具身智能正通过构建独特计算大脑将AI能力转化为物理能力 解决AI系统在物理世界中的交互难题 [8] - 行业面临性能与通用性的关键权衡 ASI(人工专门智能)与AGI(人工通用智能)路径并行发展 [24][27][65] - 机器人基础模型(如RT-2/VLA模型)展现跨具身泛化能力 预训练模型比专用模型性能提升50% [47][48] - 物理世界对性能要求严苛 工业应用需99%以上成功率 远超其他AI领域90%的标准 [12][13] - 数据获取是核心挑战 真实物理数据仅占PI-0 5训练集的3% 但推动模型理解物理交互的关键 [57][74] 技术演进与突破 基础模型发展 - RT-2作为第一代VLA模型 将控制问题转化为问答任务 基于PaLI-X视觉语言模型构建 [46] - 第二代VLA模型(如PI-Zero)增加专用动作专家模块 采用流匹配技术处理连续动作 支持50个时间步动作块生成 [49][50] - PI-0 5实现高级推理能力 可分解"清理卧室"等复杂指令为子步骤 在未见场景完成任务 [54][55] - 跨具身数据集RTX包含34个实验室/22类机器人数据 验证通用模型性能优于专用模型50% [47][48] 关键技术融合 - 多速率系统成为硬件关键 力扭矩传感器需1kHz采样率 10Hz控制会丢失99%数据 [42][43] - 强化学习(SERL系统)与基础模型互补 专用策略可实现PCB插接等复杂操作 成功率超99% [90][92] - 视觉语言模型支持草图/照片交互 自动生成代码并插入ML技能 实现工作流程智能化 [81] 商业化路径选择 应用场景聚焦 - 工业领域优先选择结构化/半结构化环境 因非结构化环境商业可行性低且回报周期长 [14] - 汽车等行业要求TRL 8-9级成熟度 拒绝浅蓝色阶段原型 对性能有严格标准 [10] - ASI路径通过专用模型实现 支持本地部署/实时控制 适合气隙计算等工业需求 [28][32] 数据飞轮构建 - 人工专门智能工作单元成为数据主要来源 需结合安全/多机器人协调等传统机器人技术 [71] - 真实物理数据占比虽小(3%)但至关重要 模拟数据无法替代物理系统交互 [57][74] - 未来数据瓶颈将从收集转向筛选 需从数万亿轨迹中识别最有价值样本 [76] 前沿研究方向 技术突破点 - 持续学习成为关键挑战 需解决大规模模型在线更新而不破坏系统的问题 [106] - 反馈学习机制待优化 强化学习效率提升是重要方向 [107] - 物理常识理解是根本挑战 需建立导航/移动/操作的统一表征框架 [104] 学术产业协同 - 产业界需将实际问题反馈给学术界 共同缩小"演示即终结"的研究应用差距 [97][98] - 选择对失败容忍度高的应用领域(如垃圾分类) 逐步提升性能而非追求完美初始表现 [99] - 操作被视为最具挑战领域 需融合复杂环境理解与精细物理交互能力 [101][102]
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 16:39
智源研究院"悟界"系列大模型发布 - 推出原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS2.0与具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 构建模态无关的统一表征空间 实现文本、图像、视频的任意组合理解与生成 [3] - Brainμ基于Emu3架构 引入脑信号模态数据 实现单一模型完成多种神经科学任务 在自动化睡眠分型等任务中性能显著超越现有专有模型 [4] 原生多模态世界模型技术突破 - Emu3支持多模态输入输出的端到端映射 验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 [4] - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 有望成为神经科学领域的"AlphaFold"模型 [5] - 与强脑科技BrainCO合作 首次在便携式消费级脑电系统上重建感觉信号 展现脑机接口应用潜力 [5] 具身智能技术进展 - RoboOS2.0是全球首个基于具身智能SaaS平台的开源框架 支持无服务器一站式轻量化机器人本体部署 整体性能提升30% 全链路平均响应时延低至3ms以下 [6][7] - RoboBrain2.0在多项空间推理与任务规划指标上超越主流大模型 任务规划准确率相较1.0版本提升74% 空间智能性能提升17% [8][9] - 新增多本体时空记忆场景图共享机制和深度思考能力 支持动态环境下的实时感知与建模 提升任务执行稳定性与成功率 [7][9] 微观生命模型突破 - OpenComplex2实现从静态结构预测到动态构象分布建模的突破 能表征生物分子系统的连续演化能量景观 [11] - 在CASP16竞赛中成功预测蛋白质T1200/T1300的空间构象分布 成为23支参赛队伍中唯一取得该突破的团队 [12] - 突破静态结构预测瓶颈 为原子级结构生物学提供全新建模工具 有望显著缩短生物医药研发周期并降低成本 [12] 技术发展趋势 - 人工智能正加速从数字世界走向物理世界 原生多模态世界模型是实现物理AGI的重要发展路径 [2][3] - 公司预判大模型技术将从大语言模型向多模态尤其是原生多模态世界模型方向发展 当前工作布局围绕该趋势展开 [2] - 未来5-10年可能出现大小脑融合模型 但当前数据受限不具备融合条件 现阶段采用大小脑协作框架 [7]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]
智源发布“悟界”系列大模型,宣布围绕物理AGI进行布局
新浪科技· 2025-06-06 10:51
北京智源人工智能研究院发布"悟界"大模型 - 公司发布"悟界"大模型系列 聚焦物理AGI领域 包含四个子模型:原生多模态世界模型Emu3 脑科学多模态通用基础模型见微Brainμ 具身大脑RoboBrain 2 0 全原子微观生命模型OpenComplex2 [1] - "悟界"系列突破虚实世界边界 实现对物理世界的赋能 标志公司在物理AGI方向取得重要进展 [1] 原生多模态世界模型Emu3技术细节 - Emu3采用下一代token预测范式统一多模态学习 无需扩散模型或组合式架构 通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 [1] - 模型构建模态无关的统一表征空间 实现文本 图像 视频的任意组合理解与生成 支持多模态输入输出的端到端映射 [1] - 该模型验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 于2024年10月首次发布 [1] 脑科学模型见微Brainμ研发进展 - Brainμ基于Emu3底层架构 将fMRI EEG等神经信号统一token化 利用预训练模型实现多模态脑信号与文本 图像的多向映射 [2] - 模型完成超过100万单位神经信号预训练 整合多个大型公开数据集和实验室数据 可支持从基础研究到临床应用的多个方向 [2] - 公司正与北京生命科学研究所 清华大学 北京大学等机构合作 拓展Brainμ在神经科学和脑机接口领域的应用 [2]