物理AGI

搜索文档
万字长文聊具身智能“成长史”:具身智能跨越了哪些山海,又将奔向哪里
自动驾驶之心· 2025-08-10 11:31
具身智能行业核心观点 - 具身智能正通过构建独特计算大脑将AI能力转化为物理能力 解决AI系统在物理世界中的交互难题 [8] - 行业面临性能与通用性的关键权衡 ASI(人工专门智能)与AGI(人工通用智能)路径并行发展 [24][27][65] - 机器人基础模型(如RT-2/VLA模型)展现跨具身泛化能力 预训练模型比专用模型性能提升50% [47][48] - 物理世界对性能要求严苛 工业应用需99%以上成功率 远超其他AI领域90%的标准 [12][13] - 数据获取是核心挑战 真实物理数据仅占PI-0 5训练集的3% 但推动模型理解物理交互的关键 [57][74] 技术演进与突破 基础模型发展 - RT-2作为第一代VLA模型 将控制问题转化为问答任务 基于PaLI-X视觉语言模型构建 [46] - 第二代VLA模型(如PI-Zero)增加专用动作专家模块 采用流匹配技术处理连续动作 支持50个时间步动作块生成 [49][50] - PI-0 5实现高级推理能力 可分解"清理卧室"等复杂指令为子步骤 在未见场景完成任务 [54][55] - 跨具身数据集RTX包含34个实验室/22类机器人数据 验证通用模型性能优于专用模型50% [47][48] 关键技术融合 - 多速率系统成为硬件关键 力扭矩传感器需1kHz采样率 10Hz控制会丢失99%数据 [42][43] - 强化学习(SERL系统)与基础模型互补 专用策略可实现PCB插接等复杂操作 成功率超99% [90][92] - 视觉语言模型支持草图/照片交互 自动生成代码并插入ML技能 实现工作流程智能化 [81] 商业化路径选择 应用场景聚焦 - 工业领域优先选择结构化/半结构化环境 因非结构化环境商业可行性低且回报周期长 [14] - 汽车等行业要求TRL 8-9级成熟度 拒绝浅蓝色阶段原型 对性能有严格标准 [10] - ASI路径通过专用模型实现 支持本地部署/实时控制 适合气隙计算等工业需求 [28][32] 数据飞轮构建 - 人工专门智能工作单元成为数据主要来源 需结合安全/多机器人协调等传统机器人技术 [71] - 真实物理数据占比虽小(3%)但至关重要 模拟数据无法替代物理系统交互 [57][74] - 未来数据瓶颈将从收集转向筛选 需从数万亿轨迹中识别最有价值样本 [76] 前沿研究方向 技术突破点 - 持续学习成为关键挑战 需解决大规模模型在线更新而不破坏系统的问题 [106] - 反馈学习机制待优化 强化学习效率提升是重要方向 [107] - 物理常识理解是根本挑战 需建立导航/移动/操作的统一表征框架 [104] 学术产业协同 - 产业界需将实际问题反馈给学术界 共同缩小"演示即终结"的研究应用差距 [97][98] - 选择对失败容忍度高的应用领域(如垃圾分类) 逐步提升性能而非追求完美初始表现 [99] - 操作被视为最具挑战领域 需融合复杂环境理解与精细物理交互能力 [101][102]
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 16:39
智源研究院"悟界"系列大模型发布 - 推出原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS2.0与具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 构建模态无关的统一表征空间 实现文本、图像、视频的任意组合理解与生成 [3] - Brainμ基于Emu3架构 引入脑信号模态数据 实现单一模型完成多种神经科学任务 在自动化睡眠分型等任务中性能显著超越现有专有模型 [4] 原生多模态世界模型技术突破 - Emu3支持多模态输入输出的端到端映射 验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 [4] - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 有望成为神经科学领域的"AlphaFold"模型 [5] - 与强脑科技BrainCO合作 首次在便携式消费级脑电系统上重建感觉信号 展现脑机接口应用潜力 [5] 具身智能技术进展 - RoboOS2.0是全球首个基于具身智能SaaS平台的开源框架 支持无服务器一站式轻量化机器人本体部署 整体性能提升30% 全链路平均响应时延低至3ms以下 [6][7] - RoboBrain2.0在多项空间推理与任务规划指标上超越主流大模型 任务规划准确率相较1.0版本提升74% 空间智能性能提升17% [8][9] - 新增多本体时空记忆场景图共享机制和深度思考能力 支持动态环境下的实时感知与建模 提升任务执行稳定性与成功率 [7][9] 微观生命模型突破 - OpenComplex2实现从静态结构预测到动态构象分布建模的突破 能表征生物分子系统的连续演化能量景观 [11] - 在CASP16竞赛中成功预测蛋白质T1200/T1300的空间构象分布 成为23支参赛队伍中唯一取得该突破的团队 [12] - 突破静态结构预测瓶颈 为原子级结构生物学提供全新建模工具 有望显著缩短生物医药研发周期并降低成本 [12] 技术发展趋势 - 人工智能正加速从数字世界走向物理世界 原生多模态世界模型是实现物理AGI的重要发展路径 [2][3] - 公司预判大模型技术将从大语言模型向多模态尤其是原生多模态世界模型方向发展 当前工作布局围绕该趋势展开 [2] - 未来5-10年可能出现大小脑融合模型 但当前数据受限不具备融合条件 现阶段采用大小脑协作框架 [7]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]
智源发布“悟界”系列大模型,宣布围绕物理AGI进行布局
新浪科技· 2025-06-06 10:51
北京智源人工智能研究院发布"悟界"大模型 - 公司发布"悟界"大模型系列 聚焦物理AGI领域 包含四个子模型:原生多模态世界模型Emu3 脑科学多模态通用基础模型见微Brainμ 具身大脑RoboBrain 2 0 全原子微观生命模型OpenComplex2 [1] - "悟界"系列突破虚实世界边界 实现对物理世界的赋能 标志公司在物理AGI方向取得重要进展 [1] 原生多模态世界模型Emu3技术细节 - Emu3采用下一代token预测范式统一多模态学习 无需扩散模型或组合式架构 通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 [1] - 模型构建模态无关的统一表征空间 实现文本 图像 视频的任意组合理解与生成 支持多模态输入输出的端到端映射 [1] - 该模型验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 于2024年10月首次发布 [1] 脑科学模型见微Brainμ研发进展 - Brainμ基于Emu3底层架构 将fMRI EEG等神经信号统一token化 利用预训练模型实现多模态脑信号与文本 图像的多向映射 [2] - 模型完成超过100万单位神经信号预训练 整合多个大型公开数据集和实验室数据 可支持从基础研究到临床应用的多个方向 [2] - 公司正与北京生命科学研究所 清华大学 北京大学等机构合作 拓展Brainμ在神经科学和脑机接口领域的应用 [2]