Workflow
Brainμ
icon
搜索文档
对话智源王仲远:具身智能“小组赛”才刚刚开打,机器人需要“安卓”而非 iOS
AI科技大本营· 2025-06-07 17:42
大模型发展瓶颈与突破方向 - 大语言模型性能提升速度明显放缓 主要受限于互联网数据使用瓶颈 [2] - 行业共识认为AI需要从"读万卷书"转向"行万里路" 即从虚拟数据走向物理世界交互 [2] - 英伟达CEO黄仁勋提出AI下半场方向是打造"AI工厂" 迎接"物理AI"时代 [2] - 智源研究院推出"悟界"系列 旨在突破虚拟与现实边界 相比早期"悟道"系列更注重物理世界交互 [2] 多模态与具身智能技术路线 - 大模型正从语言模型转向原生多模态世界模型 目标是实现AI对物理世界的感知与交互 [4] - 具身智能面临"循环悖论":硬件不成熟→数据稀缺→模型能力弱→商业化困难→无法反哺硬件 [6] - 破解方案包括利用互联网视频数据预训练 再通过有限真实机器人数据微调 类似人类学习模式 [9][11] - 关键能力突破在于时空智能 使AI不仅能识别物体还能预测物理交互后果 [11] 智源研究院的技术布局 - 推出四大核心技术:Emu3多模态模型 RoboOS/RoboBrain协作框架 Brainμ脑科学模型 OpenComplex2原子生命模型 [7] - 采用"安卓"式开放策略 打造通用具身智能平台而非专用系统 适配各类机器人硬件 [12][13] - 明确区分"大脑"(任务规划)与"小脑"(运动控制) 采用端云协同方案而非强行融合 [14] - 定位为做"高校做不了 企业不愿意做"的通用平台研发 填补产业空白 [12] 行业发展阶段与商业化前景 - 当前阶段类比大模型爆发前的探索期 技术路线尚未收敛 产业格局未定 [15] - 预测未来3年将率先在工厂等封闭场景落地 解决重复性危险劳动 [15] - 行业处于"小组赛"阶段 各类参与者带来不同视角 远未到淘汰赛时期 [15] - 长期来看需要5-10年才可能实现真正的大小脑融合模型 [14] 典型案例与学习范式 - 通过小女孩观察学习案例 验证视频数据+强化学习的技术路径可行性 [9] - 人类通过跨本体知识传递(如语言文字) 启发AI应具备类似通用能力 [12] - 当前AI缺乏时空感知能力 例如仅能描述杯子而无法预判跌落风险 [11]
智源发布“悟界”系列大模型,含全球首个原生多模态世界模型Emu3
凤凰网· 2025-06-06 22:32
大模型技术突破 - 智源研究院推出"悟界"系列大模型 包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 实现文本、图像、视频的任意组合理解与生成 [2] - Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据 完成了超过100万单位的神经信号预训练 在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中性能显著超越现有专有模型 [2][3] 具身智能系统升级 - RoboOS 2 0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架 整体性能提升达30% 全链路平均响应时延低至3ms以下 端云通信效率提升27倍 [3][4] - RoboBrain 2 0任务规划准确率相较1 0版本实现74%的效果提升 在空间智能方面实现17%的性能提升 新增空间推理能力和闭环反馈机制 [5][6] - 系统已全面开源 包括框架代码、模型权重、数据集与评测基准 与全球20多家具身智能企业建立战略合作关系 [6] 生物分子建模创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的重大突破 能够表征生物分子系统的连续演化能量景观 在原子分辨率层面捕捉分子相互作用及平衡构象分布 [6][7] - 模型基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新 有效突破动态构象分布预测瓶颈 在生物分子动态特性预测、柔性系统及超大型复合物建模等任务中性能卓越 [7] 开源生态建设 - 智源已开源约200个模型和160个数据集 FlagOS系统新增统一编译器FlagTree、统一通信库FlagCX等板块 实现对11家厂商18款异构AI硬件的统一支持 [8] - 通用向量模型BGE系列发展为门类齐全的生态系统 近期发布BGE-code-v1、BGE-VL-v1 5和BGE-VL-screenshot三款模型 在代码检索和多模态检索任务中取得领先表现 [9] - 开源轻量长视频理解模型Video-XL-2实现单GPU处理万帧视频的能力 编码2048帧视频仅需12秒 推理效率大幅领先同类别竞品模型 [9][10] 应用场景展示 - 基于RoboOS 2 0和RoboBrain 2 0的机器人展示了餐饮互动、抓娃娃游戏和家居物品收纳等技能 融合视觉、听觉、思考、语音交互等能力实现"心有灵犀"互动游戏 [11] - Brainμ与脑机接口设备结合 在消费级便携式脑电设备上实现接近医用级设备数据采集的稳定解析能力 降低脑机接口应用门槛 [11] - 数字孪生心脏药物安全性评价平台将全尺度药物毒性仿真时间由近90天减少到一天之内 无感智能坐垫系统可对心率、心率变异性、呼吸频率等指标进行高精度实时监测 [12][13]