Workflow
Emu3
icon
搜索文档
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 16:39
智源研究院"悟界"系列大模型发布 - 推出原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS2.0与具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 构建模态无关的统一表征空间 实现文本、图像、视频的任意组合理解与生成 [3] - Brainμ基于Emu3架构 引入脑信号模态数据 实现单一模型完成多种神经科学任务 在自动化睡眠分型等任务中性能显著超越现有专有模型 [4] 原生多模态世界模型技术突破 - Emu3支持多模态输入输出的端到端映射 验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 [4] - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 有望成为神经科学领域的"AlphaFold"模型 [5] - 与强脑科技BrainCO合作 首次在便携式消费级脑电系统上重建感觉信号 展现脑机接口应用潜力 [5] 具身智能技术进展 - RoboOS2.0是全球首个基于具身智能SaaS平台的开源框架 支持无服务器一站式轻量化机器人本体部署 整体性能提升30% 全链路平均响应时延低至3ms以下 [6][7] - RoboBrain2.0在多项空间推理与任务规划指标上超越主流大模型 任务规划准确率相较1.0版本提升74% 空间智能性能提升17% [8][9] - 新增多本体时空记忆场景图共享机制和深度思考能力 支持动态环境下的实时感知与建模 提升任务执行稳定性与成功率 [7][9] 微观生命模型突破 - OpenComplex2实现从静态结构预测到动态构象分布建模的突破 能表征生物分子系统的连续演化能量景观 [11] - 在CASP16竞赛中成功预测蛋白质T1200/T1300的空间构象分布 成为23支参赛队伍中唯一取得该突破的团队 [12] - 突破静态结构预测瓶颈 为原子级结构生物学提供全新建模工具 有望显著缩短生物医药研发周期并降低成本 [12] 技术发展趋势 - 人工智能正加速从数字世界走向物理世界 原生多模态世界模型是实现物理AGI的重要发展路径 [2][3] - 公司预判大模型技术将从大语言模型向多模态尤其是原生多模态世界模型方向发展 当前工作布局围绕该趋势展开 [2] - 未来5-10年可能出现大小脑融合模型 但当前数据受限不具备融合条件 现阶段采用大小脑协作框架 [7]
聚焦多模态:ChatGPT时刻未到,2025大模型“变慢”了吗
北京商报· 2025-06-08 21:27
多模态大模型技术发展 - 智源研究院发布原生多模态世界模型Emu3 实现文本、图像、视频任意组合理解与生成 通过单一模型捕捉世界规律[1] - Emu3采用原生多模态训练路径 在模型初始阶段即纳入文字、图像、声音等模态数据 区别于先强语言后多模态的传统路径[3] - 当前多模态模型技术路线未收敛 视频生成能力处于GPT-2到GPT-3过渡阶段 与产业预期存在显著差距[1][5] 视频生成技术现状 - 视频生成领域存在叙事性、稳定性、可控性三大挑战 目前无法满足影视级专业内容制作需求[6] - Sora展现高质量视频生成潜力 但DiT训练方案存在可扩展性问题 类似2018年BERT模型的技术瓶颈[5] - 行业专家认为视频生成技术仍处早期 相当于语言模型的GPT-2阶段 尚未迎来"ChatGPT时刻"[5][6] 商业化应用进展 - 多模态模型商业化面临两大挑战:技术能力与市场需求未完全统一 成本收益比尚未达到临界点[7] - 智象未来商业模式持续迭代 从PaaS模型服务(2023)到SaaS工具(2024) 再到直接交付结果(2025)[8] - 全球多模态AI市场规模2024年达24亿美元 预计2025年将快速增长至1280亿美元 年复合增长率62.3%[8] 行业竞争格局 - 2024年大模型行业关键词为价格战 2025年转向应用多元化 表面发展"变慢"实为技术沉淀期[1] - 传统CV模型应用成熟 多模态模型需在视觉理解能力和泛化能力提升后 才能替代现有解决方案[7] - 企业技术路线差异明显 智源采用原生多模态训练 其他厂商多采用语言优先的渐进式路径[3]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]
从预训练到世界模型,智源借具身智能重构AI进化路径
第一财经· 2025-06-07 20:41
AI发展趋势 - AI发展速度被低估 技术进步呈现非线性特征 大模型作为基础设施未来将更关注上层应用 [1] - AI重点从大语言模型预训练转向世界模型培育 智源研究院宣布进入"具身智能"探索阶段 [1][3] - 大模型与机器本体深度耦合 推动机器人从1.0时代迈向2.0时代 加速数字与物理世界融合 [3] 世界模型技术 - 世界模型尚无统一定义 智源通过"悟界"系列产品体现技术理解 包括Emu3/Brainμ/RoboOS 2.0等 [3][4] - Emu3实现多模态技术突破 通过视觉tokenizer统一处理图像/视频/文本 简化跨模态知识迁移 [4] - 大模型需突破时空感知隔阂 才能实现数字世界向物理世界的跨越 [4] 底座大模型发展 - 大语言模型性能提升放缓 突破路径包括强化学习/数据合成/多模态数据 [5] - 多模态数据规模可达文字数据百倍至万倍 但利用率低下 成为技术突破重点 [5] - 原生多模态世界模型本质是让AI感知物理世界 通过与硬件结合解决实际问题 [5] 具身智能挑战 - 存在"数据-能力"循环悖论:具身能力不足限制数据采集 数据稀缺又制约模型发展 [6] - 技术路线尚未收敛 不同厂商采用差异化探索方式 智源方案仅为"一家之言" [6] - 跨本体小脑技能未达共识 需通过产业迭代实现硬件标准化 [8] 机器人行业痛点 - 场景泛化能力差 单一机器人难以适应多场景工作需求 [9] - 任务泛化能力差 需搭载不同程序完成同类场景不同任务 [9] - 本体泛化能力差 机器人设计高度依赖特定工作场景 [9] 控制技术现状 - MPC控制技术存在三大局限:仅适用结构化环境/固定流程/预编程任务 [10] - 具身大模型处于GPT-3前探索期 技术路径未统一 产业落地需突破多模态融合等基础问题 [10]
智源研究院发布“悟界”系列大模型:让AI看见并理解物理世界
经济观察网· 2025-06-07 10:55
智源研究院最新动态 - 北京智源大会开幕,吸引图灵奖得主约书亚·本吉奥、强化学习之父理查德·萨顿及谷歌、Meta、华为等全球知名AI机构学者参与[2] - 公司发布"悟界"系列四大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0及全原子微观生命模型OpenComplex2[2][3] - 院长王仲远提出大语言模型面临增长天花板,AI下一阶段需突破多模态世界模型以理解物理世界[2][4] 悟界系列模型技术细节 - Emu3采用视觉Tokenizer技术,实现文字/图像/视频的统一表征和生成[3] - Brainμ整合超100万单位神经信号数据,与清华、北大等机构合作验证脑疾病诊断等应用潜力[3] - RoboOS 2.0性能提升30%,全链路响应时延缩短至毫秒级;RoboBrain 2.0增强多机协同规划能力[3] - OpenComplex2实现原子级分子运动模拟,弥补AI静态结构预测短板[3] 战略方向与行业趋势 - 公司提出从语言模型转向世界模型,通过多模态技术让AI模拟物理世界运行与交互[4] - 具身智能短期面临商业化挑战,包括数据采集成本、伦理问题及适配成本[5] - 与香港投资管理有限公司达成战略合作,聚焦全球人才汇聚与技术全球化[6] 国际化与开源进展 - 坚持开源路线,累计开源200个模型,全球下载量达6.4亿次[7] - 通过新加坡"青源会"连接全球青年AI人才,加强欧洲合作并评估中东市场机会[6] - 历史模型"悟道"系列曾创1.75万亿参数纪录,2023年悟道3.0实现多模态突破并全面开源[6]
智源发布“悟界”系列大模型,含全球首个原生多模态世界模型Emu3
凤凰网· 2025-06-06 22:32
大模型技术突破 - 智源研究院推出"悟界"系列大模型 包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 实现文本、图像、视频的任意组合理解与生成 [2] - Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据 完成了超过100万单位的神经信号预训练 在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中性能显著超越现有专有模型 [2][3] 具身智能系统升级 - RoboOS 2 0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架 整体性能提升达30% 全链路平均响应时延低至3ms以下 端云通信效率提升27倍 [3][4] - RoboBrain 2 0任务规划准确率相较1 0版本实现74%的效果提升 在空间智能方面实现17%的性能提升 新增空间推理能力和闭环反馈机制 [5][6] - 系统已全面开源 包括框架代码、模型权重、数据集与评测基准 与全球20多家具身智能企业建立战略合作关系 [6] 生物分子建模创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的重大突破 能够表征生物分子系统的连续演化能量景观 在原子分辨率层面捕捉分子相互作用及平衡构象分布 [6][7] - 模型基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新 有效突破动态构象分布预测瓶颈 在生物分子动态特性预测、柔性系统及超大型复合物建模等任务中性能卓越 [7] 开源生态建设 - 智源已开源约200个模型和160个数据集 FlagOS系统新增统一编译器FlagTree、统一通信库FlagCX等板块 实现对11家厂商18款异构AI硬件的统一支持 [8] - 通用向量模型BGE系列发展为门类齐全的生态系统 近期发布BGE-code-v1、BGE-VL-v1 5和BGE-VL-screenshot三款模型 在代码检索和多模态检索任务中取得领先表现 [9] - 开源轻量长视频理解模型Video-XL-2实现单GPU处理万帧视频的能力 编码2048帧视频仅需12秒 推理效率大幅领先同类别竞品模型 [9][10] 应用场景展示 - 基于RoboOS 2 0和RoboBrain 2 0的机器人展示了餐饮互动、抓娃娃游戏和家居物品收纳等技能 融合视觉、听觉、思考、语音交互等能力实现"心有灵犀"互动游戏 [11] - Brainμ与脑机接口设备结合 在消费级便携式脑电设备上实现接近医用级设备数据采集的稳定解析能力 降低脑机接口应用门槛 [11] - 数字孪生心脏药物安全性评价平台将全尺度药物毒性仿真时间由近90天减少到一天之内 无感智能坐垫系统可对心率、心率变异性、呼吸频率等指标进行高精度实时监测 [12][13]
北京智源大会在京开幕,智源“悟界”系列大模型发布
北京日报客户端· 2025-06-06 21:31
人工智能技术发展 - 北京智源大会发布多项全球前沿人工智能成果,包括图灵奖获得者、明星AI企业创始人在内的数百位全球青年科学家、人工智能顶尖学者和产业专家参与[1] - 人工智能正在加速从数字世界走向物理世界,原生多模态世界模型Emu3具备在物理世界中理解和推理的能力[3] - 原生多模态模型在训练初始阶段就将文字、图像、声音等模态数据纳入其中,使模型能更"融会贯通"地理解世界[4] - "悟界"系列大模型成果还包括脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2[4] - Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,正与多家科研机构合作探索应用[4] 具身智能机器人发展 - 具身智能机器人成为AI行业关注热点,作为连接人工智能与现实世界的重要载体[6] - 宇树G1机器人、银河通用Galbot机器人、天工2.0等在北京智源大会上展示多种功能[8] - 银河通用的具身大模型机器人Galbot已在北京7处无人药店上岗,计划2024年在北京、上海、深圳开设100家无人药店[8] 北京人工智能产业 - 2024年北京人工智能核心企业数突破2400家,核心产业规模近3500亿元,均占全国一半[9] - 北京坚持主流路线与颠覆性路线并重,持续支持人工智能技术创新,推动人工智能应用创新[9] 人工智能前沿讨论 - 图灵奖得主约书亚·本吉奥提醒当前AI在规划、推理等领域进步飞速,部分前沿模型已显现类生物主体行为[10] - 另一位图灵奖得主理查德·萨顿提出要以去中心化合作替代中心化控制,通过信任、协调和市场机制引导AI与人类共生[13]
智源研究院发布“悟界”系列大模型,推动AI迈向物理世界
新京报· 2025-06-06 18:43
智源研究院发布"悟界"系列大模型 - 公司推出"悟界"系列大模型 包括原生多模态世界模型Emu3 脑科学多模态通用基础模型见微Brainμ 跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1][4] - "悟界"模型代表对虚实世界边界的突破 推动人工智能从数字世界迈向物理世界 [3] 大模型技术发展趋势 - 大模型正从大语言模型向原生多模态大模型 世界模型方向演进 目标是让AI感知和理解物理世界 [2] - 提升大语言模型性能的三大路径 强化学习后训练和推理提升 数据合成突破 多模态数据利用 [2] - 多模态数据是文字数据的千万倍以上 目前远未被有效利用 [2] 脑科学多模态模型应用 - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 [4] - Brainμ在抑郁症 阿尔茨海默病 帕金森综合征预测上超越专用模型 [5] - 公司正与神经科学实验室 脑疾病研究团队和脑机接口企业合作 包括在便携式消费级脑电系统上重建感觉信号 [5] 具身智能发展突破 - RoboBrain 2 0任务规划准确率较1 0提升74% 全链路平均响应时延低于3毫秒 端云通信效率提升27倍 [8] - RoboOS 2 0实现无服务器一站式轻量化部署 机器人部署时间从天级降至小时级 [8] - 当前具身智能面临硬件不成熟 数据短缺 模型能力弱等挑战 形成发展循环悖论 [7] 微观生命模型创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的突破 [9] - 该模型可预测蛋白质构型分布 助力新型治疗方案研发 缩短生物医药研发周期 [9] - 公司构建全球首个高速跨尺度心脏药物安全性评价平台 将药物评价时间从90天缩短至1天 [9]
【智源发布“悟界”系列大模型】6月6日,第七届“北京智源大会”在北京开幕。在大会上,智源研究院推出“悟界”系列大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。
快讯· 2025-06-06 14:00
智源发布"悟界"系列大模型 - 智源研究院在第七届"北京智源大会"上推出"悟界"系列大模型 [1] - 系列包括原生多模态世界模型Emu3 [1] - 系列包括脑科学多模态通用基础模型见微Brainμ [1] - 系列包括跨本体具身大小脑协作框架RoboOS 2 [1] - 系列包括具身大脑RoboBrain 2 [1] - 系列包括全原子微观生命模型OpenComplex2 [1]
ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
机器之心· 2025-05-27 14:38
核心观点 - 提出ETT(End-to-End Vision Tokenizer Tuning)方法,实现视觉tokenization与目标自回归任务的联合优化,打破传统方法中视觉tokenizer固定不变的局限 [4] - ETT通过引入视觉tokenizer的码本嵌入和token级别字幕损失函数,使视觉tokenizer能根据下游任务反馈调整参数,显著提升多模态任务性能 [6] - 在模型参数和数据规模更小的条件下,ETT在多项基准测试中达到或超越现有最先进视觉语言模型的表现 [12][14][17] 传统方法的局限与ETT的突破 - 传统方法使用冻结的视觉tokenizer离散索引,导致特征表示能力浪费且无法端到端训练 [6] - ETT创新性引入码本嵌入(码本大小131,072,特征维度256)替代离散索引,结合联合优化策略释放视觉tokenizer潜力 [6][10] - 相比Emu3等框架,ETT简化模型架构并减少计算开销,同时提升多模态理解能力 [12] ETT核心架构与训练策略 - 基于改进的IBQ框架,分三阶段训练:前期对齐学习(冻结参数训练投影层)、语义学习(端到端联合优化)、后训练(特定任务微调) [10][11] - 训练中同时优化caption损失函数和重建损失函数,保持图像重建能力的同时增强语义感知 [11] - 投影层采用多层感知机,匹配视觉嵌入与预训练语言模型的隐藏层维度 [10] 性能表现 多模态理解 - MMBench测试中性能与连续编码器模型相当,部分子任务更优(如ETT 58.8 vs QwenVL-Chat 60.6) [12] - 在GQA(59.4)、TextVQA(56.8)等任务中表现优于Chameleon(47.2/4.8)等离散VLM模型 [12] 多模态生成 - 在T2I-CompBench的颜色(81.03)、形状(58.19)、纹理(72.14)子任务上超越Emu3(79.13/58.46/74.22) [15] - GenEval测试中Overall得分0.63,接近DALL-E3(0.67)且优于SDXL(0.55) [15] 视觉重构 - 保留低级细节的同时提升高级语义表示能力,如改善文本渲染效果 [17] 潜在发展与局限 - 当前数据规模和模型容量仍有扩展空间 [19] - 未来计划探索从头训练视觉tokenizer,并扩展至视频、音频等多模态场景 [19] - 方法易于实现集成,有望推动多模态基础模型应用 [25]