Workflow
OpenComplex2
icon
搜索文档
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 16:39
智源研究院"悟界"系列大模型发布 - 推出原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS2.0与具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 构建模态无关的统一表征空间 实现文本、图像、视频的任意组合理解与生成 [3] - Brainμ基于Emu3架构 引入脑信号模态数据 实现单一模型完成多种神经科学任务 在自动化睡眠分型等任务中性能显著超越现有专有模型 [4] 原生多模态世界模型技术突破 - Emu3支持多模态输入输出的端到端映射 验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 [4] - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 有望成为神经科学领域的"AlphaFold"模型 [5] - 与强脑科技BrainCO合作 首次在便携式消费级脑电系统上重建感觉信号 展现脑机接口应用潜力 [5] 具身智能技术进展 - RoboOS2.0是全球首个基于具身智能SaaS平台的开源框架 支持无服务器一站式轻量化机器人本体部署 整体性能提升30% 全链路平均响应时延低至3ms以下 [6][7] - RoboBrain2.0在多项空间推理与任务规划指标上超越主流大模型 任务规划准确率相较1.0版本提升74% 空间智能性能提升17% [8][9] - 新增多本体时空记忆场景图共享机制和深度思考能力 支持动态环境下的实时感知与建模 提升任务执行稳定性与成功率 [7][9] 微观生命模型突破 - OpenComplex2实现从静态结构预测到动态构象分布建模的突破 能表征生物分子系统的连续演化能量景观 [11] - 在CASP16竞赛中成功预测蛋白质T1200/T1300的空间构象分布 成为23支参赛队伍中唯一取得该突破的团队 [12] - 突破静态结构预测瓶颈 为原子级结构生物学提供全新建模工具 有望显著缩短生物医药研发周期并降低成本 [12] 技术发展趋势 - 人工智能正加速从数字世界走向物理世界 原生多模态世界模型是实现物理AGI的重要发展路径 [2][3] - 公司预判大模型技术将从大语言模型向多模态尤其是原生多模态世界模型方向发展 当前工作布局围绕该趋势展开 [2] - 未来5-10年可能出现大小脑融合模型 但当前数据受限不具备融合条件 现阶段采用大小脑协作框架 [7]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]
从预训练到世界模型,智源借具身智能重构AI进化路径
第一财经· 2025-06-07 20:41
AI发展趋势 - AI发展速度被低估 技术进步呈现非线性特征 大模型作为基础设施未来将更关注上层应用 [1] - AI重点从大语言模型预训练转向世界模型培育 智源研究院宣布进入"具身智能"探索阶段 [1][3] - 大模型与机器本体深度耦合 推动机器人从1.0时代迈向2.0时代 加速数字与物理世界融合 [3] 世界模型技术 - 世界模型尚无统一定义 智源通过"悟界"系列产品体现技术理解 包括Emu3/Brainμ/RoboOS 2.0等 [3][4] - Emu3实现多模态技术突破 通过视觉tokenizer统一处理图像/视频/文本 简化跨模态知识迁移 [4] - 大模型需突破时空感知隔阂 才能实现数字世界向物理世界的跨越 [4] 底座大模型发展 - 大语言模型性能提升放缓 突破路径包括强化学习/数据合成/多模态数据 [5] - 多模态数据规模可达文字数据百倍至万倍 但利用率低下 成为技术突破重点 [5] - 原生多模态世界模型本质是让AI感知物理世界 通过与硬件结合解决实际问题 [5] 具身智能挑战 - 存在"数据-能力"循环悖论:具身能力不足限制数据采集 数据稀缺又制约模型发展 [6] - 技术路线尚未收敛 不同厂商采用差异化探索方式 智源方案仅为"一家之言" [6] - 跨本体小脑技能未达共识 需通过产业迭代实现硬件标准化 [8] 机器人行业痛点 - 场景泛化能力差 单一机器人难以适应多场景工作需求 [9] - 任务泛化能力差 需搭载不同程序完成同类场景不同任务 [9] - 本体泛化能力差 机器人设计高度依赖特定工作场景 [9] 控制技术现状 - MPC控制技术存在三大局限:仅适用结构化环境/固定流程/预编程任务 [10] - 具身大模型处于GPT-3前探索期 技术路径未统一 产业落地需突破多模态融合等基础问题 [10]
对话智源王仲远:具身智能“小组赛”才刚刚开打,机器人需要“安卓”而非 iOS
AI科技大本营· 2025-06-07 17:42
大模型发展瓶颈与突破方向 - 大语言模型性能提升速度明显放缓 主要受限于互联网数据使用瓶颈 [2] - 行业共识认为AI需要从"读万卷书"转向"行万里路" 即从虚拟数据走向物理世界交互 [2] - 英伟达CEO黄仁勋提出AI下半场方向是打造"AI工厂" 迎接"物理AI"时代 [2] - 智源研究院推出"悟界"系列 旨在突破虚拟与现实边界 相比早期"悟道"系列更注重物理世界交互 [2] 多模态与具身智能技术路线 - 大模型正从语言模型转向原生多模态世界模型 目标是实现AI对物理世界的感知与交互 [4] - 具身智能面临"循环悖论":硬件不成熟→数据稀缺→模型能力弱→商业化困难→无法反哺硬件 [6] - 破解方案包括利用互联网视频数据预训练 再通过有限真实机器人数据微调 类似人类学习模式 [9][11] - 关键能力突破在于时空智能 使AI不仅能识别物体还能预测物理交互后果 [11] 智源研究院的技术布局 - 推出四大核心技术:Emu3多模态模型 RoboOS/RoboBrain协作框架 Brainμ脑科学模型 OpenComplex2原子生命模型 [7] - 采用"安卓"式开放策略 打造通用具身智能平台而非专用系统 适配各类机器人硬件 [12][13] - 明确区分"大脑"(任务规划)与"小脑"(运动控制) 采用端云协同方案而非强行融合 [14] - 定位为做"高校做不了 企业不愿意做"的通用平台研发 填补产业空白 [12] 行业发展阶段与商业化前景 - 当前阶段类比大模型爆发前的探索期 技术路线尚未收敛 产业格局未定 [15] - 预测未来3年将率先在工厂等封闭场景落地 解决重复性危险劳动 [15] - 行业处于"小组赛"阶段 各类参与者带来不同视角 远未到淘汰赛时期 [15] - 长期来看需要5-10年才可能实现真正的大小脑融合模型 [14] 典型案例与学习范式 - 通过小女孩观察学习案例 验证视频数据+强化学习的技术路径可行性 [9] - 人类通过跨本体知识传递(如语言文字) 启发AI应具备类似通用能力 [12] - 当前AI缺乏时空感知能力 例如仅能描述杯子而无法预判跌落风险 [11]
智源研究院发布“悟界”系列大模型:让AI看见并理解物理世界
经济观察网· 2025-06-07 10:55
智源研究院最新动态 - 北京智源大会开幕,吸引图灵奖得主约书亚·本吉奥、强化学习之父理查德·萨顿及谷歌、Meta、华为等全球知名AI机构学者参与[2] - 公司发布"悟界"系列四大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0及全原子微观生命模型OpenComplex2[2][3] - 院长王仲远提出大语言模型面临增长天花板,AI下一阶段需突破多模态世界模型以理解物理世界[2][4] 悟界系列模型技术细节 - Emu3采用视觉Tokenizer技术,实现文字/图像/视频的统一表征和生成[3] - Brainμ整合超100万单位神经信号数据,与清华、北大等机构合作验证脑疾病诊断等应用潜力[3] - RoboOS 2.0性能提升30%,全链路响应时延缩短至毫秒级;RoboBrain 2.0增强多机协同规划能力[3] - OpenComplex2实现原子级分子运动模拟,弥补AI静态结构预测短板[3] 战略方向与行业趋势 - 公司提出从语言模型转向世界模型,通过多模态技术让AI模拟物理世界运行与交互[4] - 具身智能短期面临商业化挑战,包括数据采集成本、伦理问题及适配成本[5] - 与香港投资管理有限公司达成战略合作,聚焦全球人才汇聚与技术全球化[6] 国际化与开源进展 - 坚持开源路线,累计开源200个模型,全球下载量达6.4亿次[7] - 通过新加坡"青源会"连接全球青年AI人才,加强欧洲合作并评估中东市场机会[6] - 历史模型"悟道"系列曾创1.75万亿参数纪录,2023年悟道3.0实现多模态突破并全面开源[6]
智源发布“悟界”系列大模型,含全球首个原生多模态世界模型Emu3
凤凰网· 2025-06-06 22:32
大模型技术突破 - 智源研究院推出"悟界"系列大模型 包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 实现文本、图像、视频的任意组合理解与生成 [2] - Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据 完成了超过100万单位的神经信号预训练 在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中性能显著超越现有专有模型 [2][3] 具身智能系统升级 - RoboOS 2 0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架 整体性能提升达30% 全链路平均响应时延低至3ms以下 端云通信效率提升27倍 [3][4] - RoboBrain 2 0任务规划准确率相较1 0版本实现74%的效果提升 在空间智能方面实现17%的性能提升 新增空间推理能力和闭环反馈机制 [5][6] - 系统已全面开源 包括框架代码、模型权重、数据集与评测基准 与全球20多家具身智能企业建立战略合作关系 [6] 生物分子建模创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的重大突破 能够表征生物分子系统的连续演化能量景观 在原子分辨率层面捕捉分子相互作用及平衡构象分布 [6][7] - 模型基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新 有效突破动态构象分布预测瓶颈 在生物分子动态特性预测、柔性系统及超大型复合物建模等任务中性能卓越 [7] 开源生态建设 - 智源已开源约200个模型和160个数据集 FlagOS系统新增统一编译器FlagTree、统一通信库FlagCX等板块 实现对11家厂商18款异构AI硬件的统一支持 [8] - 通用向量模型BGE系列发展为门类齐全的生态系统 近期发布BGE-code-v1、BGE-VL-v1 5和BGE-VL-screenshot三款模型 在代码检索和多模态检索任务中取得领先表现 [9] - 开源轻量长视频理解模型Video-XL-2实现单GPU处理万帧视频的能力 编码2048帧视频仅需12秒 推理效率大幅领先同类别竞品模型 [9][10] 应用场景展示 - 基于RoboOS 2 0和RoboBrain 2 0的机器人展示了餐饮互动、抓娃娃游戏和家居物品收纳等技能 融合视觉、听觉、思考、语音交互等能力实现"心有灵犀"互动游戏 [11] - Brainμ与脑机接口设备结合 在消费级便携式脑电设备上实现接近医用级设备数据采集的稳定解析能力 降低脑机接口应用门槛 [11] - 数字孪生心脏药物安全性评价平台将全尺度药物毒性仿真时间由近90天减少到一天之内 无感智能坐垫系统可对心率、心率变异性、呼吸频率等指标进行高精度实时监测 [12][13]
北京智源大会在京开幕,智源“悟界”系列大模型发布
北京日报客户端· 2025-06-06 21:31
人工智能技术发展 - 北京智源大会发布多项全球前沿人工智能成果,包括图灵奖获得者、明星AI企业创始人在内的数百位全球青年科学家、人工智能顶尖学者和产业专家参与[1] - 人工智能正在加速从数字世界走向物理世界,原生多模态世界模型Emu3具备在物理世界中理解和推理的能力[3] - 原生多模态模型在训练初始阶段就将文字、图像、声音等模态数据纳入其中,使模型能更"融会贯通"地理解世界[4] - "悟界"系列大模型成果还包括脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2[4] - Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,正与多家科研机构合作探索应用[4] 具身智能机器人发展 - 具身智能机器人成为AI行业关注热点,作为连接人工智能与现实世界的重要载体[6] - 宇树G1机器人、银河通用Galbot机器人、天工2.0等在北京智源大会上展示多种功能[8] - 银河通用的具身大模型机器人Galbot已在北京7处无人药店上岗,计划2024年在北京、上海、深圳开设100家无人药店[8] 北京人工智能产业 - 2024年北京人工智能核心企业数突破2400家,核心产业规模近3500亿元,均占全国一半[9] - 北京坚持主流路线与颠覆性路线并重,持续支持人工智能技术创新,推动人工智能应用创新[9] 人工智能前沿讨论 - 图灵奖得主约书亚·本吉奥提醒当前AI在规划、推理等领域进步飞速,部分前沿模型已显现类生物主体行为[10] - 另一位图灵奖得主理查德·萨顿提出要以去中心化合作替代中心化控制,通过信任、协调和市场机制引导AI与人类共生[13]
智源研究院发布“悟界”系列大模型,推动AI迈向物理世界
新京报· 2025-06-06 18:43
智源研究院发布"悟界"系列大模型 - 公司推出"悟界"系列大模型 包括原生多模态世界模型Emu3 脑科学多模态通用基础模型见微Brainμ 跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1][4] - "悟界"模型代表对虚实世界边界的突破 推动人工智能从数字世界迈向物理世界 [3] 大模型技术发展趋势 - 大模型正从大语言模型向原生多模态大模型 世界模型方向演进 目标是让AI感知和理解物理世界 [2] - 提升大语言模型性能的三大路径 强化学习后训练和推理提升 数据合成突破 多模态数据利用 [2] - 多模态数据是文字数据的千万倍以上 目前远未被有效利用 [2] 脑科学多模态模型应用 - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 [4] - Brainμ在抑郁症 阿尔茨海默病 帕金森综合征预测上超越专用模型 [5] - 公司正与神经科学实验室 脑疾病研究团队和脑机接口企业合作 包括在便携式消费级脑电系统上重建感觉信号 [5] 具身智能发展突破 - RoboBrain 2 0任务规划准确率较1 0提升74% 全链路平均响应时延低于3毫秒 端云通信效率提升27倍 [8] - RoboOS 2 0实现无服务器一站式轻量化部署 机器人部署时间从天级降至小时级 [8] - 当前具身智能面临硬件不成熟 数据短缺 模型能力弱等挑战 形成发展循环悖论 [7] 微观生命模型创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的突破 [9] - 该模型可预测蛋白质构型分布 助力新型治疗方案研发 缩短生物医药研发周期 [9] - 公司构建全球首个高速跨尺度心脏药物安全性评价平台 将药物评价时间从90天缩短至1天 [9]
刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙
机器之心· 2025-06-06 17:36
AI技术发展趋势 - AI技术从理解文字进化到建模世界、操控实体、模拟大脑、解构分子 [1] - 2025年AI领域热点包括DeepSeek R1、OpenAI o3、智能体Manus、英伟达Cosmos世界基础模型等 [2] - 智源大会聚集四位图灵奖得主、三十余位大模型企业创始人及CEO、一百多位青年科学家探讨AI前景 [3] 智源「悟界」系列大模型 - 智源推出全新「悟界」系列大模型,突破虚实边界,向物理AGI迈进 [4] - 「悟界」系列包含原生多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 大模型发展从文图视频主导的数字世界进入物理世界,理解尺度从宏观跨越到微观 [8] 原生多模态世界模型Emu3 - Emu3是全球首个原生多模态世界模型,支持文本、图像、视频、声音、脑信号等多模态统一建模 [12] - 通过新型视觉tokenizer实现多模态同构表征,支持端到端多模态输入输出映射 [14] - Emu3推动AI从单一模态理解向多模态协同跃迁,加速创意生成、智能搜索等应用落地 [14] 脑科学多模态通用基础模型见微Brainμ - 见微Brainμ基于Emu3架构,统一处理MRI、EEG、双光子成像等神经信号,累计处理超100万单位数据 [15] - 支持跨任务、跨模态、跨个体建模,性能超越专用模型,成为神经科学领域的AlphaFold [15] - 具备跨物种能力,兼容人类、小鼠、狨猴、猕猴数据,推动脑机接口技术实用化 [17] 具身智能框架RoboOS 2.0与RoboBrain 2.0 - RoboOS 2.0是全球首个具身智能SaaS平台,支持无服务器轻量化部署,性能提升30%,响应时延压缩至3毫秒以下 [22][24] - RoboBrain 2.0任务规划准确率提升74%,空间推理能力提升17%,新增深度思考与闭环反馈能力 [27][28] - 开源框架降低开发门槛,代码量仅为传统方式的1/10,与全球20多家具身智能企业合作 [24][31] 全原子微观生命模型OpenComplex2 - OpenComplex2突破生命尺度,可预测生物分子静态结构及动态构象分布 [34][35] - 基于FloydNetwork图扩散框架与多尺度原子级精度表示,精准捕捉分子动态特性 [35] - 在CASP16竞赛中唯一成功预测蛋白质T1200/T1300构象分布,推动生物医药研发加速 [36][38] 行业影响与未来展望 - 智源「悟界」系列从语言建模转向世界建模,为多模态、具身智能、AI for Science注入活力 [40] - 四大方向协同布局是认知智能走向具身智能与科学智能的关键一步 [40] - 大模型时代将深入理解与改变世界的系统,不止于提示框 [41]