多模态Scaling范式
搜索文档
腾讯研究院AI速递 20251031
腾讯研究院· 2025-10-31 00:06
OpenAI技术进展与战略 - 开源gpt-oss-safeguard安全分类模型,包含120B和20B版本,采用Apache 2.0许可证,无需重新训练即可直接理解策略文档进行内容分类 [1] - 该模型在内容审核评估集和ToxicChat数据集上表现超越GPT-5-thinking,达到行业最佳性价比 [1] - OpenAI内部Safety Reasoner原型技术已用于图像生成和Sora 2等产品,安全推理算力消耗占比高达16% [1] - OpenAI计划最早于2026年下半年提交上市申请,2027年挂牌,拟通过IPO募集至少600亿美元,估值或高达1万亿美元 [6] - 架构重组后非营利组织持有新组建的OpenAI集团26%股权,微软获得额外2500亿美元Azure采购合同,技术使用权延长至2032年 [6] AI开发工具与平台更新 - Cursor发布2.0版本,推出自研编码模型Composer,生成速度达每秒250个token,是同类前沿系统的4倍 [2] - Composer模型采用混合专家架构,通过强化学习针对软件工程优化,在Cursor Bench评测中达到前沿水平 [2] - 新版界面支持多智能体并行协作,基于git worktree或远程机器实现不同模型同时处理任务,并增加原生浏览器工具 [2] - Sora推出角色客串功能,可保持非人类角色一致性,并支持从生成视频中提取虚拟角色实现自循环 [2] - Sora新增视频拼接功能和社区排行榜,并在美国、加拿大、日本和韩国四国限时取消邀请码限制直接开放注册 [2] 语音与多模态AI技术突破 - MiniMax Speech 2.6端到端延迟低于250毫秒,已成为LiveKit、Pipecat、Vapi等全球语音平台的底层技术引擎 [3] - 新版本支持多语言的网址、邮箱、电话等非标准文本格式直接转换,无需繁琐文本预处理 [3] - 提供Fluent LoRA功能,即使带口音或不流利的非母语录音也可在音色复刻时生成流利自然语音,支持40多种语种 [3] - 北京智源发布悟界·Emu3.5多模态世界大模型,基于34B稠密Transformer在超10万亿Token上预训练 [4] - 模型采用"下一状态预测"目标,在图像编辑任务上达到与Gemini-2.5-Flash-Image相当性能,并通过DiDA技术将图像推理速度提升近20倍 [4][5] 前沿科学研究与发现 - OpenFold Consortium发布OpenFold3预览版,基于超30万实验结构和1300万合成结构训练,可预测蛋白质与小分子配体、核酸等相互作用 [7] - 在单体RNA结构预测中性能匹敌AlphaFold3,所有组件采用Apache 2.0许可证允许商用,诺和诺德等公司已计划利用该模型加速研发 [7] - Anthropic研究发现Claude能察觉并报告被人为注入的概念,在最强模型上内省成功率达20% [8] - 研究通过追溯性注入概念篡改AI的"记忆",发现模型会基于伪造的内部状态为自己的"错误"进行辩护和杜撰理由 [8] - 前Meta FAIR负责人田渊栋发表Grokking研究,证明模型仅需O(M log M)样本即可实现泛化,远低于传统M²的需求 [8]
刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力
机器之心· 2025-10-30 16:52
模型发布与定位 - 北京智源人工智能研究院发布多模态系列模型最新力作“悟界・Emu3.5”,并将其定义为“多模态世界大模型”[3][4] - 该模型被视为继语言预训练、推理和后训练之后的人工智能第三条Scaling范式,即“多模态Scaling范式”[5] - 公司相信“世界大模型”将开启全新的探索方向,此次发布不仅是常规迭代,更是一次方向性突破[6] 核心技术架构与创新 - 模型采用极简架构,基于一个340亿参数的稠密Transformer模型,创新性地将模型目标统一为“下一状态预测”[11] - 提出“离散扩散自适应”技术,将每张图像的推理速度提升近20倍,且几乎没有性能损失,使自回归模型在推理速度和生成质量上可与顶级闭源扩散模型媲美[6][24] - 模型具备“原生多模态”特性,能生成交错的视觉-语言输出,实现文本、图像、视频三种模态数据的理解和生成大一统[10][11] 训练数据与流程 - 模型在超过10万亿多模态Token(主要源自互联网视频,总时长约790年)上进行端到端预训练,以学习现实物理世界的动态规律[5][16] - 训练流程分为四个核心阶段:大规模预训练(分两步进行,分别在10万亿和3万亿Token的数据上)、监督微调(使用1500亿样本的高质量数据集)、大规模多模态强化学习以及高效自回归推理加速[17][21][22][24] - 使用视频数据作为训练主体,因其能教会模型现实世界的物理动态、时空连续性和因果规律,而静态图文对只能识别“这是什么”[16] 模型能力与表现 - 模型展现出高级功能,包括生成图文并茂的故事、长时程视觉指导、复杂图像编辑、世界探索和具身操作等[5][35][36] - 在图像编辑任务上达到与谷歌Gemini-2.5-Flash-Image相当的性能,并在文本渲染和交错内容生成任务上显著超越对手[6][28] - 具备视觉叙事能力,能生成逻辑连贯、画面风格统一的系列图文卡片;具备视觉指导能力,可生成分步的、带有视觉示例的教程[11][13] 行业影响与未来应用 - 模型标志着多模态模型从执行单一任务向能够进行连续、多步、跨模态创造的“世界学习器”迈出关键一步,为构建更接近人类自然学习方式的世界模型提供了范例[14][44] - 其世界建模与探索能力为具身智能领域补全关键拼图,可作为无限数据生成器,生成虚拟环境、任务和分步规划数据,助力训练更通用的具身智能体[35][36][39][41] - 公司宣布后续将开源Emu3.5,以支持全球AI研究社区的进一步研究,为其提供一个强大的新基座[7][45]