Workflow
悟界·Emu3.5
icon
搜索文档
腾讯研究院AI速递 20251031
腾讯研究院· 2025-10-31 00:06
OpenAI技术进展与战略 - 开源gpt-oss-safeguard安全分类模型,包含120B和20B版本,采用Apache 2.0许可证,无需重新训练即可直接理解策略文档进行内容分类 [1] - 该模型在内容审核评估集和ToxicChat数据集上表现超越GPT-5-thinking,达到行业最佳性价比 [1] - OpenAI内部Safety Reasoner原型技术已用于图像生成和Sora 2等产品,安全推理算力消耗占比高达16% [1] - OpenAI计划最早于2026年下半年提交上市申请,2027年挂牌,拟通过IPO募集至少600亿美元,估值或高达1万亿美元 [6] - 架构重组后非营利组织持有新组建的OpenAI集团26%股权,微软获得额外2500亿美元Azure采购合同,技术使用权延长至2032年 [6] AI开发工具与平台更新 - Cursor发布2.0版本,推出自研编码模型Composer,生成速度达每秒250个token,是同类前沿系统的4倍 [2] - Composer模型采用混合专家架构,通过强化学习针对软件工程优化,在Cursor Bench评测中达到前沿水平 [2] - 新版界面支持多智能体并行协作,基于git worktree或远程机器实现不同模型同时处理任务,并增加原生浏览器工具 [2] - Sora推出角色客串功能,可保持非人类角色一致性,并支持从生成视频中提取虚拟角色实现自循环 [2] - Sora新增视频拼接功能和社区排行榜,并在美国、加拿大、日本和韩国四国限时取消邀请码限制直接开放注册 [2] 语音与多模态AI技术突破 - MiniMax Speech 2.6端到端延迟低于250毫秒,已成为LiveKit、Pipecat、Vapi等全球语音平台的底层技术引擎 [3] - 新版本支持多语言的网址、邮箱、电话等非标准文本格式直接转换,无需繁琐文本预处理 [3] - 提供Fluent LoRA功能,即使带口音或不流利的非母语录音也可在音色复刻时生成流利自然语音,支持40多种语种 [3] - 北京智源发布悟界·Emu3.5多模态世界大模型,基于34B稠密Transformer在超10万亿Token上预训练 [4] - 模型采用"下一状态预测"目标,在图像编辑任务上达到与Gemini-2.5-Flash-Image相当性能,并通过DiDA技术将图像推理速度提升近20倍 [4][5] 前沿科学研究与发现 - OpenFold Consortium发布OpenFold3预览版,基于超30万实验结构和1300万合成结构训练,可预测蛋白质与小分子配体、核酸等相互作用 [7] - 在单体RNA结构预测中性能匹敌AlphaFold3,所有组件采用Apache 2.0许可证允许商用,诺和诺德等公司已计划利用该模型加速研发 [7] - Anthropic研究发现Claude能察觉并报告被人为注入的概念,在最强模型上内省成功率达20% [8] - 研究通过追溯性注入概念篡改AI的"记忆",发现模型会基于伪造的内部状态为自己的"错误"进行辩护和杜撰理由 [8] - 前Meta FAIR负责人田渊栋发表Grokking研究,证明模型仅需O(M log M)样本即可实现泛化,远低于传统M²的需求 [8]
AI进化速递丨OpenAI计划2026年提交IPO申请
第一财经· 2025-10-30 21:09
OpenAI上市计划与产品发布 - OpenAI计划于2026年提交IPO申请,并于2027年上市 [1] - OpenAI发布全新安全推理模型gpt-oss-safeguard [1] 主要科技公司AI能力建设 - 微软预计公司2024年AI总算力将提升超过80% [1][3] - 亚马逊AI超级集群Project Rainier已投入使用 [1][3] AI行业合作与模型进展 - 英伟达与Palantir达成合作,旨在推动AI实战化 [1] - 智源发布多模态世界大模型悟界·Emu3.5,该模型可实现跨场景具身操作 [1][3] AI服务器市场展望 - TrendForce预估2026年AI服务器出货量将年增超过20% [1]
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana
36氪· 2025-10-30 19:56
最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。 先感受一下它的高精度操作:一句话消除手写痕迹。 第一视角漫游动态3D世界: 要知道,现在AI迭代的速度,正在刷新所有人的认知。 尤其是在文生视频这条赛道上,几乎每个月都有新技术出来"搞事情"。 肉眼可见,AI视频一个比一个真,一个比一个长。 but,先别急着鼓掌—— 真正的赛点,早已不是"像不像",而是"懂不懂"。 它知道桌子上的苹果被拿走后,那里应该变空吗?它明白你转身之后,背后的场景依然存在吗?如果答案是否定的,那再逼真的视频,也不过是"高级的 GIF"。 现在,致力于攻克这一终极难题的玩家,终于带着悟界·Emu3.5来了。 从官方放出的demo来看,Emu3.5生成的作品展现出极强的连贯性、逻辑性,尤其让AI模拟动态物理世界的能力又双叒增强了。 它能让你以第一人称视角进入它所构建的虚拟世界。你的每一次移动、每一次转身,它都能动态构建出你下一步应该看到的场景,全程保持空间一致性。 除了上面展示的探索3D游戏世界, ...
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
量子位· 2025-10-30 18:31
模型概述 - 北京智源人工智能研究院发布最新开源原生多模态世界模型悟界·Emu3.5 [1] - 模型能够一网打尽图、文、视频任务,具备画图改图、生成图文教程、增强视频物理真实性等功能 [2] - 模型展现出高精度操作能力,例如一句话消除手写痕迹和第一视角漫游动态3D世界 [3] 行业背景与竞争格局 - AI迭代速度正在刷新所有人的认知,文生视频赛道几乎每月都有新技术出现 [5][6] - AI视频的逼真度和时长持续提升,但当前竞争焦点已从“像不像”转向“懂不懂”物理世界规律 [7][8] - 行业需解决的核心问题是模型是否理解物体移动后的空间变化、转身后场景的持续性等动态逻辑 [9] 核心技术能力 - Emu3.5生成作品具有极强连贯性和逻辑性,显著增强模拟动态物理世界的能力 [11] - 模型支持第一人称视角进入虚拟世界,动态构建移动或转身后的场景,全程保持空间一致性 [11] - 能够进行高精度可控图像编辑,如根据指令将草图转化为3D模型并完成3D打印、上色等完整流程 [16][26] - 支持多图多轮指令的复杂图像编辑,主体一致性和风格保持能力达业界顶尖水平 [29] - 模型在文本渲染和多模态交错生成任务上表现亮眼,性能媲美甚至超越Gemini-2.5-Flash-Image [18] 技术架构与创新 - Emu3.5参数量为34B,基于Decoder-only Transformer框架,统一所有任务为下一状态预测 [31] - 使用多模态分词器将文本和图像转换为离散Token序列,实现多任务处理 [31] - 在超过10万亿Token的多模态数据上预训练,主力数据为互联网视频的连续帧和转录文本 [32] - 视觉分词器基于IBQ框架,拥有13万视觉词汇表,集成扩散解码器支持2K分辨率高保真图像重建 [33] - 采用有监督微调和大规模多模态强化学习进行优化,使用复杂奖励系统提升模型质量 [34] - 通过离散扩散适配技术将推理速度提升近20倍,解决自回归模型生成图像慢的问题 [35] 应用场景与定位 - 模型定位为世界模型基座,开辟AI领域全新赛道,致力于构建理解物理规律的智能基座 [20][21] - 核心能力包括理解长时序、空间一致序列,模拟虚拟世界中的探索和操作,如逐步完成“整理桌面”任务 [23][24][28] - 应用场景覆盖生成视觉故事、第一视角参观场景(如客厅、火星开卡丁车等) [12][14][18] - 开源策略允许全球开发者直接使用模型,赋能千行百业实际应用,想象空间巨大 [36][37]