腾讯混元世界模型1.5(HY WorldPlay)
搜索文档
腾讯研究院AI速递 20251218
腾讯研究院· 2025-12-18 00:01
行业核心动态:AI模型与产品密集迭代升级 - OpenAI推出全新图像生成模型ChatGPT Images,图像生成速度提升4倍,API价格比前代降低20% [1] - Meta开源音频分割模型SAM Audio,支持文本、视觉和时间跨度提示,在超过1亿条视频上训练,运行速度快于实时处理 [2] - 小米开源大模型MiMo-V2-Flash,总参数3090亿,活跃参数150亿,在SWE-bench Verified得分73.4%超越所有开源模型 [3] - 腾讯混元世界模型1.5开源,支持创建实时交互3D世界,以24FPS速度生成720P高清视频 [4] - 谷歌在Gemini中深度整合Opal工作流,推出Super Gems功能和新工作流构建器 [7] - OpenAI发布专家级科学能力评估基准FrontierScience,包含700余道题目,GPT-5.2在奥赛赛道得分77% [8] 模型性能与技术创新 - ChatGPT Images支持添加、删减、组合、融合等多种编辑,文本渲染能力增强,内置数十种预设滤镜和提示词 [1] - SAM Audio核心引擎PE-AV基于Perception Encoder扩展,实现多模态融合,在多种音频分离任务上达到SOTA水平 [2] - MiMo-V2-Flash采用5比1混合滑动窗口注意力机制,使KV缓存减少近6倍,轻量级多Token预测使推理速度提升2-2.6倍 [3] - 腾讯混元世界模型1.5核心创新包括重构记忆机制实现分钟级几何一致性、Context Forcing蒸馏方案和基于3D的自回归扩散模型强化学习 [4] - Vidu Agent具备分镜级可控力,能保持产品人物场景在15-30秒视频中的一致性,并支持精细化编辑 [5][6] - FrontierScience基准的研究赛道采用基于量规的10分制评估,关注推理步骤正确性,揭示模型存在推理逻辑错误等问题 [8] 商业化与成本策略 - ChatGPT Images功能向所有ChatGPT用户推出,API以GPT Image 1.5形式提供 [1] - MiMo-V2-Flash后训练采用多教师在线策略蒸馏,仅需传统方法1/50算力达到教师性能峰值,API限时免费开放,成本为每百万token输入0.1美元输出0.3美元 [3] - Vidu Agent首推多模态Agent API,为企业提供端到端交付结果,支持上传爆款视频和产品图批量产出同类高质量视频 [5][6] - 谷歌Gemini的新工作流可直接生成可分享链接并公开发布,不再依赖Google Drive权限设置 [7] 行业战略与研发投入 - 原DeepSeek成员罗福莉加入小米并发表演讲,强调AI进化的下个起点是能与物理世界交互的模型,认为真正护城河是科学研究文化与将未知问题转化为可用产品的能力 [9] - 罗福莉提出开源是实现AGI普惠化、确保人类智慧共同进化的唯一路径 [9] - 小米未来五年研发投入预计超2000亿元,2026年预计投入约400亿元 [9]