腾讯研究院AI速递 20251031

OpenAI技术进展与战略 - 开源gpt-oss-safeguard安全分类模型，包含120B和20B版本，采用Apache 2.0许可证，无需重新训练即可直接理解策略文档进行内容分类 [1] - 该模型在内容审核评估集和ToxicChat数据集上表现超越GPT-5-thinking，达到行业最佳性价比 [1] - OpenAI内部Safety Reasoner原型技术已用于图像生成和Sora 2等产品，安全推理算力消耗占比高达16% [1] - OpenAI计划最早于2026年下半年提交上市申请，2027年挂牌，拟通过IPO募集至少600亿美元，估值或高达1万亿美元 [6] - 架构重组后非营利组织持有新组建的OpenAI集团26%股权，微软获得额外2500亿美元Azure采购合同，技术使用权延长至2032年 [6] AI开发工具与平台更新 - Cursor发布2.0版本，推出自研编码模型Composer，生成速度达每秒250个token，是同类前沿系统的4倍 [2] - Composer模型采用混合专家架构，通过强化学习针对软件工程优化，在Cursor Bench评测中达到前沿水平 [2] - 新版界面支持多智能体并行协作，基于git worktree或远程机器实现不同模型同时处理任务，并增加原生浏览器工具 [2] - Sora推出角色客串功能，可保持非人类角色一致性，并支持从生成视频中提取虚拟角色实现自循环 [2] - Sora新增视频拼接功能和社区排行榜，并在美国、加拿大、日本和韩国四国限时取消邀请码限制直接开放注册 [2] 语音与多模态AI技术突破 - MiniMax Speech 2.6端到端延迟低于250毫秒，已成为LiveKit、Pipecat、Vapi等全球语音平台的底层技术引擎 [3] - 新版本支持多语言的网址、邮箱、电话等非标准文本格式直接转换，无需繁琐文本预处理 [3] - 提供Fluent LoRA功能，即使带口音或不流利的非母语录音也可在音色复刻时生成流利自然语音，支持40多种语种 [3] - 北京智源发布悟界·Emu3.5多模态世界大模型，基于34B稠密Transformer在超10万亿Token上预训练 [4] - 模型采用"下一状态预测"目标，在图像编辑任务上达到与Gemini-2.5-Flash-Image相当性能，并通过DiDA技术将图像推理速度提升近20倍 [4][5] 前沿科学研究与发现 - OpenFold Consortium发布OpenFold3预览版，基于超30万实验结构和1300万合成结构训练，可预测蛋白质与小分子配体、核酸等相互作用 [7] - 在单体RNA结构预测中性能匹敌AlphaFold3，所有组件采用Apache 2.0许可证允许商用，诺和诺德等公司已计划利用该模型加速研发 [7] - Anthropic研究发现Claude能察觉并报告被人为注入的概念，在最强模型上内省成功率达20% [8] - 研究通过追溯性注入概念篡改AI的"记忆"，发现模型会基于伪造的内部状态为自己的"错误"进行辩护和杜撰理由 [8] - 前Meta FAIR负责人田渊栋发表Grokking研究，证明模型仅需O(M log M)样本即可实现泛化，远低于传统M²的需求 [8]