腾讯研究院AI速递 20251014

OpenAI芯片战略合作 - OpenAI与博通达成战略合作，将部署100亿瓦OpenAI设计的定制AI芯片，计划于2026年下半年开始部署并于2029年底完成 [1] - 这是OpenAI一个月内与第三家芯片巨头的交易，此前已宣布获得英伟达1000亿美元投资以及与AMD达成的60亿瓦GPU部署协议 [1] - 双方过去18个月一直在设计新芯片，消息公布后博通股价一度涨超10% [1] 谷歌Gemini 3.0技术更新 - 谷歌Gemini 3.0预计10月22日发布，内测显示其前端开发能力强大，可一键生成网页、游戏、原创音乐等 [2] - 模型采用MoE架构，超万亿参数，每次查询激活150-200亿参数，上下文长度从100万跃升至数百万token，可处理整本书和代码库 [2] - 2025年9月Gemini环比增长率达46.24%，在特定测试中表现断档领先 [2] LiblibAI平台升级 - LiblibAI（哩布哩布）2.0升级接入海螺、通义万相、可灵、Pixverse、vidu等10多个热门视频模型和大量生图模型 [3] - 新增视频特效一键同款功能，接入Midjourney V7、Qwen-image、Seedream 4.0等常用生图模型，支持图生视频无缝切换 [3] - 增加资产管理菜单和AI工具箱入口，集合高清放大、抠图、产品精修等大量模型工作流，提供一站式AI体验 [3] Mamba-3架构创新 - Mamba-3已进入ICLR 2026盲审，采用梯形规则离散化、复数状态空间、多输入多输出设计三大创新 [4] - 通过引入复数隐状态实现"钟摆"记忆能够处理周期模式，MIMO设计显著提高算术强度使GPU满负荷运行 [5] - 在超长上下文信息检索测试中表现优异，推理延迟大幅降低，适合长文本处理、实时交互和边缘计算 [5] SAM 3分割技术突破 - SAM 3论文登陆ICLR 2026，实现可提示概念分割，用户通过简单名词短语或图像范例即可分割所有匹配实例 [6] - 在SA-Co基准上性能比之前系统提升至少2倍，在LVIS数据集零样本掩码平均精度达47.0，超越之前38.5的纪录 [6] - 采用双编码器-解码器Transformer架构，构建包含400万独特短语和5200万掩码的高质量训练数据，单H200 GPU处理100+物体图像仅需30毫秒 [6] 谷歌ReasoningBank记忆框架 - 谷歌提出ReasoningBank创新记忆框架，从智能体成功和失败经验中提炼记忆项形成闭环自我进化系统 [7] - 引入记忆感知的测试时扩展通过并行和顺序设置生成多样探索，使记忆合成更具普遍性 [7] - 在多项基准测试中，ReasoningBank有效性相对提高达34.2%，交互步骤减少16.0% [7] 大模型科学推理能力 - GPT-5和Gemini 2.5 Pro在国际天文学和天体物理学奥林匹克竞赛中均获金牌成绩，GPT-5在理论考试平均得分84.2% [8] - 两大模型在理论考试表现优于当届最佳学生，但在几何/空间问题上准确率（49-78%）明显低于物理/数学问题（67-91%） [8] - 标志着AI在天文、天体物理等多科学领域展现出接近顶尖人类水平的综合能力 [8] 人形机器人技术进展 - 宇树G1机器人展示空中翻转、连续后空翻、单手侧后翻等高难度动作，并演示功夫拳法和顶膝动作 [10] - 公司计划今年下半年推出身高1.8米的人形机器人，已申请近10项人形机器人相关专利 [10] - 今年上半年国内机器人行业平均增长率达50%-100%，算法升级后机器人理论上可完成各种舞蹈和武术动作 [10] 苹果智能眼镜产品规划 - 苹果智能眼镜可能与Mac配对时运行完整visionOS，与iPhone配对时切换至轻便移动界面，计划2026-2027年发布 [11] - 公司已放弃开发"Vision Air"头戴设备，将工程师精力集中转向智能眼镜开发，直接对标Meta的Ray-Ban Display [11] - 第一代产品将不配备显示功能，但包含音乐扬声器、摄像头、语音控制和可能的健康功能 [11] OpenAI发展现状与展望 - Sam Altman表示AI会改变工作性质但不会消灭真正的工作，未来工作形式可能更轻松 [12] - GPT-6开发重点是更智能的模型、更长上下文和更好记忆能力，Codex已能完成整天任务 [12] - OpenAI当前每周活跃用户达8亿，团队正在研发全新语音交互设备但短期内不会透露 [12]