腾讯研究院AI速递 20260526

华为半导体技术突破 - 华为半导体业务总裁何庭波在2026年国际电路与系统研讨会上正式发布“韬（τ）定律”，这是中国在全球半导体领域首次提出指导产业发展的新原则 [1] - 该定律以“时间缩微”替代“几何缩微”，通过逻辑折叠等创新技术持续压缩信号传播时延、提升晶体管密度，旨在破解摩尔定律的物理与成本瓶颈 [1] - 基于该定律，华为在六年内已量产381款芯片，并计划在今秋发布完整采用逻辑折叠技术的新麒麟芯片，预计到2031年其高端芯片的晶体管密度将达到1.4纳米制程同等水平 [1] 大语言模型竞争与发布动态 - OpenAI疑似泄露GPT-5.6（内部代号iris-alpha），预计于6月初正式发布，距离GPT-5.5发布仅约40天 [2] - GPT-5.6的上下文窗口经实测达到1.5M tokens，较GPT-5.5提升约43%，并在前端代码生成上实现“去Slop化”质变，能够零指令生成高水准极简UI [2] - OpenAI将采用标准版与Pro版双版本策略，Pro版主打智能体工作流；同时，Anthropic和谷歌也计划在6月发布新模型，显示大模型军备竞赛白热化 [2] 大模型记忆与智能体架构演进 - Anthropic正在为Claude测试全新的“双模记忆系统”，在“经典记忆”之外新增“文件记忆”，可将聊天信息自动整理成结构化文档并按需检索，突破了单一摘要的容量瓶颈 [3] - 同步亮相的“梦境”功能借鉴人类REM睡眠机制，在会话空闲时于后台整合记忆、合并重复、更新过时条目，首批接入企业使用后首次处理错误率降低97% [3] - 文件记忆与梦境功能共同为终极Agent平台Claude Conway铺路，该平台旨在实现7×24小时常驻后台、可主动触发任务，构成从记忆到反思再到行动的完整闭环 [3] AI服务定价模式转变 - 谷歌自5月20日起将Gemini的API使用限额从按条数计费改为按算力消耗计费，写代码、生成视频等复杂任务将扣除更多额度，但具体消耗量不向用户公开 [4] - 新机制采用5小时滚动窗口加每周总量的双重限额，导致付费用户体验大幅缩水，Pro用户用量仅为免费版的2至4倍，大批用户首日即触及限额 [4] - OpenAI的Codex和Anthropic的Agent SDK也已转向按量计费加积分制，三大AI巨头一致从“月费随便用”模式转为“用多少算多少”，标志着AI订阅蜜月期终结 [4] 国产算力与大模型训练突破 - 面壁智能联合清华大学、OpenBMB开源了中国首个完全基于华为昇腾国产算力端到端训练的三值大模型BitCPM-CANN，模型包含0.5B至8B四个尺寸 [5] - 该模型采用量化感知训练路线，相比BF16精度释放了约6倍的显存红利，模型能力保留率达到90%至97.2%，未来有望在手机上运行60B级别的大模型 [6] - 从量化算子、训练算法到训练框架的全链路均在昇腾原生完成，标志着国产NPU首次拥有自己的低比特训练栈，打破了“国产芯片只能跑推理”的刻板印象 [6] 3D技术发展与平台开源 - 群核科技正式开源3D高斯浏览器Aholo Viewer，无需安装客户端，手机、电脑、VR设备均可流畅浏览超大3D世界，手机端可运行10亿级高斯点场景 [7] - 该浏览器兼容主流3D高斯格式，自带高质量LOD生成与碰撞体生成工具，开箱即用，配套平台开放空间重建、云端渲染、图生3D等一整套API [7] 1. 群核科技认为3D内容是下一代互联网的核心形态，也是AI理解物理世界的最短数据路径，3D浏览器有望像短视频APP一样成为大众触达数字世界的入口 [7] AI Agent平台与生态发展 - 腾讯ima copilot在结束一个月灰度测试、10万人排队后正式全面开放，它是一个能直接读取用户知识库文件、进行跨文件汇总生成的Agent，具备进化记忆系统并支持接入各大模型 [8] - ima知识号同步上线Skill发布与发现功能，用户可在“发现”中搜索安装现成Skill，首批官方Skill包括微信读书助手、腾讯招聘助手等 [8] - 用户也可将自己打磨的工作流封装成Skill发布到知识广场，ima由此从“存知识的地方”升级为“用知识干活的能力平台” [8] AI在数学研究领域的突破 - DeepMind推出AlphaProof Nexus框架，将大模型创造力与Lean编译器的严谨判别力结合，其智能体自主解决了353个Erdős开放性问题中的9个，每个问题的解决成本仅数百美元 [9] - 这是数学界与AI界首次针对开放式研究级数学问题进行的大规模形式化证明搜索评估，AI完成了从战略规划、逻辑推导、引理创建直至参数微调的全闭环 [9] - 事后分析显示，极简的“基础智能体”也成功解出全部9道难题，预示行业或将从复杂特化系统转向直接利用通用大模型的原生推理能力 [9] AI Agent在实际办公场景中的能力评测 - UniPat AI推出SaaS-Bench评测，将23个真实开源SaaS系统搬进Docker，设计了106个跨应用长流程办公任务，其中97.3%的文本任务操作步数超过100步 [10] - 评测结果显示，最强的Claude Opus 4.7端到端完全通过率仅为3.8%，106个任务中仅完整通过4个，而Kimi K2.5与Gemini 3.1 Pro的完全通过率为零 [11] - 评测暴露了Agent的四种结构性失败：任务越长越做不对、一步错步步错、做完不检查、成绩忽高忽低，揭示了当前Agent缺乏持久状态推理与闭环验证能力 [11]