AI模型能力突破与基准测试 - OpenAI的GPT-5.5在ProgramBench基准测试中首次实现突破,该基准要求模型仅凭可执行文件和文档从零重写程序,覆盖200道任务,此前所有前沿AI的通过率为0 [1] - GPT-5.5在ProgramBench基准上从零重建cmatrix程序,其高和超高推理模式分别使用C与Python两种语言完整通过测试 [1] - Claude Opus 4.7在同一基准测试中因大小写敏感与退出码错误,经过178次调用后失败,凸显了推理算力Scaling Law正成为编程AI能力的核心变量 [1] - 面壁智能联合清华、OpenBMB开源端侧多模态模型MiniCPM-V 4.6,该模型以13亿参数规模在同尺寸模型中登顶,对标阿里Qwen3.5-8亿参数和谷歌Gemma4-E2B-it模型 [4] - MiniCPM-V 4.6仅需6GB内存即可在端侧流畅运行,基于vLLM的token吞吐量是Qwen3.5-0.8B的1.5倍,在AA评测中仅消耗540万token即超越对手 [4] - MiniCPM-V 4.6采用LLaVA-UHD v4视觉编码技术,将图像编码量减少50%,并提供4倍/16倍混合token压缩双模式,已在汽车、PC、手机等场景落地 [4] 主要科技公司产品与战略更新 - 谷歌发布Gemini Intelligence,标志着安卓系统从操作系统转型为智能系统,覆盖手机、手表、汽车、XR眼镜及全新笔记本品类Googlebook [2] - Gemini Intelligence推出多步任务自动化、Rambler语音整理、Create My Widget、智能填表及Chrome内置Gemini助手等功能,可跨App跳转完成购物、下单等动作 [2] - 谷歌通过Quick Share兼容AirDrop、重做iOS换机迁移流程、为RCS消息提供端到端加密等方式,旨在打通跨平台壁垒,对标苹果的Apple Intelligence [2] - Anthropic面向法律行业推出超过20款MCP连接器和12个专业插件,覆盖合同管理、电子取证、文件管理、判例研究、法律AI助手等技术栈 [3] - Claude可在Word、Outlook、Excel、PowerPoint四款应用内保持上下文连贯,支持红线标注、合同审查、董事会摘要等律师日常工作 [3] - Anthropic推出涵盖商业、企业、雇佣、隐私、诉讼等12个执业领域的插件,并与Free Law Project等机构合作以降低法律服务门槛,其解决方案基于Opus 4.7模型构建 [3] - MiniMax将其Agent整体升级并更名为Mavis,桌面端上线Agent Teams功能,支持多个Agent并行协作以完成复杂长任务,旨在解决单Agent中途停摆、越跑越笨等痛点 [5][6] - Mavis采用Leader-Worker-Verifier三角色架构,通过对抗式质量门禁、状态机驱动、上下文隔离实现持续协作,区别于OpenAI、Google的同类方案 [6] - Mavis合并了TokenPlan与Agent Plan订阅,覆盖IM消息处理、Coding、研究调研、办公文档四大场景,并实现了CLI、API、Agent的全面打通 [6] - 微信支持将聊天记录一键转发至元宝AI,最多可一次性选中100条消息,并可调用Hy3 preview或DeepSeek模型进行总结、回复构思、待办整理 [7] - 元宝AI的对话采用“阅后即焚”临时模式,支持处理图像、视频、文件等多类型消息,实测可用于二手车参谋、装修砍价、群聊招聘信息梳理等场景 [7] - 元宝AI在碎片化信息整理上表现出色,还包含视频视觉理解、票数统计等场景应用,体现了腾讯AI与微信生态融合的加深 [7] 行业趋势与创业动态 - Cursor创始人Michael Truell将软件开发划分为Tab、Agent、Team三个纪元,并指出2025年Cursor的Agent请求量较Tab操作暴涨15倍以上 [9] - Cursor的企业业务线中,约75%的代码已由AI生成,公司内部30%的PR由Agent端到端自主完成,工程师角色正转型为Agent管理者 [9] - Cursor团队进行实验,让AI Agent在无人类介入的情况下,用一周时间自主开发浏览器,产出三百万行代码与可用原型,探索更自主的AI编程边界 [9] - 前阿里通义千问负责人林俊旸创立新的AI Lab,正在筹集数亿美元资金,其估值可能达到20亿美元,高榕创投与红杉资本已展开接洽 [8] - 林俊旸现年33岁,曾是阿里最年轻的P10技术高管,主导了Qwen开源模型家族的研发,目前已招募来自字节、腾讯及具有海外背景的成员加盟 [8] - 林俊旸在离职后发表《从推理式思考到智能体式思考》长文,可能暗示其研究方向,此前他曾在Qwen内部组建过机器人与具身智能小组 [8]
腾讯研究院AI速递 20260514
腾讯研究院·2026-05-14 00:03