腾讯研究院AI速递 20260319
腾讯研究院·2026-03-19 00:06

生成式AI - OpenAI发布轻量级模型GPT-5.4 mini和nano,性价比显著提升:GPT-5.4 mini在SWE-Bench Pro编码测试中得分达54.4%,仅比满血版低3.3%,在计算机使用OSWorld测试中达72.1%媲美旗舰版;其输入价格为每百万token 0.75美元,输出价格为4.5美元,仅为GPT-5.4价格的1/3;GPT-5.4 nano价格更低至输入每百万token 0.2美元,输出1.25美元,并已向ChatGPT免费用户开放 [1] - OpenAI提出子智能体架构,优化资源使用:公司提出“大模型决策+小模型执行”的子智能体架构,GPT-5.4 mini在Codex中仅消耗旗舰版配额的30%,尽管长上下文处理仍是短板,但分层调度思路正成为行业共识 [1] - Anthropic推出跨设备Agent功能Dispatch:通过Cowork新功能Dispatch,用户可通过手机扫码配对远程指挥Mac上的Claude操作电脑,实现从“盯着AI干”到“AI自己干”的跨设备Agent跃迁 [2] - Dispatch功能实测表现与部署策略:MacStories实测综合成功率约50%,能完成文件查找、Notion操作、邮件总结等任务,但打开应用、跨应用发送和Safari操作仍失败;该功能目前仅面向Max订阅用户,所有操作在本地Mac执行不经过云端,手机仅作为遥控器,与此前面向程序员的Claude Code Remote Control形成双线布局,覆盖GUI桌面和命令行两大场景 [2] - MiniMax发布首个深度参与自我迭代的大模型M2.7:M2.7是首个模型深度参与自身迭代的模型,能自主构建RL Harness、更新记忆、驱动强化学习并优化过程,在内部脚手架上自主迭代超100轮实现30%效果提升 [3] - M2.7在多项专业测试中表现优异并支持多智能体协作:模型在SWE-Pro编码测试中得分56.22%接近Opus水平,VIBE-Pro端到端项目交付测试得分55.6%,支持原生Agent Teams多智能体协作,40个复杂skills保持97%遵循率;在GDPval-AA专业办公ELO测试中得分1500为开源最高,可自主完成从研报分析、营收建模到PPT/Word/Excel全套交付,公司同步开源了互动娱乐框架OpenRoom [3] - 腾讯QClaw进行重大更新,降低使用门槛:微信入口从客服号升级为小程序,支持直接接收电脑端文件,即将支持语音、图片等多模态交互;全新上线“灵感广场”功能,围绕办公提效、深度研究、娱乐游戏等场景预置常用任务和skills,用户无需编写指令即可一键运行 [4] - QClaw基于OpenClaw封装并计划扩展功能:该产品基于OpenClaw进行极简封装,主打下载即用的零门槛体验,后续将支持通过小程序创建定时任务、实时接收消息、远程切换底层模型等能力 [4] - LiblibAI推出同时面向人与Agent的AI视频创作平台LibTV:该平台同时为人类创作者提供无限画布专业工具和为Agent提供Skill接口,支持从剧本到成片的全流程闭环创作 [5][6] - LibTV上线多项独家AI能力并实现高性价比:一次性上线20多个独家AI能力,包括角色三视图、360度角度呈现、多机位9宫格、大师运镜、视频精准编辑等专业控制功能;已发布OpenClaw适配的Skill,Agent可一句话完成从剧本生成到视频剪辑全流程,平台集成可灵3.0等顶级模型,定价比竞品低最高达92% [6] 前沿科技 - 2025年图灵奖授予量子信息科学奠基人:ACM将2025年图灵奖授予Charles Bennett和Gilles Brassard,表彰二人创建量子信息科学基础,这是图灵奖首次颁给与量子物理直接相关的研究 [7] - 获奖者贡献奠定了量子通信与互联网的基石:两人于1984年提出的BB84量子密码协议,其安全性直接根植于量子力学定律而非数学假设;1993年又证明量子隐形传态可行,奠定了量子互联网的技术基石 [7] - 量子信息领域从边缘想法发展为战略领域:二人合作始于1979年,历经四十余年将量子信息从边缘想法发展为拥有完整学科体系和国家战略的领域,BB84协议的变体已在全球量子通信网络中实际部署 [7] 报告观点 - Anthropic内部Skill构建已形成体系化经验:公司Claude Code团队内部已积累数百个活跃Skills,并将其归纳为9大类型,包括库和API参考、产品验证、数据获取分析、业务流程自动化等 [8] - Skill构建的核心最佳实践:核心经验包括将Skill视为文件夹而非单个Markdown文件,利用文件系统实现渐进式信息披露;内容应聚焦“常见坑”专区而非陈述显而易见的知识;给予方向而非剧本避免过度约束 [8] - 推荐实现Skill记忆与效果衡量的方法:推荐使用日志文件或SQLite实现Skill记忆能力,通过PreToolUse Hook记录调用日志来衡量效果,并建议团队建立内部插件市场以实现Skills的发现与分发 [8] 行业动态与战略 - 月之暗面提出重构Transformer底层技术路线:公司创始人杨植麟认为单纯堆算力不够,需对优化器、注意力机制和残差连接等底层基石进行重构,推出的Kimi Linear和Attention Residuals方案获得Karpathy和马斯克高度评价 [9] - 月之暗面将Kimi进化逻辑归纳为三个维度并实现高估值增长:公司将Kimi进化逻辑归纳为Token效率、长上下文和智能体集群三个维度的共振,K2.5通过Orchestrator机制将复杂任务拆解给数十个子Agent并行处理;公司估值从去年底的43亿美元在不到半年内跳涨至180亿美元,正进行10亿美元融资,并计划继续开源MuonClip、Kimi Linear等底层创新 [9] - 英伟达CEO黄仁勋对AI影响持乐观态度并发布新产品:黄仁勋表示AI不会让人失业,反而会让人更忙碌,因为30分钟完成过去一个月的工作意味着人们将持续处于执行关键任务中 [10] - 英伟达发布新一代产品并大幅上调收入预期:公司发布Rubin架构的7颗芯片和5个机架等新品,将加速芯片收入预期提至1万亿美元;展望10年后,公司员工将从4.2万增至7.5万,并配备750万个全天候工作的智能体 [11] - 英伟达高度看好OpenClaw生态:黄仁勋高度看好OpenClaw,称其为开源代理式AI标准,类比Linux生态将持续获得全球开发者贡献,英伟达已针对性推出NemoClaw软件栈 [11]

腾讯研究院AI速递 20260319 - Reportify