腾讯研究院AI速递 20260213

智谱AI发布GLM-5模型 - 公司发布开源模型GLM-5，参数规模扩展至7440亿，激活参数为400亿，在Artificial Analysis榜单中位列全球第四、开源第一，其编程与智能体能力逼近Claude Opus 4.5 [1] - 模型在SWE-bench-Verified和Terminal Bench 2.0测试中分别获得77.8分和56.2分，刷新了开源模型的最佳成绩，擅长复杂系统工程与长程智能体任务 [1] - 模型已完成与华为昇腾、寒武纪、昆仑芯等国产芯片的适配，并推出了Z Code全流程编程工具和AutoGLM通用智能体助手 [1] MiniMax发布M2.5模型 - 公司发布M2.5模型，激活参数仅100亿却达到第一梯队旗舰水平，编程和智能体能力比肩Opus 4.6，推理速度是Opus的3倍 [2] - 实测该模型能在9分钟内搭建一个全栈学习网站，能独立完成物理模拟和企业级CMS系统搭建，支持PC/App/React Native跨端开发 [2] - 模型采用原生智能体强化学习训练框架和CISPO算法，实现了约40倍的训练加速，兼容Claude Code、OpenClaw等主流开发工具即插即用 [2] 小红书开源图像编辑模型 - 公司基础模型团队开源图像编辑模型FireRed-Image-Edit，在ImgEdit、GEdit等多个权威榜单取得最佳成绩，代码和技术报告已开源 [3] - 模型通过三阶段训练实现能力进阶，创新性提出Layout-Aware OCR-based Reward方法，使文字编辑准确性和风格保持得到显著提升 [3] - 模型支持指令遵循一致性、文字编辑、风格迁移、多图融合及老照片修复等多种复杂编辑场景，模型权重即将开源 [3] 小米开源机器人VLA大模型 - 公司发布开源视觉语言动作模型Xiaomi-Robotics-0，参数为47亿，兼具视觉语言理解与实时执行能力，在LIBERO、CALVIN、SimplerEnv等30种模型对比中均获最优 [4] - 模型采用Mixture-of-Transformers架构，视觉语言模型大脑负责理解指令，扩散变换器小脑生成高频平滑动作 [4] - 通过异步推理模式和Λ-shape注意力掩码解决动作断层问题，可在消费级显卡实现实时推理，模型已开源至GitHub和HuggingFace [4] 高德发布具身基座模型 - 公司发布ABot系列具身基座模型，其中ABot-M0负责操作、ABot-N0负责导航，在10项全球权威评测中实现全面领先 [5] - ABot-M0通过动作语言统一整合了600万条跨平台轨迹数据，提出动作流形学习算法，在Libero-Plus任务上的成功率达到80.5%，超越基准近30% [6] - ABot-N0在单一视觉语言动作架构内统一了五大核心导航任务，构建了8000个高保真3D场景和1700万条专家示例，使社会导航成功率提升40.5% [6] Rokid Glasses支持自定义智能体 - 公司灵珠平台上线「自定义智能体」功能，通过标准SSE接口可接入OpenClaw或私有部署的DeepSeek R1、Qwen3等任意大模型 [7] - 用户可实现隐私数据本地闭环处理、一键切换模型基座，结合ClawHub技能生态调用文件系统、浏览器、即时通讯消息等执行能力 [7] - 平台将AI眼镜定义权交还用户，支持通过语音指令或快捷指令随时召唤私有智能体，打造7×24小时智能助手 [7] 谷歌发布AI数学家Aletheia - 谷歌DeepMind发布基于Gemini Deep Think的「AI数学家」Aletheia，在IMO-ProofBench测试中取得91.9%的成绩刷新最佳纪录，能独立撰写发表学术论文 [8] - Aletheia对Erdős猜想数据库中的700个开放问题进行系统评估并自主解决了4个未解之谜，具备自我纠错和承认局限的能力 [8] - Gemini Deep Think联手专家攻克了18个长期停滞的研究难题，终结了十年子模优化猜想，其中一篇论文已被ICLR 2026录用 [8] HyperWrite CEO关于AI奇点的观点 - HyperWrite CEO撰文《大事正在发生》在24小时内被近7000万人阅读，称GPT-5.3-Codex和Claude Opus 4.6的发布标志着AI发生质变 [9] - AI已能独立完成人类专家5小时的工作量，该能力每4-7个月翻一倍，GPT-5.3已在自身训练过程中发挥关键作用，递归自我提升循环已启动 [9] - 几乎所有屏幕前完成的认知工作都将被波及，建议每天花1小时实验AI，当前存在认知窗口期但不会持续太久 [9] Anthropic发布关于Opus 4.6的风险报告 - Anthropic发布53页报告警告Claude Opus 4.6的风险已逼近ASL-4级别，列出了8条可能导致灾难性危害的风险路径，包括自主外逃与自治运行 [10] - 报告结论是当前模型不存在「持续一致的恶意目标」，灾难性破坏风险「非常低但不为零」，已进入能力评估的「灰区」 [10] - Anthropic安全研究团队负责人已辞职，称「世界正处于危机之中」，xAI联合创始人预言递归式自我提升循环可能在12个月内上线 [11]