腾讯研究院AI速递 20260209
腾讯研究院·2026-02-09 00:03

生成式AI模型竞争与发布 - Anthropic发布Claude Opus 4.6,在GDPval-AA知识工作评测中领先GPT-5.2约144 Elo,并拿下多项评测最高分[1] - Claude Opus 4.6首次支持1M token上下文窗口和128K token输出上限,其长上下文检索测试准确率达到76%,是Sonnet 4.5的四倍[1] - OpenAI在Claude发布半小时后推出GPT-5.3-Codex,在Terminal-Bench 2.0评测中拿下77.3%的最高分,速度比5.2-Codex快25%[2] - GPT-5.3-Codex是首个参与创造自己的模型,其早期版本被用于调试自身训练过程、管理部署和分析评测结果[2] - 在Arena.ai权威榜单中,Claude Opus 4.6在代码、文本、专家三大竞技场全部登顶第一,其代码竞技场得分比前代暴涨106分[10] - 在EpochAI的Frontier Math测试中,Claude Opus 4.6在Tier1-3级别得分40%,在Tier4极难级别得分21%,首次追平GPT-5.2(xhigh)[10] 模型性能与定价策略 - Anthropic为Claude Opus 4.6推出极速模式,速度比标准版快2.5倍,已向Claude Code和API用户开放[3] - 极速模式定价显著提高,输入为30美元/百万token,输出为150美元/百万token,长上下文价格翻倍,2月16日前可享50%折扣[3] - 该模式适用于快速迭代代码修改和实时调试,建议在会话开始时开启以获得最佳成本效益[3] - GPT-5.3-Codex在OSWorld-Verified评测中的得分从38.2%跳升至64.7%,接近人类72%的基准,并在网络安全CTF评测中达到77.6%,成为首个被标为High capability的网络安全模型[2] 产品功能与平台更新 - Anthropic产品线同步更新,Claude Code新增agent teams功能,Excel升级,PowerPoint发布research preview,API新增adaptive thinking和context compaction功能[1] - 腾讯正式开放WorkBuddy内测,这是一款全场景职场AI智能体桌面工作台,可在本地电脑自主规划并执行多模态复杂任务[7] - WorkBuddy核心能力包括自动批量处理文件、生成文档/表格/PPT、数据深度分析、行业调研,并内置多种模型切换和高危指令拦截功能[7] - 自1月19日内测以来,WorkBuddy已服务超过2000名腾讯员工,主要面向HR、行政、运营、销售等非技术背景职场群体[7] 视频生成与多模态AI进展 - 字节跳动上线Seedance 2.0,支持自分镜自运镜、音画同步生成、多镜头叙事和最多12个多模态参考文件[5] - Seedance 2.0的可用率从行业平均不到20%直接提升至90%以上,实际制作成本从理论的近五倍降至接近理论成本[5] - 该模型展现出“世界模型”雏形,能理解物理规律、因果关系和情绪匹配[6] - Waymo推出基于DeepMind Genie 3构建的世界模型,能生成高度逼真且可交互的3D环境,可模拟龙卷风、大象等极罕见驾驶场景[8] - Waymo Driver已累计完成近2亿英里完全自动驾驶,该世界模型使系统能在虚拟世界中提前演练数十亿英里复杂场景[8] 新兴模型与市场动态 - OpenRouter平台上线搜索排名第一的神秘匿名模型Pony Alpha,在编程、逻辑推理和角色扮演方面表现突出,可免费使用[4] - Pony Alpha支持推理且有200K上下文,已有用户用它完成包含500行代码的完整Web应用[4] - 在开发者实战中,GPT-5.3-Codex更受青睐,有顶级开发者用它14天复刻2003年游戏,也有极客月费1万美元让AI生成700个科研假设[10] 行业领袖观点与长期展望 - ARK Invest预测2030年全球GDP增速将突破7%,由五大技术融合驱动的增长呈去通胀性,并将比特币2030年目标价上调至150万美元[12] - 中美AI差异化发展,中国凭借开源路线突围,美国主导应用层全球竞争力,AI时代决定性优势的核心在于专有数据[12] - Tesla凭借垂直整合领跑Robotaxis赛道,未来出行每英里成本或低至0.2美元,2030年或出现百万亿市值公司,Tesla被认为最具潜力[12] - 马斯克透露SpaceX计划每年发射2-3万次,预测5年后太空算力将超全球总和,并断言36个月内太空将成为AI算力部署最便宜的地方[9] - 马斯克称特斯拉Optimus人形机器人为“造钱永动机”,并预测其3年产能达百万台、4年产能达千万台[9]