腾讯出牌方式变了

腾讯混元大模型Hy3 preview发布的市场反应与技术定位 - 文章核心观点:腾讯新发布的混元Hy3 preview语言模型,其市场声量与讨论度未及预期,主要源于同期行业竞品密集发布以及市场对“颠覆性”产品的过高期待,但该模型是腾讯混元技术体系推倒重建后的首份落地成果,其研发路线强调与腾讯业务生态的深度绑定和实用性,而非单纯追求参数规模或榜单排名,这体现了公司务实主义的战略选择与市场期待之间存在错位[5][7][9][10][24] 市场对姚顺雨及Hy3 preview的高期待与现实落差 - 市场对清华姚班出身、前OpenAI核心研究员姚顺雨加盟腾讯并主导混元技术重建抱有极高期待,期待其能推出一款颠覆性的新模型[5] - 腾讯在人事安排上给予姚顺雨极高权限,身兼首席AI科学家、AI Infra部与大语言模型部负责人,并向总裁刘炽平、技术工程事业群总裁卢山双线汇报,从集团层面确立了大模型的战略核心地位[9] - 腾讯总裁刘炽平在3月18日财报电话会上透露,混元全新旗舰模型Hy3.0计划于4月推出,且能力提升幅度将超过历史上任何一次迭代,进一步推高了市场预期[9] - 然而,Hy3 preview在2026年二季度与GPT-5.5、小米Mimo、Kimi K2.6、DeepSeek-V4等众多新模型同期发布,有限的声量在更新浪潮中被淹没[5][6] - 最终发布的Hy3 preview被市场认为技术突破有限,未带来预期中的惊喜,且4月底仅发布预览版,被指未体现行业巨头的执行力与爆发力[10] Hy3 preview的技术规格、性能表现与进步 - 模型规格:Hy3 preview总参数为295B,激活参数为21B,在行业动辄以1T参数“炸场”的背景下,规格被吐槽不够顶尖[11] - 综合能力:达到国内一线水平,但极限推理能力逊于GLM-5、Gemini 3.1等顶级模型;代码与智能体能力相当于四个月前的GLM-4.7水平,未实现代差级突破[11] - 性能提升:整体推理效率提升40%,首token延迟降低54%,端到端时长降低47%,成本较上一代模型大幅下降[12] - 复杂推理能力:在FrontierScience-Olympiad得70.0分,IMO Answer Bench得84.3分,整体表现超过GLM-5、Kimi-K2.5,接近Gemini 3.1 Pro与GPT-5.4[12] - 代码与智能体能力:SWE-Bench Verified通过率达74.4%,逼近GLM-5与Kimi-K2.5;Terminal-Bench 2.0得分54.4%,挤进第一梯队;Agent综合评测平均得分从Hy2的35分跃升至56分,接近旗舰模型区间[12] - 历史进步:抛开市场高预期,Hy3 preview是腾讯混元历史上进步幅度最大、实用性最强的版本[11] 与腾讯业务生态的深度协同与落地应用 - Hy3 preview确立了与产品深度协同设计(Co-Design)的研发路线,发布时已率先接入腾讯云、元宝、IMA、CodeBuddy、WorkBuddy、QQ等十余条核心产品线[14] - 办公场景:腾讯文档AI PPT功能生成成功率提升20%,评测得分提升10%,生成耗时缩短20%;WorkBuddy与国内同尺寸模型的用户盲评胜率达56%[14] - 社交与内容场景:元宝APP提升了意图理解等核心能力;公众号AI分身场景在意图理解、复杂上下文承接方面能力显著提升[14] - 游戏场景:《和平精英》全面接入AI NPC玩法,累计体验用户已突破1.1亿[15] - 广泛接入:QQ浏览器、腾讯新闻、腾讯客服等数十款腾讯核心产品均在接入过程中,模型已真正融入业务生态[15] 姚顺雨主导的研发路线与战略转向 - 姚顺雨否定了“唯榜单论”的研发逻辑,指出过去过度追逐榜单导致数据污染,影响真实场景表现,为团队划出“不迷信打榜”的清晰路径[18] - 确立了模型研发追求实用性的三大核心原则:能力体系化、评测真实性、性价比追求[19] - 团队自建了50余个基准测试集,通过自建题目、最新考试、人工评测、产品众测等方式评估模型真实战斗力,核心目标是验证真实场景可用性[20] - 选择“实用优先、放弃炸场”路线,Hy3 preview总参数甚至小于前一版本,核心资源聚焦于提升数据质量,近乎完成对Hy2模型底座的重构[20] - 技术实用性判断基于三点:300B参数量级已能充分释放核心实用能力,盲目扩大参数边际收益递减;300B级模型成本可控且可实现单机部署,而1T级模型推理成本相差数倍;绝大多数商业场景可通过工程手段弥补能力差距,300B级模型更利于私有化部署与行业定制[22] 商业化定价与市场期待错位 - Hy3 preview的API定价具有竞争力:在0-16K上下文范围内,输入最低1.2元/百万tokens,命中缓存后低至0.4元/百万tokens,输出最低4元/百万tokens;个人版套餐最低28元/月,在同级别旗舰开源MoE模型中处于最低价梯队[23] - 市场期待腾讯向上突破,拿出“碾压同行、对标GPT”的顶级旗舰,期待看到炸场的参数和震撼的跑分,而非精打细算的性价比和面向落地的工程化产品,这种期待与腾讯实际战略选择之间的错位是市场产生心理落差的核心原因[23][24] 腾讯在AI赛道的生态与商业化优势 - 生态优势:公司手握微信14.18亿月活的国民级流量入口,以及QQ、游戏、办公、内容、金融等全场景应用矩阵,是国内拥有最多真实应用场景的互联网巨头,为模型迭代提供核心“燃料”[26] - 商业化表现:2025年腾讯广告收入同比增长19%至1449.73亿元,AI是核心驱动力;游戏业务收入同比增长22%达2416亿元,超40款游戏落地AI应用;腾讯云首次实现规模化盈利,大模型相关产品收入近两年增长50倍[27] - 长期趋势:姚顺雨认为大模型上半场竞争核心是参数突破,下半场重心将转向任务定义、系统构建与真实问题解决能力,腾讯的生态优势、工程化能力、商业化体系在下半场拥有巨大想象空间[28]

腾讯出牌方式变了 - Reportify