Hy3 preview
搜索文档
姚顺雨腾讯模型首秀!不卷参数只做 “听话打工人”,Hy3 preview登场 | 附实测
AI前线· 2026-04-23 17:38
Hy3 Preview模型发布与核心特点 - 腾讯正式发布由姚顺雨团队主导的新模型Hy3 preview,这是混元重建后训练的首个模型,也是其迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现大幅提升 [2] - 该模型是一个快慢思考融合的MoE语言模型,总参数295B,激活参数21B,最大支持256K上下文长度,主打高性价比,适用于Coding和智能体类场景 [2] - 模型是腾讯尝试解决真实世界复杂工程问题的开端,旨在通过WorkBuddy智能体生产力框架,让AI与用户在真实业务场景中共同进化 [2] 模型重建背景与战略原则 - 2026年2月,腾讯混元重建了预训练和强化学习的基础设施,并确立了模型追求实用性的三个原则:能力体系化、评测真实性、性价比追求 [3][5] - 公司强调不推崇“偏科”,注重多种能力的深度协同;主动跳出易被“刷榜”的公开榜单,通过自建题目、人工评测等方式评估真实战斗力;通过架构和推理框架的深度协同设计来降低任务成本 [5] - 腾讯首席AI科学家姚顺雨表示,Hy3 preview是混元大模型重建的第一步,目标是获得开源社区和用户的真实反馈以提升实用性,并通过与腾讯产品的深度Co-Design提升模型在真实场景的综合表现 [3] 模型核心能力提升 - **上下文学习和指令遵循能力**:基于腾讯业务场景灵感提出的CL-bench和CL-bench-Life评估显示,Hy3 preview在该能力上显著提升 [9] - **复杂推理能力**:在FrontierScience-Olympiad、IMOAnswerBench等高难度理工科推理任务中表现突出,在清华大学求真书院数学博资考(26春)和全国中学生生物学联赛(CHSBO 2025)中取得优异成绩 [11] - **代码与智能体能力**:在SWE-Bench Verified、Terminal-Bench 2.0等主流代码智能体基准,以及BrowseComp、WideSearch等主流搜索智能体基准中取得有竞争力的结果,提升最为显著 [13] - **内部评测表现**:在内部评测集如Hy-Backend、Hy-Vibe Bench、Hy-SWE Max上均体现出强竞争力 [19] - **综合性价比**:比较各个开源模型的大小与智能体综合表现,Hy3 preview展现出高性价比 [21] 成本优化与定价策略 - 得益于模型和推理框架的深度协同及全方面优化,整体推理效率提升40%,成本相比上一代模型大幅下降 [25] - 在腾讯云大模型服务平台TokenHub上,Hy3 preview输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens [25] - 腾讯云推出定制的Hy3 preview Token Plan套餐,个人版定价最低28元/月,为Agent开发和“龙虾”应用提供更具性价比选择 [25] 内部业务接入与效果验证 - 在正式上线前,Hy3 preview已在腾讯主要AI业务进行产品测试并获得明显正收益 [27] - **元宝**:通过深度Co-Design,提升了意图理解精准度、文本创作质量、深度搜索等硬核指标,并对文风、情商等进行了精细化调优,带来更智能且更具“活人感”的交互体验 [28] - **ima**:在知识库问答和通用问答场景下,处理长文能力出色,特别是在检索类任务中,回答的准确性、覆盖度和全面性表现较好 [28] - **CodeBuddy、WorkBuddy**:首token延迟降低54%、端到端时长降低47%、成功率提升至99.99%+,已稳定驱动最长495步的复杂Agent工作流 [28] - **公众号AI分身和AI客服**:相比Hy2,在用户意图理解、复杂上下文承接和知识信息组织方面表现更成熟,过度脑补、主观代入和情绪化表达显著减少 [29] - **和平精英AI NPC**:在游戏局外能精准理解角色设定并输出关联内容,在局内对战场景中回复节奏贴近真实玩家,展现出优秀的稳定性与拟人化扮演能力 [29] - **腾讯文档AI PPT**:较上一版本(Hy2),生成成功率提升20%,评测得分提升10%,同时生成耗时缩短20% [30] - **QQ AI助手小Q**:在长文本首字节时延、整体响应速度与流式输出效率方面显著优化,数学推理表现提升尤为明显,在OpenClaw官方PinchBench QQ智能体场景测试中取得突出效果 [30] 产品上线与生态支持 - 目前,Hy3 preview已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻等多条主线产品也在陆续上线 [31] - 模型支持接入流行的开源智能体产品,如OpenClaw、OpenCode、KiloCode等,并已上架腾讯云大模型服务平台TokenHub [31] 第三方实测表现 - **英文视频处理**:能通过务实的方法(如使用Python脚本)获取视频信息和字幕,并完成内容提炼和翻译任务,虽然翻译成果存在技术术语不一致等问题,但不会凭空瞎编 [35][38][48] - **研究报告生成**:在调研“AI一人公司趋势”任务中,能通过浏览器搜索生成结构清晰、信息可靠的全面报告,随机抽检的数据准确性良好 [55][56] - **网站搭建**:能从零开始生成一个AI新闻聚合网站,自主选择技术栈并附解释,展现了debug能力,但成品在时间排序、视觉优化等方面仍有不足 [60][62][67][68] - **高难度STEM仿真**:能通过调用terminal技能,编写Python脚本求解Lorentz力方程并产出3D轨迹图,展现出抽象通用方法和物理问题处理能力 [70][72] - **Skill加载与执行**:能学习已有的文案Skill,并根据文章内容生成符合预设风格和字数要求的传播文案,关键信息抓取准确,且会进行自查 [76][82] 整体评价与业务影响 - 实测显示,Hy3 preview在任务执行中精准务实,能自动调用工具解决问题,对于明确具体的需求能提供一致性较好的答案,但在处理需要发散和创意的抽象需求时,内容可能显得“一板一眼” [83] - 该模型是符合姚顺雨和腾讯业务理念的产物,也是大众对腾讯AI能力的一次检验 [7] - 公司集团层面正加速将AI融入游戏、广告和社交等核心业务,最新财报显示增值服务收入同比增长14%至899.2亿元,营销服务收入同比增长17%至411.2亿元,金融科技及企业服务业务收入同比增长8%至608.2亿元 [6]