混合推理模式

搜索文档
DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
机器之心· 2025-08-30 18:06
混合推理模式行业趋势 - AI行业面临过度思考导致的算力浪费问题 推动自适应计算技术发展 [2][3] - 2024年多家头部公司推出混合推理方案 通过动态调整计算资源实现50-80%的token节省 [3][7][10] - 混合推理成为大模型领域新常态 成本与性能平衡成为核心竞争力新基准 [11][48] 技术实现路径对比 - 路由方案:OpenAI的GPT-5采用多模型路由系统 根据问题复杂度自动选择gpt-5-main或gpt-5-thinking等模型 [36][37] - 单模型双模式:DeepSeek v3.1通过</think>/<think>标记实现思考模式切换 在基准测试中减少25-50% token消耗 [3][10][46] - 显式控制方案:阿里Qwen3采用/think和/no_think标记 谷歌Gemini 2.5 Flash支持0-24576 token的思考预算调节 [19][23] 头部公司技术布局 - Anthropic的Claude 3.7 Sonnet首创混合推理 支持API端精细控制思考时长 [18] - 腾讯Hunyuan-A13B采用双模式思维链框架 通过后训练统一优化快慢思考两种模式 [34] - 智谱GLM-4.5通过专家训练+自蒸馏技术整合推理能力 实现反思与即时响应模式切换 [35] - 字节Seed 1.6采用Adaptive CoT技术 通过强化学习实现帕累托最优的推理链触发机制 [31][32] - 快手KwaiCoder-AutoThink采用两步式训练 增加pre-think阶段预判问题难度 [27][28] 性能与成本数据 - GPT-5思考模式比前代减少50-80%输出token [7] - DeepSeek v3.1在AIME 2025等测试中保持性能同时减少25-50% token消耗 [10] - Gemini 2.5 Flash启用推理功能后输出成本相差6倍 [23] - 当前20分钟深度研究调用成本约1美元 预计2027年单用户单日Agent调用成本达72美元 [14][15] 技术挑战与演进方向 - 阿里Qwen3混合推理因基准测试表现不佳暂停 转向分模型训练方案 [21] - OpenAI路由方案遭遇专业用户质疑 存在路由不透明和低质量模型分配问题 [38] - 研究领域聚焦无需训练(提示词/路由/解码操纵)和基于训练(微调/强化学习)两大技术路径 [50][51] - 多模态领域出现R-4B等自适应思考模型 自动化程度持续提升 [52] 商业模式创新 - 路由模式使OpenAI可从免费用户提问中识别商业意图 导向高算力模型并实现成交抽成 [43] - 企业级应用更关注成本精确控制 Gemini 2.5 Pro的思考预算机制支持像调节水龙头一样调节AI思考成本 [24] - 深度研究等长任务模式导致token消耗每6个月翻倍 订阅费上涨压力持续存在 [14][16] 未来发展方向 - 行业竞争重点从"是否能思考"转向"能否以最低代价在恰当时刻思考" [56][57] - 技术目标聚焦更智能的自我调节 减少对人类指示的依赖 [57] - 开源模型如DeepSeek v3.1提供高性价比选择 企业级部署成本控制需求持续强化 [46][24]