Workflow
测试时扩展技术 (Test-Time Scaling)
icon
搜索文档
qwen -max-thinking
小熊跑的快· 2026-01-27 08:22
核心观点 - Qwen3-Max-Thinking模型通过自适应工具调用和测试时扩展等核心技术,实现了推理性能的显著飞跃,并在多项基准测试中刷新最佳纪录,特别是在启用工具的评测中获得58.3分,超越主要竞争对手[1] 技术特点与创新 - **自适应工具调用能力**:模型能像专业人士一样,在对话中自主判断并调用搜索引擎、代码解释器或记忆模块等功能,形成“思考-行动-验证”闭环,降低产生虚假信息的概率[1] - **测试时扩展技术**:通过“经验提取”机制,在多轮迭代推理中从过往思考过程提炼关键洞见,避免重复推导,将计算资源集中在解决不确定性上,从而在相同计算成本下大幅提升推理性[1] - **模型架构与规模**:模型总参数量超过一万亿,采用MOE架构,活跃参数猜测只有几百亿个,并经过大规模强化学习后训练,为强大的推理和知识整合能力奠定基础[2] 性能表现 - 在启用工具的“人类最后的考试”评测中,取得58.3的高分,大幅超越GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分[1] - 在科学知识、数学推理和代码编程等多项国际公认的基准测试中展现了强大实力,刷新了最佳纪录[1][4] - 在“智能体深度规划”和“高等教育STEM难题”等部分细分项目上仍有提升空间[1] 应用与能力 - **强大的智能体能力**:模型经过专门设计的训练流程,原生具备强大的智能体能力,能够自主完成复杂的任务流程,而不仅仅是生成文本[2] - **功能与开发**:模型功能丰富,且支持二次开发[2] 定价与成本分析 - **定价结构**:输入长度在32K Token以内时,输入价格为0.0032元/千Token,输出价格为0.0128元/千Token;长度在32K至128K之间,输入价格为0.0064元/千Token,输出价格为0.0256元/千Token;长度在128K至256K之间,输入价格为0.0096元/千Token,输出价格为0.0384元/千Token[3] - **成本换算与对比**:换算为百万Token计价,Qwen模型的输入成本约为3.2元/百万Token,输出成本约为12.8元/百万Token;对比来看,DeepSeek-V3的输入成本约为1.4元/百万Token,输出成本约为21元/百万Token;OpenAI的GPT-4o mini输入成本约为10.5元/百万Token,输出成本约为4.2元/百万Token;分析认为Qwen此版本定价不算太便宜[5]