大模型相互蒸馏
搜索文档
Claude Opus 4.8 发布,回答出现了 Qwen 和 DeepSeek,难道也蒸馏了~
菜鸟教程· 2026-05-29 11:30
产品发布与性能升级 - 公司发布Claude Opus 4.8版本,该版本在Opus 4.7基础上,判断能力更精准,对自身任务进展的反馈也更如实,同时可独立完成任务的时长大幅提升[1] - 在多项基准测试中,Opus 4.8表现优于前代及主要竞争对手:Agentic coding SWE-Bench Pro得分69.2%,高于4.7的64.3%;Agentic terminal coding Terminal-Bench 2.1得分74.6%,高于4.7的66.1%;Multidisciplinary reasoning Humanity's Last Exam无工具得分49.8%,有工具得分57.9%,均高于前代;Agentic computer use OSWorld-Verified得分83.4%;Knowledge work GDPval-AA得分1890;Agentic financial analysis Finance Agent v2得分53.9%[3] - 产品新增网页端功能,支持用户自定义模型任务投入强度,以兼顾速度与质量[8] - 产品推出Claude Code功能,上线动态工作流,可处理超大型代码项目,并行运行大量子智能体[8] - API功能升级,消息数组支持实时更新系统指令,使开发更灵活[8] - 产品推出“极速模式”,速度达原版2.5倍,价格降至前代的1/3[8] 定价策略与商业模式 - 产品常规模式定价维持不变,输入为每百万tokens 5美元,输出为每百万tokens 25美元[3] - 产品新推出的“极速模式”定价为输入每百万tokens 10美元,输出每百万tokens 50美元[8] - 公司后续规划推出低成本平替模型,以及更强的Mythos系列模型,并将在近期逐步开放[8] 公司融资与估值 - 近期公司完成650亿美元融资,估值已达到9000亿至9650亿美元,超越OpenAI成为AI领域估值最高的初创公司[6] - 公司的估值在过去一年多时间里呈爆炸式增长,从不到2000亿美元快速冲向万亿美元门槛[7] 行业技术趋势与竞争格局 - 有用户发现Claude Opus 4.8在回答中文“你是什么模型”时,会错误地声称自己是“通义千问(Qwen)”或“DeepSeek”,引发对其在迭代中可能对Qwen模型进行了深度蒸馏的猜测[7][9][10][13] - 此身份识别异常现象在API接口调用中也同样出现[17][18] - 行业观察认为,大模型技术发展可能正走向一个相互蒸馏的世界,即模型间相互训练、学习、发布能力并反向逼近[19] - 随着技术发展,大模型的推理、代码、多模态能力可能会越来越趋同[20] - 当前不同模型在代码、中文、长文本等能力上各有擅长的差异,未来可能随着关键突破被快速复制、蒸馏、工程化和开源化而逐渐被拉平[21][22] - 最终,各模型间的能力差距可能越来越小,真正的差异化竞争将转向用户体验层面,如价格、响应速度、稳定性、上下文处理能力、API限流政策和服务可靠性等[23][24][25][27] - 行业终极竞争态势可能演变为模型高度同质化,用户难以区分,选择标准完全基于体验和成本[29]