文章核心观点 科大讯飞发布了基于国产算力训练的星火大模型X2版本,该版本在推理性能上实现了50%的显著跃升[1][2][8] 模型不仅在通用能力上达到国际一流水准,更将升级重点放在行业场景落地,通过“通用底座+行业专才”的双轮驱动策略,在政务、教育、医疗、汽车等多个关键领域实现深度应用与领先[5][6][31][32] 通用能力全面升级 - 推理性能大幅提升:从星火X1.5到X2仅间隔3个月,深度推理训练效率提升50%[1][2][8] - 核心能力对标国际顶尖:在语言理解、文本生成、知识问答、逻辑推理、数学、代码、翻译及多语言等多项评测中,星火X2 Thinking的评分稳居国产第一梯队,并与GPT-5.2 (xhigh)和Gemini-3-Pro非常接近[12][14] 其中,多语言和翻译能力显著优于友商模型[13] - 高难度基准测试表现优异:在AIME 2025数学测试中获95.7分,仅次于GPT-5.2 (xhigh)[15] 在MMLU Pro测试中获87.3分,与GPT-5.2持平,在国产模型中夺冠[16] 在智能体维度上也领跑国产模型[17] - 实测表现过硬:能够流畅解答哈佛-麻省理工数学锦标赛(HMMT)的高难度英文数学题以及西班牙语数学问题,展现出强大的跨语言逻辑推理能力[20][21][22][23] 技术架构与创新 - 模型架构基础:继承星火X1.5的MoE稀疏架构,参数量为293B[24] - 关键技术突破: - 提出训练与推理概率重采样自适应校准算法,解决训推分布不一致问题[24] - 设计递归式高难数据合成方法,提升深度推理准确率[25][26] - 采用P/D两阶段分离的多阶段RL高吞吐采样方案,将训练效率提升10%[27] - 通过轻量化压缩和单机大EP并行部署优化,实现高性能部署,解决了国产算力平台在轻量化落地和高效推理方面的瓶颈[28][29][30] 行业场景落地与赋能 - 整体行业中标领先:根据2025年数据,公司在政务、教育、金融等多个行业的中标数量和金额排名靠前[33] - 医疗领域树立新标杆:星火医疗大模型X2在智能健康分析、报告解读、辅助诊疗、用药审核等场景的合理率、解答率、准确率等指标上,显著优于GPT-5.2和另外两款国产大模型[34][35] 已通过国内首个医疗大模型应用检测验证中心评测[36] C端“讯飞晓医”APP在多轮问诊、用药咨询、报告解读等任务上,解答率等指标全面领先友商[37] - 教育领域实现个性化教学:星火教育大模型X2具备错因贯穿的个性化学习能力,可实现步骤级批改和启发式讲解[37][38][39][40] 在数学解答题步骤批改、错因分析、个性化答疑等任务的F1、正确率、可用率等指标上领先于DeepSeek V3.2-Thinking和GPT-5.2(xhigh)[41] 相关能力已应用于AI学习机硬件[41] - 汽车领域升级交互体验:将升级后的多尺寸中小模型应用于汽车智能座舱,显著提升了模糊意图理解和高情商回复能力,使语义联想和推理能力达到实际可用水平[43][44][45] - 智能体平台能力强化:星辰Agent平台整合超130万智能体,星火X2提升了智能体在长时任务规划、多工具调用等方面的能力[47] 例如,面向企业采购的招采智能体使核心场景效率提升超3倍,定制开发时间从几天缩短至分钟级[47] 国产算力与战略路径 - 完全基于国产算力:星火X2是国内主流大模型中,唯一基于全国产算力训练和推理的通用大模型,实现了算力与技术的完全自主可控[2][51][53] - 务实的发展战略:公司采取“1+N”战略,即1个通用底座大模型赋能N个行业大模型,并通过软硬一体化加速落地转化[54] 差异化路径体现为“底座自主、硬件协同、场景为王”[55] - 平台与生态开放:讯飞开放平台已正式上线星火X2 API,新注册开发者可领取100万Tokens免费额度[48] 星火网页版、APP 5.2.0新版本均已同步上线[49]
神仙打架+1!讯飞星火X2硬核亮相,行业深度全面升级