Assembly of Experts (AoE)技术

搜索文档
野生DeepSeek火了,速度碾压官方版,权重开源
机器之心· 2025-07-04 16:59
模型性能与优势 - DeepSeek R1T2模型速度比R1-0528快200%,比R1快20%,在GPQA Diamond和AIME 24基准测试中表现优于R1但略逊于R1-0528 [1] - 模型采用专家组合(AoE)技术开发,融合了DeepSeek官方V3、R1和R1-0528三大模型,参数规模达671B [2][12][13] - 相较于初代R1T Chimera,R1T2智力水平显著提升,实现突破性think-token一致性,且对话交互体验更稳定自然 [6][7] 技术架构与迭代 - R1T2基于DeepSeek-MoE Transformer架构,采用三心智(Tri-Mind)融合架构,新增基模型R1-0528 [12][14] - 通过高精度直接脑区编辑技术解决初代R1T的token一致性缺陷,实现全方位性能提升 [15] - 模型开源并遵循MIT协议,权重已在Hugging Face平台开放 [3] 竞品对比与适用场景 - 与DeepSeek R1对比:R1T2性能更优且可直接替换 [18] - 与R1-0528对比:R1T2经济性更高,适合非最高智能需求场景 [18] - 与DeepSeek V3对比:V3速度更快,但R1T2在推理能力上占优 [18] - 局限性包括:不支持函数调用、应答克制度低于R1-0528 [20] 开发背景与行业动态 - 模型由德国AI咨询公司TNG推出,全称为DeepSeek-TNG R1T2 Chimera [5] - 行业误认为模型出自DeepSeek官方,引发对版本命名策略的讨论 [9] - 基准测试体系变更为AIME24/25+GPQA-Diamond,新体系下R1与R1T分差扩大 [20]