不用等R2了！第三方给新版DeepSeek V3添加深度思考，推理101秒破解7米甘蔗过2米门

DeepSeek R2传闻与模型融合技术发展 - 坊间传闻DeepSeek即将发布R2模型，参数规模达1.2T万亿，训练数据5.2PB，可能高效利用华为芯片，但信息真实性待验证 [1] - 开源社区推测R2的基础模型可能是新版DeepSeek V3-0324，发布时间或在4月底，依据是R1与V3的间隔周期 [4] R1T-Chimera融合模型特性 - 德国TNG团队推出非官方融合模型R1T-Chimera，基于MIT协议开源，结合DeepSeek V3-0324共享专家与R1/V3路由专家，能力接近R1但输出token减少40% [5][6][8][9][14] - 模型融合后表现优于预期，思考过程更紧凑有序，未出现融合缺陷，但技术细节尚未公开 [15][16] - 在三维空间推理测试中，R1T-Chimera耗时101秒（原版R1为13秒），通过计算得出解决方案，但过程中存在旋转/弯曲甘蔗等误区 [17][18][19][20][22][23] 行业模型融合技术动态 - Kimi K1.5技术报告探索长/短思维链模型权重平均融合法，无需重新训练 [27] - Sakana AI提出基于进化算法的block级融合方法，早于行业布局 [31][32] - 模型融合技术可能成为2025年大模型发展趋势，多团队跟进验证 [34] 资源与社区参与 - R1T-Chimera模型权重可通过HuggingFace下载，OpenRouter提供免费在线试玩 [13][36] - HuggingFace创始人建议关注官方更新，以获取最新动态 [3]