Workflow
不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门
量子位·2025-04-28 14:36

DeepSeek R2传闻与模型融合技术发展 - 坊间传闻DeepSeek即将发布R2模型,参数规模达1.2T万亿,训练数据5.2PB,可能高效利用华为芯片,但信息真实性待验证 [1] - 开源社区推测R2的基础模型可能是新版DeepSeek V3-0324,发布时间或在4月底,依据是R1与V3的间隔周期 [4] R1T-Chimera融合模型特性 - 德国TNG团队推出非官方融合模型R1T-Chimera,基于MIT协议开源,结合DeepSeek V3-0324共享专家与R1/V3路由专家,能力接近R1但输出token减少40% [5][6][8][9][14] - 模型融合后表现优于预期,思考过程更紧凑有序,未出现融合缺陷,但技术细节尚未公开 [15][16] - 在三维空间推理测试中,R1T-Chimera耗时101秒(原版R1为13秒),通过计算得出解决方案,但过程中存在旋转/弯曲甘蔗等误区 [17][18][19][20][22][23] 行业模型融合技术动态 - Kimi K1.5技术报告探索长/短思维链模型权重平均融合法,无需重新训练 [27] - Sakana AI提出基于进化算法的block级融合方法,早于行业布局 [31][32] - 模型融合技术可能成为2025年大模型发展趋势,多团队跟进验证 [34] 资源与社区参与 - R1T-Chimera模型权重可通过HuggingFace下载,OpenRouter提供免费在线试玩 [13][36] - HuggingFace创始人建议关注官方更新,以获取最新动态 [3]