Workflow
Hybrid-Mamba-Transformer融合模式
icon
搜索文档
腾讯,大动作!价格为DeepSeek-R1的1/4
21世纪经济报道· 2025-03-22 19:41
腾讯混元T1模型发布 - 腾讯于3月21日深夜推出自研深度思考模型混元T1正式版并在腾讯云官网上线 与阿里发布QwQ-32B类似 选择深夜时段发布主要面向海外开发者 显示中国大模型正走向海外市场 [1] - 混元T1通过大规模强化学习及理科专项优化 推理能力显著提升 综合效果较此前混元T1-preview模型有明显进步 在MMLU-PRO基准测试中评分仅次于OpenAI-o1 优于DeepSeek-R1 [1] - 在DROP F1逻辑推理测试中 混元T1评分超越DeepSeek-R1和OpenAI-o1 但在数学和代码测试中低于DeepSeek-R1 中文理解能力与DeepSeek-R1持平 整体达到业界领先水平 [2] 技术架构创新 - 混元T1以混元Turbo S为基座 Turbo S采用Hybrid-Mamba-Transformer融合架构 结合Mamba长序列处理优势与Transformer复杂上下文捕捉能力 显著降低计算复杂度和内存占用 [3] - 该架构使混元T1吐字速度达80 tokens/s Turbo S是工业界首次将Mamba架构无损应用于超大型MoE模型 T1则是首次在超大型推理模型中实现混合Mamba架构无损应用 [3][4] 商业化定价策略 - 混元T1定价为输入每百万tokens 1元 输出每百万tokens 4元 与DeepSeek-R1夜间时段价格持平 但标准时段价格仅为对手四分之一 显示较强价格竞争力 [4] - 腾讯未披露混元T1参数量级 训练数据规模尚不明确 但通过架构创新实现成本优化 为商业化应用提供基础 [2][3]