Workflow
T5Gemma
icon
搜索文档
编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型
机器之心· 2025-07-10 16:35
行业动态 - xAI发布Grok 4大模型,引发AI社区高度关注 [1] - 谷歌同期更新Gemma系列模型,包括MedGemma和T5Gemma [2][3][5] MedGemma模型 - 包含4B和27B两种参数规模的多模态模型,专注于医疗AI应用 [3] - 能够根据医疗图像和文本描述辅助诊断并提供建议 [4] T5Gemma模型架构 - 采用编码器-解码器架构,包含32个不同变体 [8][9] - 基于Gemma 2框架,参数规模包括2B和9B [8] - 支持不同大小的编码器与解码器组合,如9B编码器配2B解码器 [18] 技术特点 - 使用"适应"技术将预训练的仅解码器模型转换为编码器-解码器架构 [15] - 支持PrefixLM和UL2两种训练目标 [8] - 在GSM8K数学推理任务上延迟显著降低 [22][23] 性能表现 - T5Gemma 9B-9B在GSM8K得分比Gemma 2 9B高出9分 [28] - 在DROP阅读理解任务上得分高出4分 [28] - 平均性能优于仅解码器架构 [30] - 指令微调后MMLU得分提高12分,GSM8K从58%提升至70.7% [31] 应用优势 - 在摘要、翻译、问答等任务中表现优异 [7] - 可根据任务需求灵活配置编码器-解码器规模 [19] - 在质量-效率边界上占据主导地位 [21][29]