五年，终于等来Transformers v5

Transformers v5版本发布概述 - Hugging Face发布Transformers v5首个候选版本v5.0.0rc0，标志着该库结束了长达五年的v4技术周期 [1][2] - 作为最核心的开源项目，其日下载量从2020年11月的2万次激增至超过300万次，总安装量突破12亿次 [2] - 支持的模型架构从最初的40个扩展至超过400个，社区贡献的模型权重超过75万个 [2] 核心进化维度 - v5版本将PyTorch确立为唯一核心后端，并聚焦于四大维度的进化：极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性、将量化提升为核心功能 [2] 简洁性与模块化 - 团队首要关注点是简洁性，旨在实现干净清晰的模型集成方式，以带来更广泛的标准化和生态支持 [3][4] - 大力推进模块化设计，使维护更简单、集成速度更快，并促进社区协作 [8] - 引入AttentionInterface等抽象层来简化通用辅助函数的管理 [10] 模型支持与工具 - 目标是收录所有最新模型架构，成为模型定义的唯一可信来源，过去5年平均每周新增1-3个新模型 [5][6] - 构建工具帮助识别新模型与现有架构的相似性，并希望自动化模型转换流程以减少手动工作 [11][12] 代码精简与后端聚焦 - 对建模文件和标注相关文件进行大规模重构，使建模代码只保留模型前向/反向传播的核心部分 [14] - 简化tokenization & processing文件，未来将只关注tokenizers后端，并移除Fast和Slow tokenizer概念 [15] - 逐步停止对Flax/TensorFlow的支持，专注于PyTorch作为唯一后端 [16] 训练能力增强 - v5加大了对大规模预训练以及完整训练的支持，重新设计了模型初始化方式并加入对优化算子的支持 [18][19] - 继续与Python生态系统中的微调工具紧密合作，并确保与JAX生态中的工具兼容 [20] 推理优化 - 推理是v5优化重点，带来多项范式级更新，包括专用内核、更干净的默认设置和新的API [21][22][23] - 定位并非取代vLLM等专业推理引擎，而是目标与这些引擎实现兼容 [24] 生产环境与部署 - 与流行推理引擎紧密合作，使模型一旦被添加到Transformers中就能立即在这些引擎中可用 [26] - 与ONNXRuntime、llama.cpp和MLX密切合作以确保互操作性，并推动设备端直接运行 [26][27] 量化与新兴功能 - 量化正成为前沿模型开发标准，许多SOTA模型以8-bit和4-bit等低精度格式发布 [28] - 包含连续批处理和paged attention机制，并推出全新的transformers serve服务系统，可部署兼容OpenAI API的服务器 [29]