百度开源文心大模型4.5系列 - 公司正式开源文心大模型4.5系列,包含10款模型,涵盖47B、3B激活参数的混合专家(MoE)模型和0.3B参数的稠密型模型,实现预训练权重和推理代码完全开源 [2] - 开源模型已可在飞桨星河社区、Hugging Face等平台下载部署,并在百度智能云千帆大模型平台提供API服务 [4] - 此次开源不包括升级版文心大模型4.5 Turbo系列 [4] 开发者反馈与模型性能 - 开发者认为300B参数版本可与DeepSeek V3 671B竞争,21B版本可与阿里Qwen 30B竞争 [6] - 28B模型因在基础文本能力上增加视觉功能受到开发者关注 [7] - 文心大模型4.5在多个测试集上表现超过GPT-4o,具备理解多种图片形态和音视频特征的能力 [8] 技术性能对比 - 在C-Eval基准测试中,文心4.5 300B-A47B得分为91.5,高于Qwen3 30B的87.2和DeepSeek-V3 671B的90.2 [9] - 在MMLU基准测试中,文心4.5 300B-A47B得分为87.4,高于Qwen3 30B的81.0 [9] - 在GSM8K数学基准测试中,文心4.5 300B-A47B得分为91.8,高于Qwen3 30B的70.8 [9] 技术创新 - 采用多模态异构MoE预训练,通过统一架构实现文本、图像、音频、视频等多模态数据的原生级融合 [10] - 提出异构混合并行和分层负载均衡策略,预训练吞吐量提升,FLOPs利用率达到47% [12] - 针对特定模态进行后训练优化,包括视觉语言理解、任务定向微调和多模态思路推理 [12][13] 行业影响与发展 - 公司日均调用量从2023年同期的5000万次增长至2024年的16.5亿次,增长达33倍 [14] - 专家认为开源行为提高了行业标准,给闭源模型提供商带来压力 [14] - 公司已形成从文心大模型4.0 Turbo到4.5 Turbo的完整产品系列,模型数量和类型持续增加 [14]
李彦宏出手!百度大模型终于开源