核心观点 - ERNIE 5.0是一个采用万亿参数超大规模稀疏MoE架构的统一自回归多模态模型,在推理时仅激活不到3%的参数,并在多项基准测试中取得领先成绩 [3][4] 核心架构创新 - 采用模态无关的专家路由机制,打破传统模型按模态分治的壁垒,不预先为数据标注模态标签 [7] - 构建共享专家池,让所有模态的数据在统一的巨大参数网络中流动 [8] - 基于统一Token表征进行专家调度决策,无论输入何种模态,都能转化为统一格式并匹配最合适的专家 [10][11] - 训练中涌现出专家专业化现象,在没有人工指令的情况下,专家自发分化为视觉、文本逻辑及跨模态对齐等不同角色 [12][13] 训练范式创新 - 首创弹性训练范式,通过构建超大超网络,仅需一次预训练即可通过权重共享抽取出一整套不同规格的子模型矩阵,实现零样本抽取 [15][16][20] - 引入弹性深度机制,训练中采用类似层丢弃的策略,随机跳过部分Transformer层,使浅层网络也能独立承担计算任务 [17] - 支持弹性宽度与稀疏度调节,可动态裁剪专家池总容量及调整每次推理激活的专家数,在万亿全量与轻量化部署间取得平衡 [18] 后训练优化技术 - 实施统一多模态强化学习策略,将逻辑推理、指令跟随与多模态生成任务纳入同一强化学习流水线进行协同优化 [21] - 引入无偏重放缓存技术,通过严格数据排序约束解决不同长度任务带来的计算负载不均问题,提升训练吞吐量 [21] - 应用多粒度重要性采样剪裁与已掌握样本掩码机制,抑制训练初期的熵崩塌现象,确保策略更新稳健性 [23] - 采用自适应提示强化学习,在训练初期注入“思维骨架”作为引导信号,并随训练进度逐步退火,以解决奖励稀疏的困难任务 [23] 性能表现 - 在VBench视频语义评分中取得83.40分 [4] - 在AISHELL-1语音识别任务中,字错率低至0.31% [4] - 在MATH推理任务中得分73.89 [4]
一个大脑搞定所有模态,百度ERNIE 5.0技术报告公布