原生全模态 - 财报，业绩电话会，研报，新闻

原生全模态

搜索文档

量子位· 2026-01-23 20:09

文心大模型5.0正式版发布 - 文心大模型5.0正式版发布，其参数量高达2.4万亿，主打原生全模态能力 [1] 模型性能与基准测试表现 - 近三个月，文心5.0 Preview版在全球大模型竞技场LMArena上多次在文本榜和视觉理解榜拿下国产第一 [3] - 1月8日，ERNIE-5.0-Preview-1220以1226分登上视觉理解榜国产第一、全球Top8 [3] - 1月15日，ERNIE-5.0-0110以1460分登上文本榜国产第一、全球Top8，标志着模型已进入全球第一梯队 [3] - 在LMArena的用户反馈中，文心5.0在创意写作、复杂指令遵循、高难度理解等任务中优势明显 [5] - 根据官方40余项权威基准的综合评测，文心5.0在语言、音频、视觉理解、视觉生成等多个维度超越Gemini-2.5-Pro、GPT-5-High等模型，整体处于领先水平 [5] 核心能力展示 - **全模态理解与生成**：模型能够接收视频+文字指令，自动理解视频内容及核心交互逻辑，并拆解步骤输出详细教程 [7][8] - **风格模仿与创意写作**：模型能精准模仿特定人物（如王熙凤）的说话风格，并融合现代商业逻辑进行创造性写作 [9] - **深度知识整合与哲学思辨**：针对“活人微死”这一概念，模型能引用加缪《局外人》和谭嗣同《仁学》等不同哲学视角进行有层次、有脉络的创造性整合与串联 [15][16][17][18][21] - **高级文学创作与风格把握**：在模仿鲁迅文风的书信写作中，模型超越了简单堆砌标志性词汇，展现了深层的风格理解和情感表达 [24][25][26] - **跨语境概念创造与商业洞察**：模型能将《西游记》唐僧师徒类比为初创团队，并策划商业计划书摘要，展现其在看似不相干领域间建立映射、进行结构性对应的能力，同时精准触及当前AI行业投资人的痛点 [30][31][32][34] - **现实场景沟通与情商**：模型能为职场中的尴尬场景（如撞倒领导生日蛋糕）设计出一整套包含多种策略（玄学口彩法、幽默自嘲法、霸道总裁背锅法）的沟通方案 [35][36][37] - **稳定的视频理解与总结**：模型能直接挖掘复杂或高信息密度视频中的细节，输出高质量且稳定的总结，几乎不出现幻觉 [41][42] 核心技术架构 - **原生全模态建模**：与传统多模态模型不同，文心5.0从一开始就通过原生全模态建模，融合语言、图像、视频和音频等多模态数据进行统一训练，实现理解与生成一体化 [45][46] - **超大规模混合专家模型**：采用超大规模混合专家模型架构，总参数超过2.4万亿，通过超稀疏激活，每次推理只调用不到3%的参数，在保持强大能力的同时降低计算与推理成本 [46][47] - **强化长程任务与智能体能力**：在后训练阶段，通过大规模真实与模拟工具环境合成长程任务轨迹数据进行数据增强，并基于思维链、行动链采用端到端多轮强化学习，显著提升了模型在规划、决策和工具调用上的能力 [47][48] 训练与推理基础设施 - **飞桨全链路支撑**：百度飞桨为文心5.0的训练和推理提供全链路支撑 [49][50] - **训练端大幅提速**：依托飞桨的多项技术，文心5.0在预训练周期内提速超过240% [50] - **推理端高效部署**：飞桨设计了全模态统一多级分离推理框架，并针对MoE架构特性优化，通过多项技术实现大规模分布式部署与加速 [50] 行业竞争与应用战略 - **押注原生全模态路线**：原生全模态正成为全球AI竞争新焦点，文心5.0押注于此底层且长期的技术路径，与OpenAI的GPT-4o、Google的Gemini 3等方向一致 [51] - **全栈AI技术能力**：公司是全球为数不多的提供从芯片、云、模型到智能体应用层生态的全栈AI技术公司，形成了闭环工程体系，为长周期、高复杂度的技术路线提供了持续投入与迭代空间 [54] - **应用模型双线布局**：将文心应用模型拆分为两条线：一是面向通用产品的矩阵模型；二是针对行业场景打磨的专精模型，强调可复用、可规模化落地 [56] - **前沿技术展示与落地**：大会展示了多项前沿技术，包括基于声音Token的端到端合成大模型、5分钟超越真人的直播技术、实时交互数字人技术等，其中部分能力已进入实用场景，如服务于电商直播的罗永浩数字人 [57][58] - **技术势能转化**：文心的技术势能正被高效转化为面向产业的具体解决方案，模型价值将在实际应用场景中得到放大和验证 [58]

百度集团(US:BIDU)

原生全模态

Artificial Intelligence

文心大模型5.0

百度飞桨

原生全模态

Artificial Intelligence

文心大模型5.0

百度飞桨

2.4万亿参数原生全模态，文心5.0一手实测来了

量子位· 2025-11-13 17:25

产品核心特性 - 全新一代文心5.0主打原生全模态，从训练伊始就将语言、图像、视频、音频置于同一套自回归统一架构中进行统一的理解与生成训练[1] - 模型支持全模态输入（文字/图片/音频/视频）与全模态输出（文字/图片/音频/视频），在创意写作、指令遵循、智能体规划方面能力更强[1] - 预览版（Preview）当前支持全模态输入，但输出暂为多模态（文字/图片），能够实现全模态输出的完整版正在进行产品体验优化，后续将推出[15] 技术能力与性能表现 - 在官方基准测试中，文心5.0 Preview在语言、视觉理解、音频理解、视觉生成多维度表现突出[7] - 在大模型竞技场LMArena的文本排行榜（Text Arena）上得分1432，与GPT-4.5-preview、Claude-Opus-4-1、Claude-Sonnet-4-5等并列全球第二，位居国内第一[9] - 模型具备精细的多模态理解能力，能精准识别视频中的动作阶段、选手信息、动作名称、难度系数，甚至识别慢放片段和视频情感[26][27][28][30] - 具备跨模态信息整合与综合推理能力，能结合视频情节、台词等内容理解情感氛围和叙事意图，不易被单一模态误导[51] 技术架构与实现 - 采用非后期拼接的原生全模态路线，通过自回归统一结构对不同模态的训练目标进行离散化建模，使多模态特征在统一架构中融合与协同优化[63][64][66] - 引入超大规模混合专家架构，通过稀疏激活机制降低计算负载，每次推理仅激活与任务最相关的专家模块[67] - 模型总参数规模超过2.4万亿，激活比例低于3%，在保持性能的同时显著优化了计算与推理效率[69] - 百度飞桨深度学习框架为万亿级参数模型的高效分布式训练和推理成本优化提供了关键支撑[69] 应用场景与功能展示 - 支持单次交互中跨文件类别混合上传文档、图片、音频、视频，经用户授权可与百度网盘关联，直接访问处理网盘文件[18][20] - 具备智能体能力，可自主调用搜索工具进行信息查询与角色定位[36] - 支持文图混合输入生成新图，并能对视频、音频内容进行快速总结，一次性最多可上传10个视频进行多任务内容整理[53][56][57] - 能够进行音视频融合生成，例如生成3D交互式地球与卫星演示模型，用户可通过鼠标拖拽旋转视角[5] 行业定位与迭代节奏 - 行业竞争逻辑转向注重底层架构创新、训练与推理效率、落地成本等多维度综合考量[72] - 公司基础模型迭代步伐加快，4月发布文心4.5 Turbo和文心X1 Turbo，6月底文心4.5系列10款模型宣布开源，9月发布文心X1.1深度思考模型[73][74] - 文心5.0原生全模态模型的推出是公司在底层架构实现的差异化突破，体现了在算法训练、推理优化及生态协同等全链路的系统性积累[75]

原生全模态

超大规模混合专家架构

自回归统一结构

Artificial Intelligence

Artificial Intelligence

文心5.0

文心5.0 Preview

同一天，百度、OpenAI双双发力高智能AI！先来实测一波原生全模态文心5.0

机器之心· 2025-11-13 16:26

文章核心观点 - 百度在2025百度世界大会上正式发布新一代文心大模型5.0，其核心创新在于采用了“原生全模态统一建模”技术，旨在持续推高AI智能天花板 [3][5] - 文心5.0在参数规模上达到2.4万亿，位列业界已公开模型之首，并在多项权威基准评测中与GPT-5-High、Gemini-2.5-Pro等全球顶尖模型能力持平 [7][9] - 通过一手实测，文心5.0 Preview在情商对话、视频理解、创意写作、代码生成等多场景展现出强大的原生全模态理解与生成能力，标志着大模型技术从理解语言迈向理解世界 [15][73][82] 模型技术架构与性能 - 文心5.0采用原生全模态统一建模技术，从训练之初即将文本、图像、音频、视频等多模态数据在同一语义空间中学习，不同于业界主流的后期融合方案，实现了真正的语义对齐与一致推理 [5][75] - 模型采用统一的自回归架构与超稀疏混合专家模型结构，在2.4万亿总参数中激活比低于3%，有效平衡了强大性能与训练推理成本 [76] - 基于飞桨自研的多模态编码器分离异步训练架构等一系列技术，公司实现了万亿级参数模型的高效训练和高性能推理 [76][77] 多模态能力实测表现 - 在视频理解测试中，模型能准确识别视频出处、分析画面细节（如人物服饰），并能根据剧情生成风格贴切的弹幕，展现了强大的时空连续性与内容一致性理解能力 [17][18][21][24][26] - 在文本理解与生成方面，模型能精准模仿特定风格（如林黛玉口吻的工作总结），并能快速、准确地总结复杂学术论文的核心要点，显示出出色的深度思考与内容创作能力 [47][50][51][52] - 在代码生成任务中，模型可根据自然语言描述生成功能完整的3D模拟网页代码（如地球卫星系统、太阳系模型），展示了其强大的工具应用与逻辑规划能力 [61][63][66] 行业竞争与战略意义 - 在全球大模型Scaling Laws收益趋缓的背景下，行业竞争焦点转向“谁更通用、谁更集成”，百度通过文心5.0的“原生全模态”路线进行了底层架构创新的重要突破 [81][83] - 此次发布被视为公司重新回到AI竞争舞台中心的信号，公司计划以文心5.0为起点，加速“模型-应用-生态”一体化布局，构建以原生全模态能力为底座的智能生态体系 [84]

百度集团(US:BIDU)

原生全模态

理解与生成一体化

Artificial Intelligence

Artificial Intelligence

文心大模型5.0

GPT-5系列大模型