Workflow
LLaDA2.1
icon
搜索文档
计算机行业周报:LLaDA2.1实现技术突破,Gemini3.1Pro树立多模态新标准
华鑫证券· 2026-02-26 08:50
报告行业投资评级 - 行业评级为“推荐(维持)” [1] 报告核心观点 - AI应用正从辅助工具转向实际商业化落地,下一阶段是行业深度定制,拥有行业数据壁垒的企业将构筑显著优势,报告维持对AI应用垂直领域板块的看好 [5][6][51] - 通用大模型正向垂直行业工具渗透,以解决特定痛点,企业能够将通用大模型私有化,构建与业务深度绑定、难以复制的Agent [6][51] 算力动态总结 - **算力租赁价格平稳**:上周(报告期内)算力租赁价格环比持平,例如A100-40G配置中,腾讯云价格为28.64元/时,阿里云价格为31.58元/时;A800-80G价格为7.50元/时 [22][25] - **LLaDA2.1实现技术突破**:2026年2月,扩散语言模型LLaDA2.1发布,包含160亿参数和1000亿参数两个版本,其中千亿参数版本在HumanEval+复杂编程测试中实现892 Tokens/秒的峰值推理速度 [3][23] - **模型技术创新**:LLaDA2.1通过三大技术创新破解速度与质量平衡难题:1) 可纠错编辑机制(ECE),实现“起草-编辑”生成逻辑;2) 单模型双模式设计(极速模式与质量模式);3) 首次将强化学习成功应用于百亿参数级扩散模型 [27] - **性能与效率双重提升**:实验评估显示,LLaDA2.1在性能与效率上实现双重提升。量化后的LLaDA2.1-Flash在HumanEval+基准上峰值速度达891.74 Tokens/秒,LLaDA2.1-Mini峰值速度高达1586.93 Tokens/秒 [29] - **Token消耗与市场份额**:报告期内(2026年2月16日至22日),周度Token消耗量为14T,环比上周增长7.69%。市场份额方面,Google以825B Tokens占据18.9%的份额居首,Anthropic以644B Tokens占据14.8%位列第二 [14][15] AI应用动态总结 - **Gemini访问量增长**:报告期内(2026.2.15-2026.2.21),Gemini周平均访问量为529.5M,环比增长4.31%,增速在主要AI应用中位列第一 [33][34] - **Gemini 3.1Pro树立多模态新标准**:2026年2月20日发布,在多个领域实现技术突破。在ARC-AGI-2测试中取得77.1%的高分,性能提升至上一代3.0Pro的两倍有余;在ARC-AGI-1测试中也接近满分,超越了ClaudeOpus4.6和GPT-5.2等竞争对手 [3][35] - **综合性能领先**:在AAII综合评测中,总分领先ClaudeOpus4.6多达4分,且API调用成本不到后者一半;在LiveCodeBenchPro评测中Elo积分高达2887;在APEX-Agents智能体任务中以33.5%的成绩领先 [36] - **长上下文与低幻觉率**:支持高达100万Token的超长上下文输入,在MRCRv2的128k测试中取得84.9%的高分,在1M Token级别任务中取得26.3%的成绩(竞品多不支持)。幻觉率相比前代模型也有显著改善 [40] - **强大的实际应用能力**:能够根据文本提示生成可直接嵌入网页的SVG动画;能整合复杂API接口构建实时数据看板;能编写复杂的3D特效代码,支持多模态交互设计 [43][45] AI融资动向总结 - **WorldLabs完成10亿美元融资**:2026年2月,由李飞飞创立的世界模型企业WorldLabs完成10亿美元新一轮融资,投资方包括AMD、英伟达、Autodesk等,其中Autodesk单独出资2亿美元。公司此前谈判估值约50亿美元 [4][46] - **资金用途与核心技术**:所筹资金将用于空间智能领域研发。公司聚焦大型世界模型,旗舰产品Marble可多模态生成高保真、可编辑的3D世界,适用于媒体娱乐、机器人训练等场景 [4][47] - **未来布局**:融资后将重点强化机器人领域的技术研发,Marble模型可生成机器人操作环境的虚拟复制品用于模拟训练。与Autodesk的合作将率先落地娱乐应用场景,并计划整合至工程设计工具 [48] 投资建议与关注公司 - **行业观点**:AI应用逐步融入并重塑企业核心业务流程,从辅助工具转向商业化落地。看好AI应用垂直领域,建议关注能构建行业深度定制Agent的企业 [5][6][51] - **具体关注公司**: - 迈信林(688685.SH):加快扩张算力业务的精密零部件龙头 [6][52] - 唯科科技(301196.SZ):新能源业务高增,供货科尔摩根等全球电机巨头 [6][52] - 合合信息(688615.SH):AI智能文字识别与商业大数据领域巨头 [6][52] - 能科科技(603859.SH):深耕工业AI与软件,长期服务高端装备等领域头部客户 [6][52] - **公司盈利预测与评级**:报告对四家公司均给出“买入”评级,并列出盈利预测,例如唯科科技2025年预测EPS为2.53元,对应PE为35.38倍 [8][53]
计算机行业周报:LLaDA2.1实现技术突破,Gemini3.1Pro树立多模态新标准-20260225
华鑫证券· 2026-02-25 18:25
报告行业投资评级 - 行业评级:推荐(维持) [1] 报告核心观点 - AI应用正从辅助工具转向实际商业化落地,下一阶段是行业深度定制,拥有行业数据壁垒的企业能够将通用大模型私有化,构建与业务深度绑定的Agent,从而构筑显著优势 [51] - 基于对AI应用垂直领域板块的看好,报告维持推荐评级,并建议中长期关注在算力、新能源、AI智能文字识别与工业软件等领域的相关公司 [52] 根据相关目录分别总结 1. 算力动态 - **算力租赁价格平稳**:上周(报告期内)算力租赁价格环比无变化。A100-40G配置中,腾讯云(16核+96G)价格为28.64元/时,阿里云(12核+94GiB)为31.58元/时;A800-80G价格为7.50元/时 [22][25] - **LLaDA2.1实现技术突破**:2026年2月,扩散语言模型LLaDA2.1发布,包含160亿参数(Mini版)和1000亿参数(Flash版)两个版本 [23] - **性能表现**:千亿参数版本在HumanEval+复杂编程测试中实现**892 Tokens/秒**的峰值推理速度 [23] - **技术创新**:通过三大技术破解速度与质量平衡难题:1) 可纠错编辑机制(ECE),实现“起草-编辑”逻辑;2) 单模型双模式设计(极速模式与质量模式);3) 首次将强化学习成功应用于百亿参数级扩散模型 [27] - **效率优势**:量化后的**LLaDA2.1-Flash**在HumanEval+基准上峰值速度达**891.74 Tokens/秒**,**LLaDA2.1-Mini**峰值速度高达**1586.93 Tokens/秒**,代码类任务吞吐率表现突出 [29] - **Tokens消耗与市场份额**:报告期内(2026.2.16-2.22)周度token调用量为**14T**,环比增长**7.69%**。市场份额方面,Google以**825B tokens**占据**18.9%** 份额居首,Anthropic以**644B tokens**占**14.8%** 位列第二 [14][15] 2. AI应用动态 - **Gemini访问量增长**:报告期内(2026.2.15-2.21),Gemini周平均访问量为**529.5M**,环比增长**+4.31%**,增速在主要AI应用中位列第一 [33][34] - **Gemini 3.1Pro树立多模态新标准**:2026年2月20日发布,在多个领域实现技术突破 [35] - **推理能力突出**:在ARC-AGI-2测试中取得**77.1%** 的高分,性能提升至上一代3.0Pro的**两倍有余**;在ARC-AGI-1测试中也接近满分,超越ClaudeOpus4.6和GPT-5.2等竞争对手 [35] - **编程与智能体任务领先**:在AAII综合评测中总分领先ClaudeOpus4.6多达**4分**,且API调用成本不到后者一半;在APEX-Agents智能体任务中以**33.5%** 的成绩领先 [36] - **长上下文处理能力强**:支持高达**100万Token**的超长上下文输入,在MRCRv2的128k长上下文测试中取得**84.9%** 高分 [40] - **低幻觉率**:相比前代模型,生成内容的准确性和可靠性有显著改善 [40] - **强大的多模态生成与整合能力**:能够根据文本提示生成SVG动画、整合复杂API接口构建实时数据看板、编写复杂的3D特效代码等 [43][45] 3. AI融资动向 - **WorldLabs完成10亿美元融资**:2026年2月,由李飞飞创立的世界模型企业WorldLabs完成**10亿美元**新一轮融资,投资方包括AMD、英伟达、Autodesk等,其中Autodesk单独出资**2亿美元**。公司此前谈判估值约**50亿美元** [46] - **资金用途**:将全部用于空间智能领域的技术研发与产品落地,加速布局机器人、AR/VR等核心应用赛道 [46] - **核心技术**:聚焦空间智能与大型世界模型,其旗舰产品Marble可多模态生成高保真、可编辑的3D世界,适用于媒体娱乐、机器人训练等场景 [47][48] 4. 投资建议与关注公司 - **行业趋势判断**:AI应用逐步融入并重塑企业核心业务流程,从辅助工具转向商业化落地。下一阶段是行业深度定制,通用大模型正向垂直行业工具渗透 [51] - **看好方向**:维持对AI应用垂直领域板块的看好,认为拥有行业数据壁垒的企业能构建难以被复制的优势 [51] - **建议关注公司**: - **迈信林 (688685.SH)**:加快扩张算力业务的精密零部件龙头 [52] - **唯科科技 (301196.SZ)**:新能源业务高增,并供货科尔摩根等全球电机巨头 [52] - **合合信息 (688615.SH)**:AI智能文字识别与商业大数据领域巨头 [52] - **能科科技 (603859.SH)**:深耕工业AI与软件,长期服务高端装备等领域头部客户 [52] - **公司盈利预测与评级**:报告对四家重点公司均给出“买入”评级,并提供了2024-2026年的EPS与PE预测 [53]
蚂蚁集团开源万亿思考模型 Ring-2.5-1T,打破大模型“不可能三角”
观察者网· 2026-02-14 18:25
核心观点 - 蚂蚁集团开源了全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T,在推理速度、深度思考能力和长程任务执行能力三个方面实现了突破,解决了行业长期面临的“不可能三角”难题 [1] 模型性能与突破 - 模型在数学竞赛中达到IMO金牌级别,获得35分(满分42分),在CMO中获得105分,远超国家集训队分数线87分和金牌线78分 [1][7] - 在32K以上长文本生成场景中,将访存规模降至上一代的1/10,生成吞吐量提升超3倍 [1] - 在IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench等高难度推理任务,以及Gaia2-search、Tau2-bench、SWE-Bench Verified等长时任务执行基准上,均达到开源最优水平 [5] - 在Heavy Thinking模式下,在多项数学竞赛和代码生成基准中超越了所有对比模型,包括闭源API模型GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking等 [4][5] - 与上一代Ring-1T相比,新模型在推理逻辑严谨性、高级证明技巧运用和答案表述完整性上均有明显进步 [7] 技术创新与架构 - 模型基于Ling 2.5架构,采用混合线性注意力机制,以1:7的比例混搭MLA(多头潜在注意力)和Lightning Linear Attention两种注意力模块 [2] - 该设计源自Ring-flash-linear-2.0技术路线,通过增量训练将原有GQA层分别转化为Lightning Linear Attention和MLA,前者负责长程推理的吞吐量,后者极致压缩KV Cache [2] - 为防止模型表达能力受损,团队适配了QK Norm和Partial RoPE等特性 [2] - 激活参数量从上一代的51B提升至63B,但凭借线性时间复杂度的特性,推理效率大幅提升 [2] - 与同为1T参数量级但仅有32B激活参数的Kimi K2架构相比,Ling 2.5架构在长序列推理任务中的吞吐优势显著,且效率优势随生成长度增加而持续扩大 [2] - 在思维训练层面,模型在RLVR基础上引入了密集奖励机制,逐步考察推理过程中每一个环节的严谨性 [4] - 团队引入了大规模全异步Agentic RL训练,增强了模型在搜索、编码等长链条任务上的自主执行能力 [4] 应用与部署 - 模型使得长程推理从“烧钱又烧显卡”的重资产操作,转变为可规模化部署的轻量级方案 [4] - 模型已经适配Claude Code和OpenClaw等主流智能体框架,支持多步规划与工具调用 [7] - 模型权重与推理代码已在Hugging Face、ModelScope等平台同步开放,官方Chat体验页和API服务也将在近期上线 [7] 行业影响与趋势 - 目前业界主流路径多采用MoE架构以节省算力,头部模型如DeepSeek、Kimi、MiniMax均采用此架构 [1] - 随着AI大模型应用从短对话向长文档处理、跨文件代码理解、复杂任务规划等场景延伸,深度思考模型面临的效率瓶颈愈发突出 [8] - Ring-2.5-1T通过底层架构重构,提供了一条兼顾性能、成本与扩展性的技术路径 [8] 公司其他产品发布 - 蚂蚁集团同期还发布了扩散语言模型LLaDA2.1,采用非自回归并行解码技术,推理速度达到535 tokens/s,在HumanEval+编程任务上达到892 tokens/s,并具备Token编辑与逆向推理能力 [7] - 同期发布了全模态大模型Ming-flash-omni-2.0,在视觉、音频、文本的统一表征与生成上实现突破,支持实时感官交互 [7] - 蚂蚁inclusionAI团队的目标是将这些能力做成可复用的底座方案,为开发者提供统一的能力入口 [8] - 后续团队还将在视频时序理解、复杂图像编辑和长音频实时生成等方向持续发力,推动全模态技术规模化落地 [8]
万亿思考模型新速度!蚂蚁开源Ring-2.5-1T:IMO金牌水平,强;混合线性架构,快!
量子位· 2026-02-14 09:15
核心观点 - 蚂蚁集团发布全球首个开源混合线性架构万亿参数模型Ring-2.5-1T,在数学逻辑推理和长程自主执行能力上表现卓越,同时打破了深度思考、推理速度与显存开销的“不可能三角”,实现了高性能与高效率的平衡 [2][3][5] - 公司同期发布扩散语言模型LLaDA2.1和全模态大模型Ming-flash-omni-2.0,旨在构建统一的多模态能力底座,为开发者提供一站式解决方案 [33][36][39][40] - 通过一系列底层架构创新和训练方法,公司展示了其在AI领域顶尖的技术实力,并将技术能力转化为可复用的行业基础设施 [41][42][43] 模型性能与突破 - **数学逻辑推理能力**:Ring-2.5-1T在国际数学奥林匹克竞赛(IMO)中达到35分的金牌水平,在中国数学奥林匹克竞赛(CMO)中取得105分,远超国家集训队线 [3] - **长程任务执行能力**:模型在搜索、编码等复杂任务上能独当一面,并通过大规模全异步Agentic RL训练,从“做题家”转变为能下场干活的“实战派” [3][18] - **效率突破**:模型在生成长度超过32K时,将访存规模降至原来的十分之一以下,同时生成吞吐量暴涨了3倍多,解决了长窗口下显存爆炸的难题 [7][14][16] - **推理效率提升**:通过架构重构,模型激活参数量从510亿提升至630亿,但推理效率相比Ling 2.0仍实现大幅提升 [15] 技术架构创新 - **混合线性注意力架构**:采用1:7的MLA(Multi-Head Latent Attention)配Lightning Linear Attention的混搭设计,基于Ring-flash-linear-2.0技术路线演进 [9] - **增量训练与架构转换**:通过将部分GQA层转化为Lightning Linear Attention以提升长程推理吞吐量,并将剩余GQA层近似转换为MLA以极致压缩KV Cache [12] - **性能保障技术**:适配了QK Norm和Partial RoPE等特性,确保模型在架构改造后性能不降级 [13] - **密集奖励机制**:在思维训练中引入该机制,重点考察解题步骤的严谨性,大幅减少逻辑漏洞并提升高阶证明技巧 [18] 实战能力验证 - **抽象代数证明**:在群论证明题中,模型能熟练运用Cauchy定理,避开直觉陷阱,并引用Heisenberg群作为反例,逻辑推导严丝合缝 [20][21][24] - **系统级编程**:能用Rust语言从零手写高并发线程池,支持优雅关机、崩溃自动重启与任务恢复,代码在所有权管理与并发控制上表现老练 [25][27] - **复杂项目开发**:在Claude Code中自动开发出微型版操作系统,并持续完善功能,如实现bash命令界面 [28][31] 多模态模型发布 - **扩散语言模型LLaDA2.1**:采用非自回归并行解码技术,推理速度达到535 tokens/s,在特定编程任务上吞吐量达892 tokens/s,具备Token编辑与逆向推理能力 [33] - **全模态大模型Ming-flash-omni-2.0**:打通视觉、音频与文本的统一表征与生成,实现高响应频率下的实时感官交互与音画同步创作 [36][37] 行业战略与影响 - **构建可复用底座**:公司将发布的多种AI能力整合为统一底座,旨在为开发者提供统一的能力入口,降低多模态应用开发门槛 [39][40][43] - **未来技术方向**:团队将继续攻坚视频时序理解、复杂图像编辑和长音频实时生成等关键技术,以推动全模态AI的规模化落地 [41] - **行业地位**:公司的技术发布展现了其在全球AI领域第一梯队的实力,并将行业竞争门槛推向更高水平 [42][44]
小众架构赢麻了,通过编辑功能让100B扩散模型飙出892 tokens/秒的速度
36氪· 2026-02-11 13:21
模型发布与定位 - 蚂蚁集团技术研究院开源了其最新扩散语言模型LLaDA2.1,标志着该系列从研究模型向实用产品的关键转变 [1][2][5] - 该模型在100B参数规模上实现了前所未有的速度,在复杂编程任务中飙出892 tokens/秒的峰值速度,对主流自回归架构形成显著优势 [1][18][20] - 公司还开源了16B的Mini版本,其在部分任务上的峰值速度超过1500 tokens/秒,为轻量化部署提供了可能 [24] 核心技术突破:架构与速度 - 模型采用扩散架构而非主流自回归架构,其并行生成特性理论上拥有巨大的速度潜力 [3] - 核心创新是“可纠错编辑”机制,将推理分为“草稿生成”和“编辑修正”两个阶段,允许模型自我修正,从根本上解决了扩散模型的曝光偏差和全局一致性问题 [8][9][12][13] - 通过“单模型双模式”设计,用户可灵活切换“极速模式”与“质量模式”,在单个模型内实现了速度与质量的解耦,这是首次在扩散架构上实现该特性 [3][4][5][13] 性能表现 - **速度**:在HumanEval+编程基准上,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS;其Mini版本在多项任务上TPS超过1500 [5][7][24] - **质量**:在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,LLaDA2.1在质量模式下全面超越了前代LLaDA2.0 [22] - **效率平衡**:即使在追求速度的极速模式下,其性能下降也微乎其微,做到了速度与质量兼得 [21][23] 训练方法创新 - 团队成功在100B规模扩散模型上实施了强化学习训练,此为业界首次 [14][16] - 定制了EBPO算法以克服扩散模型序列级似然难以计算的问题,使模型在指令遵循等对齐类任务上表现显著提升 [16][19] 行业意义与哲学 - 该模型的成功证明,在大模型时代,坚持非主流的技术路线(扩散模型)并走到底,同样可以取得突破性胜利 [26] - 其设计哲学是让模型像人类一样“写作+修改”,通过并行生成草稿再全局编辑,定义了新的推理范式 [8][13]
里程碑时刻,100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
36氪· 2026-02-11 12:31
模型发布与核心突破 - 扩散语言模型(dLLM)赛道迎来质变,LLaDA2.1在HuggingFace上线,包含16B参数的Mini版和100B参数的Flash版 [1] - LLaDA2.1实现了扩散语言模型的“成人礼”,其峰值速度达到892 Tokens/秒,首次将理论效率优势变为现实,并具备边生成边纠错的机制 [3] - 模型采用“起草-编辑”的并行生成范式,打破了自回归模型“下笔无悔”、误差累积的困境,为规模化应用提供了新路径 [3] 技术架构与创新机制 - 提出可纠错编辑机制,模型能在毫秒级采样中起草答案,随后进行检查和修正,解决了并行解码中局部不一致性的问题 [13] - 引入单模型双模式设计,用户可通过一条配置在质量模式和极速模式间切换,解决了以往多版本管理复杂和精度掉点严重的问题 [15] - 在百亿参数规模上首次成功应用强化学习后训练,采用基于ELBO的块级策略优化方法,提升了模型对指令的理解和意图对齐能力 [16][17] 性能表现与基准测试 - 在复杂编程基准HumanEval+上,100B参数的LLaDA2.1-Flash实现了891.74 TPS的峰值速度,16B参数的Mini版峰值TPS高达1586.93 [22] - 在质量模式下,LLaDA2.1在Mini与Flash两个规模上全面超越前代LLaDA2.0的表现 [20] - 在速度模式下,模型牺牲极少的输出质量,实现了显著的推理速度优势,尤其在代码类任务中吞吐率最高 [24] 行业影响与范式意义 - LLaDA2.1证明了扩散语言模型在百亿参数规模上的可行性,突破了该路线长期存在的规模天花板 [11] - 该模型通过系统性创新,解决了扩散模型在速度与生成质量之间的核心矛盾,使其跨过了从“能跑”到“能用”的门槛 [9] - 此次突破打破了自回归架构在大语言模型领域的路径单一性,表明在主流之外存在另一条可持续推进且具备效率优势的技术方向 [26]
里程碑时刻!100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了
机器之心· 2026-02-11 09:59
文章核心观点 - 扩散语言模型(dLLM)这一曾被视为小众的研究方向,通过LLaDA2.1的发布实现了质变,标志着该技术路线已从理论走向真正可用,甚至在效率上展现出超越主流自回归模型的潜力 [2][4] - LLaDA2.1通过引入可纠错编辑机制、单模型双模式设计以及强化学习后训练等系统性创新,有效解决了扩散模型长期存在的“速度-质量”矛盾,在百亿参数规模下实现了前所未有的推理速度 [4][11][13] - 该模型的成功可能预示着AI大模型底层架构的范式多样性正在增加,为自回归模型之外提供了另一条可行且高效的技术发展路径 [33] 模型发布与规模突破 - LLaDA2.1于本周一在HuggingFace上线,包含LLaDA2.1-Mini(16B参数)和LLaDA2.1-Flash(100B参数)两个版本,距离上一版本发布仅两个月 [2] - 其100B参数规模本身,突破了扩散语言模型长期存在的规模天花板,此前该路线模型规模普遍停留在几十亿到三百亿参数以内 [14] 技术原理与核心创新 - **可纠错编辑机制**:模型采用“起草-编辑”的两步范式,首先生成草稿,随后进行全局评估和自我修正,解决了并行解码中错误无法回溯的问题 [16][19] - **单模型双模式**:一个模型支持“极速模式”和“质量模式”,用户仅需一条配置即可切换,避免了维护多个版本带来的管理和精度损失问题 [20] - **强化学习应用**:团队首次将基于ELBO的块级策略优化方法应用于百亿参数级扩散模型,以提升模型对指令的理解和意图对齐能力 [21][22] 性能表现与效率数据 - **峰值速度**:LLaDA2.1-Flash在处理复杂编程任务时,实现了**892 Tokens/秒**的峰值速度 [4][13] - **量化后速度**:在HumanEval+基准测试中,量化后的LLaDA2.1-Flash峰值速度达**891.74 TPS**,LLaDA2.1-Mini峰值速度高达**1586.93 TPS** [28] - **综合性能**:在“质量模式”下,LLaDA2.1在mini与flash两个规模上均全面超越了LLaDA2.0的表现 [24] - **效率优势**:在“极速模式”下,模型在仅牺牲极少输出质量的前提下,实现了显著更快的推理速度 [30] 行业意义与潜在影响 - LLaDA2.1的成功证明扩散语言模型并非只能停留在实验室阶段,其并行生成、边写边改的特性为解决自回归模型推理速度慢、错误累积等问题提供了新思路 [4][33] - 行业可能不会立即发生范式的彻底更替,但技术路径的单一性正在被打破,在自回归之外存在另一条可持续推进且值得投入的方向 [33]
小众架构赢麻了!通过编辑功能让100B扩散模型飙出892 tokens/秒的速度!
量子位· 2026-02-11 09:55
模型架构与性能突破 - 蚂蚁集团开源了基于扩散架构的语言模型LLaDA2.1,在100B参数规模上实现了高达892 tokens/秒的生成速度,显著超越了主流自回归模型几十token/秒的速度水平 [1][3] - 该模型在HumanEval+编程基准测试中,LLaDA2.1-flash(100B)在极速模式下峰值速度达到892 TPS,其16B的Mini版本在部分任务上的峰值速度甚至超过1500 tokens/秒 [11][33] - 模型在涵盖知识、推理、代码、数学及指令遵循的33个权威基准测试中,质量模式下的性能全面超越了前代LLaDA2.0,实现了速度与质量兼得 [31][32] 核心技术:可纠错编辑与双模式解码 - LLaDA2.1引入了可纠错编辑机制,将推理过程分为两个阶段:极速并行生成草稿,然后立即启动编辑模式进行全局检查和回溯式修正,解决了扩散模型缺乏全局一致性的问题 [16][17][21] - 模型采用单模型双模式设计,用户可通过一条配置切换模式:极速模式通过激进并行生成和后期编辑保障吞吐量;质量模式采用保守阈值优先保障输出准确性 [8][10][13] - 这种设计首次在扩散架构上实现了速度与质量的解耦,标志着该系列从研究模型向实用产品的关键转变 [4][22] 训练创新:强化学习的应用 - 团队首次在100B规模的扩散语言模型上成功实施了大规模强化学习训练,定制了EBPO算法 [23][26] - 该算法以证据下界作为序列似然的代理目标,通过向量化似然估计技术并行计算多时间步的块条件概率,并设计了专门的梯度稳定机制 [25][28] - 应用强化学习后,LLaDA2.1在IFEval(指令遵循评估)、BFCL(函数调用)等对齐类任务上表现显著提升 [26] 行业意义与影响 - 在自回归模型主导的行业背景下,LLaDA2.1证明了扩散架构这条“非共识”技术路线的巨大潜力,尤其是在生成速度方面具有显著优势 [1][5][29] - 该模型的成功表明,在大模型时代,坚持并深化非主流技术路线同样可以取得突破性进展 [34] - 模型的开源为行业提供了在复杂编程、快速推理等对吞吐量敏感场景下的高效新工具选择 [4][35]