字节跳动 - 财报，业绩电话会，研报，新闻

字节跳动

搜索文档

国金证券· 2026-05-19 15:34

在一季度经济开门红后，二季度经济在 AI 和地缘的影响下出现了结构变化。输入性通胀和 AI 通胀正在侵蚀居民的消费能力，出口维持高景气度，但高油价带来的不确定也在升温。同时，AI 带来经济的 K 型分化也开始出现，AI 出口和 AI 资本开支继续维持高景气度，但非 AI 部分的内生动力改善则受油价和政策的影响，短期来看 AI 对非 AI 仍是冲风险提示 AI 投资后续不确定性增强，关注 AI 投资变动以及对经济、行业价格的影响。地缘政治冲突对价格的影响或超预期，关注后续地缘政治冲突的变化和对经济的超预期影响。输入性通胀和供给端压力持续增强，关注后续相关行业价格和供应链端的变动。敬请参阅最后一页特别声明 1 击为主，而拉动则尚需时日。 | 经济缘何走弱 | 3 | | --- | --- | | 风险提示 | 8 | | 图表 | 1： | 经济分项数据一览 | 3 | | --- | --- | --- | --- | | 图表 | 2： | 以旧换新商品消费明显回落 | 4 | | 图表 | 3： | 上市公司就业员工工资收入增速依旧偏低 | 4 | | 图表 | 4： | 年初投资增速高开低走 ...

华泰证券· 2026-05-19 13:50

证券研究报告科技国内互联网 CapEx：AI 加码趋势不变华泰研究 2026 年 5 月 18 日│中国内地行业周报（第二十周）一周内行业走势图一周行业内各子板块涨跌图 (1.0) 1.5 4.0 6.5 9.0 05/08 05/10 05/12 05/14 (%) 通信通信设备制造沪深300 2.00 2.75 3.50 4.25 5.00 通信设备制造通信运营通信服务 (%) 一周内各行业涨跌图 (7.0) (4.0) (1.0) 2.0 5.0 通信电子石油天然气公用事业机械设备家用电器煤炭基础化工电力设备与新能源银行汽车纺织服装综合轻工制造建筑与工程房地产开发农林牧渔医药健康证券商业贸易交通运输食品饮料环保建材传媒计算机房地产服务社会服务多元金融教育和人力资源航天军工保险钢铁有色金属 (%) 本周观点市场方面，上周通信（申万）指数上涨 6. ...

计算机周观点第42期：国家系统性推进智能体发展，国内外模型加速融资-20260519

海通国际证券· 2026-05-19 13:48

行业投资评级 - 报告对计算机行业维持积极看法，继续看好计算机板块 [3] 报告核心观点 - 全球AI产业竞争已从模型能力转向基础设施规模竞赛，全产业链景气度持续向上，算力基础设施确定性最高，应用侧格局加速分化 [3] - 国内大模型赛道正从技术竞赛进入全面资本与商业化阶段，政策与资本形成双轮驱动共振格局 [3] 全球AI产业动态 - **Anthropic估值反超OpenAI**：链上Pre-IPO交易数据显示，Anthropic隐含估值短时间内大幅攀升，自2025年10月以来估值曲线几乎垂直上升，其估值已飙升至1.2万亿美元，较OpenAI高出约20% [3] - **Anthropic业绩与算力布局**：其年化收入和使用量同比实现80倍增长，核心驱动力Claude Code年化营收已超25亿美元；算力方面，与亚马逊签订为期10年、价值1000亿美元的AWS算力投资合同，并锁定5吉瓦算力容量专门用于训练和部署Claude [3] 国内大模型发展 - **DeepSeek融资与估值**：启动首轮融资，目标最高达500亿元人民币，创始人梁文锋个人出资最高达200亿元，三周内估值从约100亿美元飙升至约500亿美元，国家集成电路产业投资基金洽谈领投，其V4.1模型定档6月发布 [3] - **Kimi母公司融资**：月之暗面完成约20亿美元D轮融资，投后估值突破200亿美元，成为中国大模型创业公司中累计融资最多的企业，其旗舰模型Kimi K2.6在OpenRouter平台上周调用量排名第二 [3] 政策与资本驱动 - **国家层面政策推动**：国家网信办等三部门联合印发《智能体规范应用与创新发展实施意见》，首次从国家层面系统推动智能体发展，定义智能体为“具备自主感知、记忆、决策、交互与执行能力的智能系统”，并围绕科学研究、产业发展等方向提出19个典型应用场景 [3] - **企业资本开支上调**：字节跳动将2026年AI资本开支计划上调至逾2000亿元人民币，较此前方案增幅至少25%，并相应提高国产AI芯片采购比例以应对地缘政治风险及响应国产半导体政策导向 [3] 推荐标的 - 报告推荐标的包括：海光信息、浪潮信息、合合信息、海康威视、赛意信息、新致软件、汉朔科技、科远智慧、聚水潭 [3] - 报告提供了部分推荐标的的盈利预测与估值数据，例如：海光信息2026年预测EPS为2.92元，对应预测PE为110.71倍；浪潮信息2026年预测EPS为2.42元，对应预测PE为31.60倍 [4]

虎嗅APP· 2026-05-19 08:09

文章核心观点 - AI Agent 在 2025 年接过生成式 AI 大模型的接力棒，成为创业投资市场最拥挤的赛道，但做出一门能收上钱的生意需要穿越无数个“看起来很美”的幻觉 [5] - AI Agent 创业潮由多重因素驱动，包括技术门槛降低、大厂人才溢出、国家战略支持及市场快速增长，但风险资金趋于谨慎，投资向头部集中 [9][10][11] - AI Agent 的机会在于基座模型做不到的事情上，如垂直行业专家，其成功关键在于找到真需求、实现产品市场匹配（PMF）并触发数据飞轮效应 [14][17][18] - AI 创业存在“AI 幻觉”，误以为最难的是做出产品，实则挖掘真需求、应对基座模型能力吞噬及解决数据线上化等业务挑战更为关键，最终挑战回归到“人”的问题 [20][21][23][24] 一、AI加持下的又一次创业潮 - **创业潮兴起**：AI Agent 创业潮始于 2025 年初，由 Manus 率先打开市场，随后大厂迅速跟进，成为 2025 年种子轮投资的流行赛道 [8] - **驱动因素**： - **技术门槛降低**：AI 编程工具（如 Cursor、Lovable、Claude Code）让非专业开发者也能快速构建原型 [9] - **人才溢出**：互联网大厂离职员工加入创业，例如百度原副总裁景鲲创立的 MainFunc（产品 Genspark）种子轮获 6000 万美元，一年半内融资超 4 亿美元，估值达 12.5 亿美元；钉钉原副总裁王铭创立的攀峰智能获数千万融资；截至 2026 年初，仅字节离职员工创立的 AI 公司就超过 30 家 [9] - **活动与政策支持**：AI 主题黑客松（Hackathon）在一二三线城市、高校及大厂广泛举办；2026 年政府工作报告首次写入“智能体”，国家战略定位升级 [10] - **市场规模与融资**：2025 年中国 AI Agent 行业市场规模达 182.34 亿元，同比增长 78.03% [10]；头部项目吸金能力强，估值水涨船高，但投资机构对大量中小创业者倾向于“少而分散”的策略 [10]；风险资金更加谨慎，倾向于跟随头部机构跟投 [11] - **二级市场与创业趋势**：智谱、Minimax 等公司上市为投资方带来成倍回报，月之暗面等公司在排队上市 [11]；核心人物呈现年轻化趋势，投资机构青睐年轻的“小天才”，例如高三学生陈广宇参与 KIMI 研发并受马斯克点赞，成为创投圈的金字招牌 [12] 二、Agent靠什么超越基模能力？ - **机会定位**：AI Agent 的机会在于基座模型无法直接解决的专业场景，需要具备行业知识、问题解决能力和主动性，扮演“行业专家”角色 [14][17] - **垂直行业应用案例**： - **法律行业**：Quote.law 是一个面向法律专业人士的 AI Agent 协作平台，旨在改造材料分散、工作低效的古老行业，其长期愿景是成为“法律领域的支付宝” [15][16]；阿育法则专攻 B 端数据合规，将律师经验沉淀为 Prompt 与 Memory 数据库，帮助中小企业以约 2 万至 2.5 万元的成本替代原本六位数的律师费 [16] - **制造业**：语核科技为制造业企业搭建“基座+私有数据”的 Agent 系统，例如帮助造船厂的新人业务员在 Agent 辅助下快速输出过去需资深工程师数周才能完成的售前方案，实现流程自动化改造 [17] - **成功关键要素**： - **找到真需求**：避免点子新颖但无市场的项目，需验证用户是否愿意付费 [17] - **验证产品市场匹配（PMF）**：例如先找到 100 个愿意付费的用户 [18] - **团队能力**：既懂业务又懂技术的组合更容易吸引投资人 [18] - **触发平台效应与数据飞轮**：用户越多，Agent 积累的私有语料和行为偏好越丰富，输出质量越高，用户粘性越强；企业客户业务流程一旦嵌入 Agent，替换成本很高 [18] - **挑战与悖论**：大多数 Agent 创业公司尚未跨越“冷启动”阶段以触发数据飞轮便已出局 [18] 三、创业的“AI幻觉”和“人的问题” - **“AI幻觉”**：AI 降低了产品制作门槛，但形成了新的幻觉——误以为“创业最难的是把产品做出来”，实则挖掘真正的需求才是核心挑战 [20]；市场存在泡沫，部分订单源于追求 AI 潮流的 FOMO 心态，而非真实持久的需求 [20] - **外部竞争压力**：基座模型能力不断增强（如上下文扩展至百万 Token），正在吞噬部分原本需要 Agent 架构解决的需求，使仅依赖提示词工程和轻量级封装的 Agent 面临生存压力 [21][22] - **数据挑战**：垂类 Agent 的优势在于处理未被线上化的数据，但这些数据可能因从业者自我保护、经验非标准化或伦理原因（如医疗、网络安全行业）而“永远不会被线上化”，构成发展障碍 [23] - **“人的问题”**：创业最大挑战回归到“人”，包括找到既懂复杂业务又对新科技敏感的合适合作者，以及团队内部（如业务与技术背景创始人之间）的有效沟通 [24]；AI 并未降低“懂业务、懂技术、懂人”的综合门槛 [24] - **历史轮回**：技术发展常经历从工具崇拜到泡沫破裂的轮回，只有解决“永恒问题”的创业者能在退潮时立足 [25]

AI Agent创业

产品市场匹配度（PMF）

Artificial Intelligence

Artificial Intelligence

财富FORTUNE· 2026-05-18 21:05

文章核心观点 - 算力市场已成为大国博弈的核心领域，其重要性体现在美国在总统出访前最后一刻调整随行企业家名单，以传递外交信号[1][3] - 美国虽允许部分中国企业购买英伟达H200芯片，但中国坚持自主可控的算力发展路线，其选择的成本与收益是文章分析的重点[3] - 当前算力博弈的真实结构不仅关乎美国对中国的限制，更关乎中国自身选择的路径，自主可控路线有其战略考量[3] 算力市场的“淘金热”与“卖铲人” - AI算力竞赛如同历史上的淘金热，英伟达是最大的“铲子”供应商，其H100芯片售价超过每卡3万美元，数据中心业务2024财年营收超过470亿美元，毛利率约74%[4] - 英伟达凭借二十余年打磨的CUDA软件生态，锁定了全球90%的AI开发者，形成了无法被简单复制的竞争力[4][5] - 中国的“铲子”供应商主要是华为昇腾和寒武纪，在外部管制造成的算力短缺下，其产品供不应求，价格高企，例如华为910B八卡服务器售价超过170万元[5] 中美算力产品的性能与价格代差 - 英伟达主流芯片H100的FP16算力为989 TFLOPS[6] - 专为中国市场推出的降规版本H20，FP16算力仅为296 TFLOPS，约为H100性能的15%[6] - 华为昇腾910B的FP16算力约为320 TFLOPS，性能接近英伟达2020年的A100芯片[6] - 这意味着中国AI企业在H20和910B之间选择时，其国际竞争对手正在使用性能高出7到15倍的产品进行训练[6] - 每当美国收紧出口管制，华为芯片的价格就应声上涨，这反映了其定价权部分源于竞争缺席带来的“管制租金”[6][7] “管制租金”下的市场表现与潜在风险 - “管制租金”指市场主体依靠人为制造的供给稀缺，而非效率提升来获取超额利润[7] - 寒武纪2025年一季度营收同比增长4230%，从2567万元飙升至11亿元，股价从2022年低点到2025年初高点上涨约15倍[7] - 寒武纪业绩爆发主要依靠对标英伟达2020年产品A100的思元590芯片，但在一个竞争对手被挡在门外的市场，对标过时标准也能获得丰厚回报，体现了“管制租金”的运作逻辑[7] - 寒武纪2026年一季度营收28.85亿元，同比增长159%，增速较去年同期的4000%大幅放缓，显示市场可能正从“稀缺驱动”转向“竞争驱动”[13] 开放竞争是产业竞争力的源泉 - 中国所有真正具有全球竞争力的产业，如义乌小商品、创新药（百济神州、康方生物）、比亚迪，无一例外是在开放环境中竞争出来的，而非在保护下培养出来的[10] - DeepSeek在算力受限的情况下，通过算法创新，用远低于美国顶级实验室的算力成本训练出比肩GPT-4的模型，证明了约束可以成为创新的母体[10] - 研究指出“二元悖论”：一国在某个产业链领域的全球竞争力，与其在该领域的完全自主可控难以兼得，深度分工是竞争力的来源，追求完全自主可控可能导致竞争力退化[11] - 华为昇腾在禁运后市场份额上升是“空间的填补”，而DeepSeek的突破是“能力的涌现”，两者性质不同[11] 自主可控战略的成本承担者与未来检验 - “管制红利”的埋单者是AI产业链中下游的创业企业，它们面临算力价格高企、向大平台交付服务账期长达180天以上、融资难三重压力[12][13] - 自主可控战略在短期内意味着头部AI企业需以更高成本采购性能相对较弱的国产芯片，与全球前沿的训练能力差距短期内难以收窄[13] - 自主可控战略成败的关键在于，在保护期内，国内算力企业（如华为昇腾、寒武纪）是否将市场空间转化为真实的技术追赶和能力积累[13] - 竞争的逻辑只会被推迟而非永久搁置，自主可控的终点应是在开放竞争中也能站稳的真实能力，而非永远需要保护的市场地位[14]

21世纪经济报道· 2026-05-18 20:54

核心观点 - 国内存储芯片巨头长鑫科技在存储芯片涨价潮中实现业绩惊人反转，从巨额亏损转为单季盈利近250亿元，并有望冲击全年千亿净利润及万亿市值 [1][4][8][10] - 业绩爆发主要受全球算力需求驱动下DRAM产品（特别是DDR5）供不应求、价格大幅上涨推动，公司作为国内最大DRAM厂商充分受益 [5][6][7][9] - 公司科创板IPO备受关注，拟募资295亿元，有望成为科创板史上第二大IPO，其上市可能带动存储产业链相关公司 [1][2][10] 业绩表现与反转 - 2026年第一季度营收508亿元，同比增长719.13%，归母净利润247.62亿元，同比增长1688.30% [1] - 预计2026年上半年营收1100亿元至1200亿元，同比增长612.53%至677.31%，归母净利润500亿元至570亿元，同比增长2244.03%至2544.19% [1] - 以净利润计算，相当于日赚近4亿元，若维持势头全年净利润有望突破千亿元 [1] - 业绩实现大反转：2023年归母净利润亏损163.4亿元，2024年亏损71.4亿元，2025年盈利18.7亿元，而2026年第一季度单季盈利已抚平前两年全部亏损 [1][4] - 公司净利润排名跻身A股上市公司前20名，位列第13位 [4] 驱动因素：行业景气与产品 - 核心动力是DRAM行业产品价格持续快速上涨，可追溯至全球算力狂飙 [5] - DRAM是计算机、手机内存主流方案，AI浪潮下需求与日俱增，HBM也是DRAM的一种新型存储 [6] - 第三方机构预测2026年服务器DRAM应用占比将超过50%，需求增速超过40% [6] - DRAM价格自2023年低谷后一路狂飙，截至2026年5月10日，DRAM颗粒单价达89498美元/千克，环比上涨20.9%，同比上涨497.4% [6] - 2025年下半年以来全球DRAM产品供不应求，价格大幅上涨，公司产品单价在2025年第四季度月度间持续快速上涨，大幅带动毛利提升 [7] - 公司主营业务毛利率从2023年的-2.19%提升至2025年的41.02% [7] - 公司产能利用率持续提升，2023年至2025年分别为87.06%、92.46%和95.73% [7] 公司竞争优势与布局 - 公司是中国规模最大、技术最先进、布局最全的DRAM研发设计制造一体化企业，已完成从第一代到第四代工艺技术平台量产，产品覆盖DDR4、LPDDR4X到DDR5、LPDDR5/5X [7] - 根据Omdia数据，按出货量和销售额统计，公司已成为中国第一、全球第四的DRAM厂商 [7] - 公司早早上桌DDR5，2024年、2025年推出DDR5、LPDDR5X产品并快速推向市场，2025年DDR系列营收占比为31.87%，较上年的13.26%大幅提升 [9] - 公司预计更先进的DDR5和LPDDR5/5X销量占比将在2026年快速提升 [9] - 国内具备量产高频内存颗粒能力的企业仅有长鑫科技，在AI基建热潮下，科技大厂对HBM需求加大，国际大厂转移产能生产HBM，大幅缩减通用消费级内存产能，导致消费级内存价格涨价5倍，公司出现内存颗粒供不应求局面 [9] - 公司合作客户均为行业头部科技企业，包括阿里云、字节跳动、腾讯、联想、小米、传音、荣耀、OPPO、vivo等，AI服务器需求大增使公司成为云基础设施投资浪潮受益者 [10] - 公司已实现DDR5产品量产，并顺利完成核心客户验证与批量交付 [10] IPO进展与估值展望 - 公司科创板IPO逐步推进，拟募资295亿元，有望成为科创板有史以来融资规模第二大的IPO项目，仅次于中芯国际的532亿元 [10] - 多位业内人士认为，若公司科创板上市，估值或达万亿元，假设2026年净利润在千亿元左右，合理PE 20至25倍，叠加行业行情驱动，上市后大概率可以冲击万亿级市值 [10] - 有观点认为公司估值可能达到万亿元以上，因为它是国内唯一的高频DDR内存颗粒制造商 [11] 产业链相关公司 - 文章列出了长鑫科技IPO部分产业链受益股，涉及存储模组、存储芯片、半导体设备、未曾体材料、封测、洁净室、国产算力底座等环节，并包含证券代码、简称、年内涨跌幅及市盈率数据 [2]

制造豆包：一个 AI 超级入口的形成与转向

晚点LatePost· 2026-05-18 20:22

豆包的增长奇迹与字节方法论的应用 - 豆包是中国目前唯一日活跃用户数过亿的AI产品，DAU在不到两年半时间内突破1亿，超过国内其他AI助手产品的总和[4][5] - 公司对豆包的战略定位为最重要的AI战略级业务，初期明确不考虑盈利[10] - 相较于竞争对手，豆包的营销投放相对克制，据估算过去两年（截至2024年4月）仅花费约17亿元人民币投流，而腾讯元宝花费222亿元，阿里千问花费37亿元[5] 产品策略：拟人化与贴近用户 - 产品负责人朱骏为豆包定义的核心设计原则是“拟人化”和“离用户近”，旨在打造具有类似人温度的亲密朋友形象[10][12] - 为追求拟人化体验，团队在品牌名称（从Grace改为“豆包”）、3D卡通形象以及声音选择上投入大量精力，最终选用抖音博主@桃子日语的音色作为默认声线[11][12][14] - 产品交互追求自然，回答普遍偏短、直给，这是A/B测试后的结果，旨在提高用户采纳率和复用率，并降低模型“多答多错”的风险[32] 增长路径：从“多Bot”尝试到工程化补短板 - 团队最初尝试构建“多Bot（智能体）”生态，类似抖音的内容平台逻辑，鼓励用户创建并分享智能体，至2024年5月已拥有800万个智能体[15][18] - “多Bot”策略未能成功，除主智能体外，其他智能体用户活跃度不高，下架后对用户活跃和留存无影响，团队随后转向聚焦主入口[18] - 面对底层模型能力不足的问题，团队采用工程化方法“搭脚手架”，通过检索、规则、工具调用和流程设计来补足模型短板，例如自写代码生成标准口算竖式、建立题库用传统方式答题等[21][22] - 团队建立了一套持续更新的模型“评测集”，收录数十万条题目，由数千人规模的数据团队负责，以重点优化用户高频需求[23] 竞争与转折：DeepSeek的冲击与豆包的应对 - 2025年1月，DeepSeek发布推理模型R1，其低成本和高效果对行业造成冲击，并在春节期间DAU迅速超过已上线一年多的豆包[24] - 为应对竞争，豆包在2025年3月大幅增加投放，投放金额环比暴增222%[24] - 几个月后，豆包DAU反超DeepSeek重回第一，此后DeepSeek的DAU稳定在2000-3000万，但每个用户的日均使用时长比豆包久1-4分钟[25] 意外破圈：多模态功能与用户共创的病毒式传播 - 豆包早期投入的多模态能力（如文生图、视频对话、实时语音通话）在2025年至2026年初通过用户共创意外走红，例如与AI视频通话进行搞笑互动、P图合照、教穿搭（因搭配“丑”而有趣）等玩法在抖音、小红书上形成病毒式传播[26][27][28] - 这些用户自发的玩法为豆包每天带来数百万新用户，模型犯错反而增加了趣味性，将用户对AI的想象从“深刻对话”拉回日常[27][29] - 团队采取“打矩阵”策略，广泛尝试各种场景和功能，将热门趋势自动采集到“评测集”中重点优化，认为好产品是“演化”出来的[29] 组织与能力支撑：字节体系的外溢效应 - 豆包的成功被视为字节跳动多年新产品孵化后，组织能力自然外溢的结果，团队在工程基础体验、产品细节打磨上可直接复用公司内部反复验证过的成熟方案[31][32] - 团队核心成员多来自字节其他成熟业务（如抖音、飞书、AI Lab等），具备丰富经验，使豆包在启动初期就拥有成熟的流程和评审制度[32][33] - 公司积累的算力资源（如火山方舟平台）和调度能力，帮助豆包应对了春节等流量高峰[32] 面临的挑战与边界 - AI产品缺乏传统互联网产品的规模效应，用户越多，推理成本越高，但收入不会同步增长[4] - 2025年下半年，随着用户数增长，非核心用户占比提升，他们很少主动提问，使得判断功能增长潜力和用户满意度变得困难[39] - AI产品的成本结构与传统互联网产品相反，用户量越大成本越高，据估算，春节期间豆包生成一条新春祝福或图片的算力需求，是以往类似互动请求的100万倍[39] - 豆包必须在成本与效果间权衡，例如搜索功能曾因算力成本限制导致评测分数上不去，后期才取消限制优先追求回答效果[40][41] 商业化探索与未来不确定性 - 豆包计划开启付费订阅并探索商业化，但面临用户对“笨还收费”的质疑[38] - 2025年，豆包已开始内测电商功能，接入抖音电商，用户可在App内完成下单支付，但目前策略比较克制[42] - 中国市场的付费习惯与美国不同，中国拥有本科及以上学历的人口不及12%，且多数人习惯免费使用软件，这为商业化带来挑战[42] - 行业信念正在动摇，“AI聊天机器人将成为一切入口”的判断受到挑战，AI领域的突破变得更加分散（如Anthropic在智能体编程上的突破），未来机会将更复杂[6][43] - 豆包的用户日均使用时长稳定在10分钟以内，尚不足以对传统互联网产品构成威胁[43]

Artificial Intelligence

大模型

生成式AI

Artificial Intelligence

豆包

ChatGPT

Artificial Intelligence

大模型

生成式AI

Artificial Intelligence

豆包

ChatGPT

字节会师何恺明！开源连续扩散语言模型Cola DLM

量子位· 2026-05-18 19:19

一水发自凹非寺量子位 | 公众号 QbitAI 大语言模型真的只能走"预测下一个token"的路子吗？继何恺明之后，字节也给出了同样的回答： NO 。并且，两边都不约而同地盯上了同一个方向——在连续语义空间中建模语言。更关键的是，字节这次直接开源开到底，论文、代码、模型权重、中文博客通通释出。帮大家快速回忆一下。就在上周，何恺明团队推出首个扩散语言模型ELF—— 它跳过token层，把整个生成过程留在连续embedding空间里完成，仅用105M参数就跑赢一众主流扩散语言模型，第一次证明连续路线在语言生成上真有潜力。而字节这次带来的Cola DLM （Continuous Latent Diffusion Language Model），则进一步佐证了这一趋势。他们同样选择跳出离散token的束缚，把生成过程交给连续空间，结果是：在~2B参数、约2000 EFLOPs的严格对照实验下，Cola DLM展现出了比自回归模型和主流离散DLM更稳定的scaling趋势。然而，正当你以为这不过是又一个"把图像扩散模型搬进语言领域"的故事时，字节却告诉你：错了。 Cola DLM的m ...