扩散模型
搜索文档
CVPR 2026 | 给扩散模型装上「物理引擎」: 北大彭宇新团队提出NS-Diff,使扩散模型学会流体与刚体力学
机器之心· 2026-03-19 09:25
行业技术突破 - 北京大学彭宇新教授团队提出了一种名为NS-Diff的物理引导视频生成强化学习框架,旨在解决当前AI视频生成模型(如Sora、Wan)普遍存在的物理失真问题,实现从“视觉真实”到“物理真实”的跨越 [4][5][7] - 该研究将复杂的纳维-斯托克斯(Navier-Stokes)方程等物理定律约束与强化学习相结合,通过物理动力学检测器和物理条件注入模块,引导AI在生成视频时遵循物理规律 [7] - 实验表明,NS-Diff在PhysVideoBench数据集上将视频中的运动急动度(jerk)误差降低了43%,流体发散度降低了33%,显著提升了生成视频的物理合理性 [7][23] 核心技术方案 - 公司设计了噪声鲁棒的物理动力学检测器,可在含噪的潜在帧中精准分析运动信息,有效区分视频中的刚体与流体区域 [8] - 公司开发了物理条件潜在注入模块,将速度场、形变梯度等关键物理信息编码,并通过交叉注意力机制注入到去噪器中,实现对生成过程的物理引导 [8][13] - 公司引入了强化学习优化模块,通过策略梯度对流体施加简化的纳维-斯托克斯约束,对刚体施加最小化急动度原则,确保动态过程的物理合理性 [8][15][16] - 公司采用了物理引导的自适应激活机制,根据去噪过程中的噪声水平动态调整物理约束的强度,确保训练的稳定性 [18][19] 实验性能表现 - 在PhysVideoBench数据集上,NS-Diff在所有评估指标上均实现了最佳性能,其NS-Diff-DiT 11B版本将急动度误差(△J)降至0.25,流体散度误差(Ldiv)降至2.4 [23] - 在UCF-101数据集上,NS-Diff DiT 11B版本将Fréchet Video Distance指标降低至85,帧一致性提升至0.95,表现出优异的时间连贯性 [24] - 在包含1000万个视频的WebVid-10M数据集上,NS-Diff在FVD和CLIPSIM指标上均优于对比模型,展示了其在开放世界场景中的良好泛化能力 [21][25] - 可视化对比显示,NS-Diff在处理篮球投篮、熔岩流、玻璃破碎等物理密集型场景时,能生成更真实、连贯的视频,显著减少违背物理规律的伪影 [26][28] 研究结论与意义 - 该研究成果表明,将经典物理约束深度融合于生成模型,是解决视频生成中物理失真问题的有效途径 [7][30] - NS-Diff框架通过物理引导,在显著降低物理运动误差的同时,确保了视觉生成质量,在多个基准数据集上超越了现有方法 [23][30]
统一离散与连续扩散!人大 & 蚂蚁提出 LLaDA-o,高效达成多模态理解与生成
机器之心· 2026-03-14 12:03
研究背景与问题 - 当前多模态大语言模型领域几乎全被自回归模型主导,扩散模型在图像生成和理解任务中展现出潜力,但缺乏一个能统一处理多模态理解和视觉生成的扩散模型[2] - 将离散文本扩散和连续图像扩散直接联合训练,会因状态空间和扩散过程的异构性导致优化冲突和性能下降[2] - 现有全能扩散模型通常只能生成固定长度的文本,限制了其在开放式对话中的应用[2] 解决方案与模型发布 - 中国人民大学与蚂蚁集团联合团队推出了LLaDA-o,一个高效且支持长度自适应的全能扩散模型[3] - LLaDA-o使用了混合扩散框架,在多模态理解和文生图任务上均实现了SOTA性能[3] - 团队预计近期将开源训练、推理代码以及LLaDA-o的模型权重[5] 模型性能亮点 - 在10个主流多模态理解基准测试中,LLaDA-o展现了优秀的能力,稳居扩散类MLLM的SOTA位置[7] - 在数学推理任务MathVista上取得66.1分,在图表理解任务ChartQA上取得87.9分,相较于现有扩散类全能模型优势显著[7] - 在文本到图像生成任务中,于DPG-Bench上取得了87.04的SOTA高分,超越了SD3-Medium、Show-o2和Lumina-DiMOO等模型[9] - 推理速度飙升5.9倍[6] 核心技术:混合扩散框架 - LLaDA-o采用混合扩散框架,配置了两个“扩散专家”以解耦不同模态的优化冲突[12] - “理解专家”采用离散的掩码扩散机制,负责处理文本和视觉编码器提取的token[14] - “生成专家”采用连续扩散机制,负责处理视觉潜在token[14] - 两个专家共享同一个注意力主干网络,确保了跨模态信息的深度交互[12] 核心技术:模态内双向注意力 - 团队设计了模态内双向注意力机制以解决全局注意力在推理时的重复计算问题[15] - 将输入序列划分为不同的模态块,在块内使用全连接注意力,在块间强制执行因果注意力[15] - 该机制允许前置条件的图像和提示词一次性计算并复用KV Cache,极大地避免了冗余计算[15] 核心技术:自适应长度增强 - 研究团队引入了自适应长度增强,这是一种纯数据驱动的训练策略[17] - 在训练时,对目标回复进行随机的“延长”或“截断”操作,使模型学会在推理时根据上下文动态决定输出长度[17] - 该方法无需修改底层架构,解决了变长文本生成的痛点[17] 总结与行业意义 - LLaDA-o将离散的语言理解与连续的视觉生成统一在混合扩散框架下,证明了扩散模型有能力在多模态“理解+生成”赛道上与自回归模型竞争[19] - 这项工作为非自回归架构的发展开辟了极具潜力的新路径[19] - 随着底层大语言扩散模型的持续进化,基于扩散架构的统一大模型有望在未来的通用人工智能版图中占据重要地位[20]
扩散模型终于学会「看题下菜碟」!根据提示词难度动态分配算力,简单题省时复杂题保画质
量子位· 2026-03-09 18:05
文章核心观点 - 中国联通数据科学与人工智能研究院联合高校提出的新框架“轨迹链”(CoTj),通过赋予扩散模型动态规划能力,实现了对文生图/视频模型计算资源的智能分配,在极低计算步数下显著提升生成质量,证明了“路径规划”比“求解器优化”更为关键 [4][23][35] 技术原理与创新 - CoTj框架的核心创新是让扩散模型拥有了类似“系统2”的规划能力,能够根据提示词的复杂程度动态分配计算资源,解决了传统方法固定步数采样导致的“简单题算力过剩,复杂题细节崩坏”问题 [1][2][4] - 团队通过提取名为“Diffusion DNA”的低维结构化特征,量化每个去噪阶段的难度,成功将高维复杂的采样过程转化为有向无环图上的最短路径优化问题,克服了“状态维度灾难” [8][9][11] - 该框架采用“预测-规划-执行”推理范式:首先通过极轻量级预测器快速预判难度,然后基于图论进行全局轨迹规划,最后动态执行算力分配 [14][15] 性能表现与实验结果 - 在极端加速场景下,CoTj展现出颠覆性优势:在仅5步的极端压缩下,CoTj规划出的轨迹配合最朴素的1阶Euler求解器,其生成质量(GenEval 0.626)超越了传统固定调度配合高阶UCGM求解器的方案(GenEval 0.528) [4][23][24] - 当CoTj规划配合高阶UCGM求解器时,在5步下能达到GenEval 0.775,在10步下能达到0.850,证明了正确规划与高阶求解器结合能达到最佳效果 [24] - 在轨迹可达性方面,10步的CoTj轨迹其重构质量(MSE减少超60%,PSNR提升超6dB)能媲美或超越传统固定分配的数十步结果 [25][28] - 在缓存自适应方面,CoTj能根据预测的DNA引导Cache更新节点,精准锁定高信息密度区域进行计算复用,在25步预算下,其性能(PSNR 35.20)反超了专门针对缓存优化的LeMiCa算法(PSNR 32.77) [27][28] 跨模态应用与扩展发现 - 在视频生成任务中,CoTj应用于Wan2.2模型测试,发现了“生成层级”逻辑,即在极限压缩下采取“保真度优先”策略,先稳定空间结构再释放动态效果,从而在40步充足预算下实现运动平滑度和动态逼真度的全面反超 [29][31] - Diffusion DNA特征可作为模型诊断工具,通过分析分步重建增益曲线,能揭示模型的内在收敛性,例如发现某些蒸馏模型在迭代后期仍保持高更新能量,存在“过度烹饪”和结构不收敛的隐患 [32][34] 未来展望与行业影响 - CoTj框架被视为将生成式AI从被动执行引向“资源感知规划”的里程碑式探索,标志着扩散模型“系统2”深思熟虑时代的开启 [35][37] - 团队指出了未来的研究方向,包括扩展到更复杂的视频动态建模、引入在线反馈机制进行轨迹修正,以及探索跨模态下无监督的Diffusion DNA发现 [36] - 该研究的论文已在arXiv发布,推理代码也已开源 [5][37]
ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式,递归似然比梯度优化器赋能扩散模型后训练
机器之心· 2026-03-09 11:58
文章核心观点 - 北京大学团队提出名为递归似然比(RLR)优化器的扩散模型后训练新方案,该方案通过创新的“半阶梯度估计范式”,在保证梯度估计无偏性的同时显著降低方差,从而在有限的计算资源下,高效解决扩散模型适配下游应用时面临的内存、效率与性能权衡问题 [2][10] 现有方法瓶颈 - 扩散模型后训练旨在将预训练模型与特定场景质量要求或人类偏好对齐,当前主流方法存在显著缺陷 [7] - 基于截断反向传播(BP)的方法为降低内存开销会终止部分梯度计算,导致梯度估计存在结构性偏差,严重时引发模型崩溃,生成内容退化为纯噪声 [7] - 基于强化学习(RL)的方法虽能降低内存需求,但梯度估计方差极高,导致样本效率低下,训练收敛缓慢 [7] - 例如,使用全BP训练Stable Diffusion 1.4仅需50个时间步就需约1TB GPU内存,完全不具实用价值,而截断BP和RL方法难以兼顾训练稳定性与生成质量 [7] RLR优化器技术原理 - RLR优化器设计了“半阶梯度估计范式”,通过利用扩散模型固有的噪声特性并重构递归扩散链中的计算图,实现无偏且低方差的梯度估计 [10] - 优化器核心包含一阶估计模块和零阶估计模块:一阶模块在第一个时间步直接对奖励模型进行反向传播,避免黑箱处理带来的精度损失;零阶模块对剩余时间步采用参数扰动策略,确保无偏性且无需缓存中间潜变量,大幅降低计算开销 [11][12] - 算法的核心可控参数是局部子链长度h,其取值决定了内存开销与梯度方差的权衡关系 [14] - 研究团队将h的求解转化为带内存预算约束的方差最小化优化问题,为参数选择提供了明确的数学依据 [14] - 在30~40GB主流GPU内存预算(8张V100)下,h=2被确定为工程黄金取值,可将整体方差降至饱和区间;将h增至3或4会使单步训练时间从1.61分钟飙升至5.65分钟、9.23分钟,但奖励分数仅微幅提升,性价比较低 [15] - 团队通过严格理论分析证明了RLR估计器的无偏性,并给出了方差边界和收敛速率保证 [16] 实验验证与性能表现 - 在文本到图像任务中,基于Stable Diffusion 1.4和2.1的实验显示,RLR在PickScore、HPSv2、AES等多个人类偏好奖励模型上均取得最高奖励分数 [18] - 在HPD v2数据集上,RLR将Stable Diffusion 1.4的ImageReward分数从32.90提升至76.55,较DDPO方法提升约47%,较AlignProp方法提升约14% [18] - 对于Stable Diffusion 2.1,RLR将ImageReward分数从基线的36.03提升至83.07 [19] - 在文本到视频任务的VBench基准测试中,RLR在主体一致性、运动流畅度、动态程度等6个核心指标上表现突出,加权平均分数达到84.63,超越了VideoCrafter、Pika、Gen-2等模型 [19] - 在动态程度指标上,RLR达到70.69,显著领先于其他方法的最高值66.94 [19] - 团队还为RLR优化器量身设计了“扩散思维链”提示词技术,通过将提示词分解为多尺度,让半阶子链精准针对生成缺陷进行梯度更新,进一步挖掘了性能潜力,在手部生成等细粒度任务中实现显著提升 [20]
李飞飞团队新作:简单调整生成顺序,大幅提升像素级图像生成质量
量子位· 2026-02-14 18:09
文章核心观点 - 李飞飞团队提出的Latent Forcing方法,通过重排扩散模型的生成轨迹,强制实现“先定结构、后填细节”的逻辑,从而在保持100%原始像素精度的同时,解决了传统AI生图方法在效率与保真度之间的取舍矛盾,并在多项指标上刷新了SOTA [4][5][6][26] 传统方法瓶颈 - 传统像素级扩散模型在降噪过程中,高频纹理细节会干扰低频语义结构,导致模型在未明确整体轮廓时就预测局部像素颜色,违背视觉生成的自然逻辑,容易产生结构混乱和速度慢的问题 [8][9] - 潜空间模型通过预训练tokenizer将图像压缩到低维空间,生成速度快,但依赖预训练解码器会引入重建误差,并丧失端到端建模原始数据的能力 [11][12] Latent Forcing方法原理 - 该方法核心是对扩散轨迹进行重新排序,在不改变基础Transformer架构的前提下,引入双时间变量机制,让模型同时但异步地处理像素和潜变量 [14][16] - 在生成初期,潜变量率先完成降噪,在大尺度上确立图像的语义骨架;在结构确定后,像素部分再进行精细化的降噪填色 [19] - 生成过程结束后,用于结构引导的潜变量“草稿”被直接丢弃,最终输出是100%无损的原始像素图像,无需解码器,整个过程端到端、可扩展,且几乎不增加计算量 [20][21] 性能表现与突破 - 在ImageNet-256任务中,相同计算规模下训练80个epochs,Latent Forcing的条件生成FID分数从此前最强的像素级模型JiT+REPA的18.60降至9.76,接近腰斩 [22] - 在200个epoch的最终模型(ViT‑L规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数,创下像素空间扩散Transformer新的SOTA [23][24] - 该方法打破了学术界“必须通过更高倍率的有损压缩才能换取好的FID表现”的普遍观点,证明在保持100%原始像素精度的情况下,性能可以超越有损模型 [25][26] 研究团队 - 该研究项目由斯坦福大学教授李飞飞领衔,其他共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli,密歇根大学教授Justin Johnson作为合作作者参与 [27][28][29]
扩散语言模型深度思考
机器之心· 2026-02-08 18:37
文章核心观点 - 文章认为扩散语言模型在算法基础层面具有巨大潜力,可能对当前主流的自回归模型范式带来冲击,并系统性地阐述了当前扩散语言模型面临的十大关键挑战及初步解决思路[4][5] 扩散语言模型当前面临的挑战与潜在研究方向 - **推理高效架构**:当前扩散模型沿用自回归模型的注意力机制,但由于掩码位置的随机性,导致提升自回归模型推理效率的关键值缓存复用机制失效,这是阻碍其广泛应用的主要问题之一,需要探索更适合扩散模型的注意力结构或更有结构性的掩码方式[6] - **更适配的词表**:理想的扩散模型不应遵循自回归模型的现有范式,其分词器应具有结构性,例如不同粒度的分词器分别负责段落联系、细节修改和快速填充空缺,形成类似金字塔的词表结构,以模仿人类多尺度的思考与写作方式[9] - **更好的优化范式**:扩散模型在优化上面临梯度计算低效的问题,例如在128k长序列中仅掩码一个词元时,需为单个词元进行大量计算,导致训练开销下的模型精度不如自回归模型,同时预训练与有监督微调阶段的掩码策略不一致也带来了挑战[9] - **更优的掩码方式**:当前主流扩散模型通常只使用一个掩码词元,功能单一且缺乏多样性,同时所有位置被掩码的概率相等,缺乏结构化机制,无法根据内容重要性进行差异化处理[9] - **动态长度输出**:扩散模型虽具有并行解码优势,但通常需要预先给定输出长度,对于需要自适应推断最优输出长度的任务存在局限,例如回答“9.11和9.8哪个大”可能不必要地生成100k词元[9][10] - **适配模型的数据工程**:当前扩散模型大多复用自回归模型的数据集,虽然通用知识可被学习,但若要激发扩散模型在结构化知识和推理上的潜力,需对数据进行优化,如在预训练数据中增加掩码位置信息或对重要词元进行标注[10] - **资源高效的模型优化**:在基础模型结构尚未收敛时,提升整体推理效率是关键,尤其是在加大批次规模后,全局扩散推理在部分场景劣于自回归模型,潜在优化方向包括扩散多步蒸馏、投机推理、低比特量化及与自回归模型的高效组合使用[10] - **慢思考及隐式思考**:扩散模型在有监督微调中,通过去噪过程在预定长度空间生成答案,传统的顺序思维链方法对其可能低效,未能充分利用其潜能,扩散模型特有的重新掩码能力为深度思考和隐式思考提供了更大可能性[10] - **结构化的提示词工程和记忆**:扩散模型可同时向前和向后查看词元的特性,要求探索更适合其模式的提示格式与方法,例如将自回归的问答式提示变为完形填空式,或仅提供几个全局关键词元以辅助快速解码,这对代码、深度研究和智能体场景有益[10][11] - **未来的统一架构**:面向多模态未来,探索更统一的模型结构和训练范式至关重要,当前理解类任务多用自回归模型,生成类任务多用扩散模型,例如在视觉语言动作模型中,能否用离散扩散模型将视觉、语言和动作三部分融合是一个极具潜力的研究方向[11]
何恺明带大二本科生颠覆扩散图像生成:扔掉多步采样和潜空间,一步像素直出
量子位· 2026-02-02 13:58
文章核心观点 - 何恺明团队提出了一种名为Pixel Mean Flow (pMF)的全新生成模型架构,该架构同时实现了单步采样和在原始像素空间操作,从而大幅简化了图像生成流程并提升了效率 [1][2][3] - pMF方法在ImageNet基准测试上取得了当前单步、无潜空间扩散模型的最佳成绩之一,其性能与生成对抗网络(GAN)相当,但计算开销显著降低 [4][27][29] - 该研究标志着生成式人工智能技术正从依赖多步采样和潜空间编码的复杂范式,向更直接、高效的端到端建模范式演进 [36] 技术突破与核心设计 - **架构简化**:pMF成功移除了传统扩散模型/流模型的两大核心组件——多步采样和潜空间编码,实现了从噪声到图像的一步生成 [3][5] - **核心设计思路**:网络直接输出像素级别的去噪图像,但在训练时通过一个从平均速度场变换得到的新场来计算损失,这基于“流形假设”,即预测低维流形上的量比预测高维噪声更容易 [13][14][17] - **关键验证**:在2D玩具模型和高维真实图像(如256×256分辨率,patch维度768)实验中,传统的u-prediction方法完全失效(FID飙升至164.89),而pMF采用的x-prediction方法表现稳定(FID保持在个位数) [20][21][23][24] - **独特优势**:由于直接在像素空间生成,pMF能够自然地引入感知损失进行训练,这在以往是潜空间方法的专属技巧,实验显示加入感知损失后FID从9.56降至3.53,提升约6个点 [25][26] 性能表现与对比 - **ImageNet 256×256分辨率**:pMF-H/16模型取得了2.22的FID分数,大幅超越了此前唯一的同类单步像素空间方法EPG(8.82 FID) [4][27] - **与GAN对比**:pMF-H/16的FID(2.22)与StyleGAN-XL(2.30)相当,但每次前向传播的计算量仅为271 Gflops,是StyleGAN-XL(1574 Gflops)的约17.2%,效率优势明显 [27][29] - **ImageNet 512×512分辨率**:pMF-H/32模型取得了2.48的FID分数,通过采用32×32的大patch尺寸,在保持与低分辨率模型相近计算开销的同时实现了高性能生成 [29][30] - **潜在成本揭示**:文章指出,潜空间方法中VAE解码器的计算开销常被忽略,标准SD-VAE解码器在256分辨率下需310 Gflops,在512分辨率下需1230 Gflops,这一开销已超过pMF整个生成器的计算量 [31] 实验细节与消融研究 - **优化器选择**:实验表明,使用Muon优化器比Adam收敛更快且效果更好 [32] - **时间采样策略**:MeanFlow的全平面采样策略(0 < r < t)至关重要,仅在单线(r=t或r=0)上采样会导致模型失败(FID分别高达194.53和389.28) [33][34] - **预条件器设计**:在高维像素空间场景下,传统的EDM和sCM风格的预条件器设计不如直接的x-prediction方法有效 [33] 行业意义与团队背景 - **技术演进方向**:研究证明了单步无潜空间生成已从“是否可行”进入“如何做得更好”的阶段,鼓励未来对更直接、端到端的生成建模进行探索 [36] - **团队构成**:论文共同一作为四名MIT本科生,其中包括多名国际奥林匹克竞赛(数学、物理)金牌得主,显示了顶尖年轻研究人才在该领域的活跃度 [37][38]
拒绝Reward Hacking!港科联合快手可灵提出高效强化学习后训练扩散模型新范式
机器之心· 2026-01-25 10:35
文章核心观点 - 强化学习微调扩散模型时面临“两难困境”:追求高奖励会导致图像质量崩坏,而引入KL正则化又会阻碍模型探索和收敛 [2] - 研究团队提出全新框架GARDO,通过门控自适应正则化和多样性感知优化,成功在防止奖励黑客攻击的同时,实现了高效的样本探索和多样性生成 [2] - GARDO框架基于三个核心洞察:正则化不需要“雨露均沾”、静态参考模型会限制优化上限、以及需要鼓励多样性生成以防止模式坍塌 [14][17][18] - 实验表明,GARDO在多个基底模型和任务上实现了全方位的性能提升,包括拒绝黑客攻击、提升样本效率和泛化性,甚至激发了模型的涌现能力 [20][22][24] 背景与动机:RL后训练中的陷阱 - 在视觉任务中,定义一个完美的奖励函数极其困难,通常使用代理奖励,这导致了典型的奖励黑客攻击问题 [5] - 当模型过度优化代理奖励时,会找到奖励模型的漏洞,导致代理分数极高但生成的图像质量崩坏,充满噪点、伪影并失去真实感 [5] - 传统的KL正则化方法会带来两个主要问题:样本效率低,以及阻碍模型探索参考模型未发现的高奖励区域 [9][10] GARDO框架的核心方法 - **门控KL机制**:仅对高不确定性样本施加惩罚,实验发现仅惩罚约10%的高不确定性样本即可有效防止奖励黑客攻击,让其余90%的样本自由探索 [14][21] - **自适应正则化目标**:定期更新参考模型,将其重置为当前策略,这为模型设立了动态更新的“锚点”,既保证训练稳定性,又允许模型持续进化 [17][21] - **多样性感知优势重塑**:利用DINOv3提取特征计算样本在特征空间中的稀疏度作为“多样性分数”,并将此分数以乘法形式作用于正向优势函数,以鼓励多样性生成并防止模式坍塌 [18] 实验结果:定量评估 - 在OCR任务上,GARDO在保持高识别率的同时,图像质量指标没有下降甚至有所提升 [22] - 学习曲线显示,GARDO能够以更少的步数达到更高的奖励水平,样本效率更高 [22] - 在未见过的测试指标上,GARDO表现出极强的鲁棒性 [22] - 具体数据:在SD3.5-M基底模型上进行OCR任务训练600步后,GARDO方法在Aesthetic Score上达到0.65,OCR识别率达到0.92,PickScore达到5.07,ImgRwd达到22.41,ClipScore达到0.92 [23] - 在GenEval任务训练2000步后,GARDO在Aesthetic Score上达到0.95,GenEval Score达到0.68,PickScore达到5.09,ImgRwd达到22.34,ClipScore达到0.95,HPSv3达到9.27,Diversity达到24.95 [23] 涌现能力 - 在极具挑战性的“数数任务”中,基底模型和传统RL方法很难生成超过9个物体 [25] - GARDO成功学会了生成10个甚至11个物体 [25] - 具体数据:在Counting 10任务上,GARDO的成功率达到0.38,显著高于GRPO方法的0.28;在Counting 11任务上,GARDO成功率为0.18,也高于GRPO的0.15 [26] 总结与意义 - 这项工作证明,在视觉生成的强化学习中,精准的控制比强力的约束更重要 [27] - GARDO为希望利用RL进一步释放扩散模型潜力的研究者和开发者提供了一个极具价值的通用框架 [27] - 框架的核心可总结为:拒绝盲目正则化、拒绝静态锚点、拒绝模式坍塌 [29]
AI芯片格局
傅里叶的猫· 2026-01-24 23:52
一、TPU的崛起与挑战 - Google TPU凭借对LLM的原生优化优势,正成为OpenAI、苹果等科技巨头的重要选择,逐渐打破英伟达GPU的垄断格局[3] - 从GPU生态迁移至TPU面临显著的技术适配挑战,包括数值表示和精度体系差异,模型转换过程复杂,根据参数量差异,复杂模型的转换周期可能长达一周[4] - 全球AI算力需求爆发式增长,TPU出现约50%的供给缺口,导致算力排队和项目延期,并将生产压力传导至核心代工方台积电[5] - TPU基于Google自研的JAX开源框架,与主流的CUDA生态不兼容,熟悉JAX的开发者占比极低,抬高了使用门槛[5][6] 二、TPU与AWS Trainium的对比 - Google TPU将矩阵和张量运算嵌入芯片硬件层面,在LLM规模化运行中具备显著效率优势,是OpenAI选择其作为推理核心的关键原因[7] - AWS Trainium未将矩阵运算模块集成于芯片本身,需依赖外部库和内存调用,导致单芯片效率受限,在大规模集群中累计效率损耗显著[7] - 在网络架构上,谷歌通过GKE在垂直扩展能力上突出;AWS凭借Elastic Fabric Adapter在水平扩展上有优势;英伟达在InfiniBand等技术上实现了横竖扩展的较好平衡[8] - AI芯片竞争已延伸至软件生态、网络架构等全栈协同,Google TPU的“芯片+框架+网络”闭环生态构成了核心壁垒[8] 三、Oracle的逆袭策略与风险 - Oracle凭借绑定美国政府政策和联合产业链伙伴囤积高端芯片,实现了“弯道超车”[9] - 根据美国临时规定,截至10月底,部分硬件厂商需优先供应政府机构,Oracle借此成为政府芯片采购核心伙伴,并联合CoreWeave、Nebius等近乎垄断了H200、B200等高端芯片的市场供给[10] - Oracle与OpenAI签订了未来4-5年价值3000亿美元的计算资源合作协议,通过算力转售赚取20%-25%的抽成[10] - Oracle缺乏自研LLM和成熟的数据中心运营经验,其AI业务与核心数据库业务脱节,商业逻辑高度依赖与Palantir的“数据+算力”互补合作[11] - 未来面临谷歌、微软等巨头的算力竞争加剧,以及若芯片产能缓解、政策红利消退,其资源垄断优势将快速弱化的挑战[12] 四、OpenAI的资金与商业困境 - OpenAI陷入“高投入、低产出”的资金困境,年营收约120亿美元,乐观估算年现金流仅60亿美元,但其总投入规模达3000亿美元级别,现金流无法覆盖需求[14] - 全球多地(欧洲、日本、澳大利亚、印度等)存在算力供给缺口,制约其全球化扩张[14] - LLM推理业务是其核心收入,但该业务毛利率乐观估计仅30%左右,净利率约25%,当前20美元/月的个人订阅价难以可持续盈利,需提价至40-50美元/月[15] - 相比谷歌拥有30亿日活用户的产品生态,OpenAI在企业级应用和云服务上布局薄弱,缺乏稳定落地场景,议价能力较弱[15] - OpenAI计划与博通合作研发专属TPU/NPU芯片,目标在12个月内启动部署,达成10GW级AI加速器容量,涉及百亿级美元订单,但该计划被行业认为不切实际,缺乏经验、资金和供应链资源[16] 五、大模型的未来发展方向 - 当前自回归式大模型出现性能增益边际递减问题,参数量扩大带来的性能提升收窄,而算力成本指数级增长[17] - “用AI生成的数据训练AI”的闭环模式可能导致数据质量劣化[17] - 电力供应不足已成为制约算力集群扩张的现实物理瓶颈,对英伟达的过度依赖导致全供应链承压[17] - 未来发展方向包括:1) 混合专家模型(MoE),通过任务分工降低算力成本并提升效率;2) 扩散模型,一次性生成整体语境以提升推理效率;3) 多模态与实体数据融合,拓展应用场景[18][19] - AGI短期内难以实现,大模型将回归工具属性,行业竞争焦点从“做出更强的模型”转向“更好地落地模型价值”[19]
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2026-01-16 10:58
行业趋势与市场现状 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播 [1] - 行业前沿技术发展放缓,业内量产方案趋同,整体呈现技术下沉趋势 [2] - 端到端等前沿技术的大规模量产起点预计在2026年 [2] - 二十万以上的乘用车年销量约700万辆,但头部新势力销量占比不足三分之一,搭载端到端技术的量产车型占比更低 [2] - 随着L3级自动驾驶法规推进,中游厂商面临紧迫的技术升级压力 [2] 技术发展路径与需求 - 端到端技术的成熟被视为开启更大规模量产的关键 [2] - 近期众多公司算法负责人迫切希望了解端到端所需的技术能力 [2] - 在端到端时代,感知任务合并与规控算法学习化已成为绝对主流 [7] - 如何高效合并感知任务、设计学习化的规控模块成为各大公司的核心必备技能 [7] 端到端技术架构与方案 - 主流技术架构分为两段式与一段式端到端算法 [8][9] - 两段式框架涉及感知与规划控制(PNC)间的信息传递建模,存在信息损失 [8] - 一段式框架可实现信息无损传递,性能通常优于两段式方案,代表方法包括基于VLA和基于Diffusion的方法 [9] - 量产落地需包含后处理的兜底逻辑,例如时空联合规划等轨迹平滑优化算法,以保证输出轨迹的稳定可靠 [13] 关键赋能技术与应用 - 导航信息在自动驾驶中起引导、选路、选道的关键作用,其地图格式、编码与嵌入方式是技术重点 [10] - 仅靠模仿学习存在局限,需结合强化学习(RL)使机器学习因果关系,实现更好的泛化能力 [11] - 轨迹输出优化涉及模仿学习与强化学习的结合使用,具体算法包括基于扩散模型和基于自回归的算法 [12] 量产实践与经验 - 真正的量产落地需从数据、模型、场景、规则等多视角综合施策,以快速提升系统能力边界 [14] - 课程内容聚焦量产实践,涵盖从架构概述、具体算法、导航应用、RL训练到轨迹优化及兜底方案的完整链条 [7][8][9][10][11][12][13][14]