Diffusion（扩散模型） - 财报，业绩电话会，研报，新闻

Diffusion（扩散模型）

搜索文档

华尔街见闻· 2026-02-11 12:25

中国AI视频模型的阶段性领先与工程化路径 - 字节Seedance2.0的出圈，标志着中国AI视频模型已不只是追赶，而是开始领跑，其核心在于将AI视频变成了可稳定交付的“工业品”[1] - 中国模型的领先并非突然发生，早在去年4月，快手可灵2.0在文生视频对比中，其与Sora的胜负比达到367%，在人物一致性、生成稳定性与复现率上全面领先，率先实现可商用能力[2] - 一批中国公司正沿此路径推进，将视频生成嵌入电商、广告、游戏买量等工作流中，其阶段性领先的核心在于更早将视频视为工程问题解决，而非单纯追求模型更聪明[3] AI视频生成的技术路线演变 - 当前高质量图像/视频生成的底层技术几乎都绕不开Diffusion模型，该模型源于2015年提出的思路，并在2020年后因计算资源提升和训练方法成熟而成为主流，其优势在于极强的稳定性和细节表现力[3] - Diffusion模型的局限在于擅长生成逼真画面，但并不真正理解事物重组前后的顺序与因果，导致早期AI视频单帧精致但连贯性差，存在人物不一致、动作不连续等问题[4][5] - Transformer架构伴随GPT出圈，其核心能力在于理解信息对齐、时间顺序和长距离依赖等“关系”，擅长规划结构和顺序，但不直接产出画面[6] - 一个关键的技术分工逐渐明确：Transformer擅长规划结构和顺序，Diffusion擅长生成具体画面[7][8] 中外AI视频发展路径的差异 - 海外团队长期倾向于不断挑战Diffusion模型的上限，例如追求生成更长时长、更复杂世界、更逼真物理效果的视频，其成果如Sora虽然震撼，展示了理解现实世界的潜力，但代价是生成成本高、失败率高、复现性差，更适合展示未来而非支撑当前生产[10][11][12] - 中国模型团队走的是更务实的工程化路径，更早意识到视频的核心难点在于“完成”而非“生成”，将传统影视中依赖经验的隐性流程（如镜头推进、视角切换、细节一致性）拆解为模型的约束条件[13][14] - 在此体系下，Transformer负责规划视频结构和节奏，Diffusion在明确指令下完成具体画面，视频被视为需要控制成功率的生产线而非艺术奇迹[15][16][17] 中国模型的工程化优势与行业影响 - 中国互联网过去十多年的核心能力集中在内容流水线的极致优化上，如短视频、电商直播、信息流广告、游戏买量等行业，其逻辑是将数据解码计算后验概率，再拆解成标准件复刻，这一工程逻辑被成功带入AI视频领域[18] - 在AI视频领域，Diffusion不再是生成模型的主导，而是被作为工业流水线中的一个关键“零件”来使用[19] - Seedance 2.0等产品的意义在于，将“提示词—生成—成片”的路径推至足够稳定，使其能作为日常工具使用，实现了使用价值维度的突破[20] - 在大语言模型等认知密集型领域，中国模型整体仍在追赶；但在AI视频这种“流程密集型”领域，凭借工程判断、效率控制和规模化落地能力，中国模型反而更容易取得阶段性领先[21][22] - 通过将Diffusion和Transformer正确分工并组织进可复用的生产线，中国模型将AI视频从技术奇观转变为真正的工业能力，并由此完成了属于自己的领跑[22][23]

理想一篇论文入选近半年端到端自动驾驶推荐度最高的10篇论文

理想TOP2· 2025-06-18 19:43

端到端自动驾驶技术发展 - 近半年端到端自动驾驶领域推荐度最高的10篇论文由深蓝AI调研数十位一线研究者得出，涵盖扩散模型、视觉语言模型等技术路线[2][20][22] - 理想汽车与中科院计算所、清华联合发布的TransDiffuser论文入选TOP2，采用扩散模型生成轨迹，PDMS得分达94.85[3][10][15] - 行业呈现技术融合趋势，包括3DGS强化学习框架、VLM知识蒸馏、车路协同等创新方向[27][45][63] TransDiffuser技术架构 - 采用编码器-解码器结构，场景编码器处理图像/LiDAR数据生成多模态特征，去噪解码器基于DDPM迭代生成轨迹[10][11] - 关键创新包括无锚点轨迹生成和多模态去相关优化机制，解决模式崩溃问题并提升轨迹多样性[16] - 使用NAVSIM数据集训练，输入8视角图像+5传感器LiDAR，输出8个路径点覆盖4秒轨迹[15] 理想汽车技术路径 - 理想VLA采用单系统架构，通过diffusion将action token解码为轨迹，相比VLM双系统具备更强语义理解能力[4][7] - 技术实现上先输出action token再生成轨迹，未直接输出控制信号，未来可能扩展至油门方向盘控制[4][5] - 采用ODE采样器优化使diffusion在2-3步内生成稳定轨迹，解决传统扩散模型效率低的问题[7] 行业技术标杆 - UniAD获得CVPR 2023最佳论文，首次整合感知预测规划任务到统一框架，成为行业基准[69] - VAD提出矢量化自动驾驶范式，通过实例级规划约束提升安全性，获ICCV 2023奖项[69] - 行业综述论文系统分析250+篇研究，梳理端到端自动驾驶的挑战与未来趋势[69] 前沿技术方向 - 3DGS强化学习框架RAD实现碰撞率降低3倍，开创基于3DGS的RL训练范式[27][30] - VLM-AD通过文本注释数据集提炼VLM知识，使碰撞率降低57.4%[29][32] - HiP-AD采用可变形注意力机制，在nuScenes数据集实现0.7%闭环碰撞率[55][61]