Workflow
Diffusion(扩散模型)
icon
搜索文档
中国模型为何会在AI视频上领跑
华尔街见闻· 2026-02-11 12:25
中国AI视频模型的阶段性领先与工程化路径 - 字节Seedance2.0的出圈,标志着中国AI视频模型已不只是追赶,而是开始领跑,其核心在于将AI视频变成了可稳定交付的“工业品”[1] - 中国模型的领先并非突然发生,早在去年4月,快手可灵2.0在文生视频对比中,其与Sora的胜负比达到367%,在人物一致性、生成稳定性与复现率上全面领先,率先实现可商用能力[2] - 一批中国公司正沿此路径推进,将视频生成嵌入电商、广告、游戏买量等工作流中,其阶段性领先的核心在于更早将视频视为工程问题解决,而非单纯追求模型更聪明[3] AI视频生成的技术路线演变 - 当前高质量图像/视频生成的底层技术几乎都绕不开Diffusion模型,该模型源于2015年提出的思路,并在2020年后因计算资源提升和训练方法成熟而成为主流,其优势在于极强的稳定性和细节表现力[3] - Diffusion模型的局限在于擅长生成逼真画面,但并不真正理解事物重组前后的顺序与因果,导致早期AI视频单帧精致但连贯性差,存在人物不一致、动作不连续等问题[4][5] - Transformer架构伴随GPT出圈,其核心能力在于理解信息对齐、时间顺序和长距离依赖等“关系”,擅长规划结构和顺序,但不直接产出画面[6] - 一个关键的技术分工逐渐明确:Transformer擅长规划结构和顺序,Diffusion擅长生成具体画面[7][8] 中外AI视频发展路径的差异 - 海外团队长期倾向于不断挑战Diffusion模型的上限,例如追求生成更长时长、更复杂世界、更逼真物理效果的视频,其成果如Sora虽然震撼,展示了理解现实世界的潜力,但代价是生成成本高、失败率高、复现性差,更适合展示未来而非支撑当前生产[10][11][12] - 中国模型团队走的是更务实的工程化路径,更早意识到视频的核心难点在于“完成”而非“生成”,将传统影视中依赖经验的隐性流程(如镜头推进、视角切换、细节一致性)拆解为模型的约束条件[13][14] - 在此体系下,Transformer负责规划视频结构和节奏,Diffusion在明确指令下完成具体画面,视频被视为需要控制成功率的生产线而非艺术奇迹[15][16][17] 中国模型的工程化优势与行业影响 - 中国互联网过去十多年的核心能力集中在内容流水线的极致优化上,如短视频、电商直播、信息流广告、游戏买量等行业,其逻辑是将数据解码计算后验概率,再拆解成标准件复刻,这一工程逻辑被成功带入AI视频领域[18] - 在AI视频领域,Diffusion不再是生成模型的主导,而是被作为工业流水线中的一个关键“零件”来使用[19] - Seedance 2.0等产品的意义在于,将“提示词—生成—成片”的路径推至足够稳定,使其能作为日常工具使用,实现了使用价值维度的突破[20] - 在大语言模型等认知密集型领域,中国模型整体仍在追赶;但在AI视频这种“流程密集型”领域,凭借工程判断、效率控制和规模化落地能力,中国模型反而更容易取得阶段性领先[21][22] - 通过将Diffusion和Transformer正确分工并组织进可复用的生产线,中国模型将AI视频从技术奇观转变为真正的工业能力,并由此完成了属于自己的领跑[22][23]
理想一篇论文入选近半年端到端自动驾驶推荐度最高的10篇论文
理想TOP2· 2025-06-18 19:43
端到端自动驾驶技术发展 - 近半年端到端自动驾驶领域推荐度最高的10篇论文由深蓝AI调研数十位一线研究者得出,涵盖扩散模型、视觉语言模型等技术路线[2][20][22] - 理想汽车与中科院计算所、清华联合发布的TransDiffuser论文入选TOP2,采用扩散模型生成轨迹,PDMS得分达94.85[3][10][15] - 行业呈现技术融合趋势,包括3DGS强化学习框架、VLM知识蒸馏、车路协同等创新方向[27][45][63] TransDiffuser技术架构 - 采用编码器-解码器结构,场景编码器处理图像/LiDAR数据生成多模态特征,去噪解码器基于DDPM迭代生成轨迹[10][11] - 关键创新包括无锚点轨迹生成和多模态去相关优化机制,解决模式崩溃问题并提升轨迹多样性[16] - 使用NAVSIM数据集训练,输入8视角图像+5传感器LiDAR,输出8个路径点覆盖4秒轨迹[15] 理想汽车技术路径 - 理想VLA采用单系统架构,通过diffusion将action token解码为轨迹,相比VLM双系统具备更强语义理解能力[4][7] - 技术实现上先输出action token再生成轨迹,未直接输出控制信号,未来可能扩展至油门方向盘控制[4][5] - 采用ODE采样器优化使diffusion在2-3步内生成稳定轨迹,解决传统扩散模型效率低的问题[7] 行业技术标杆 - UniAD获得CVPR 2023最佳论文,首次整合感知预测规划任务到统一框架,成为行业基准[69] - VAD提出矢量化自动驾驶范式,通过实例级规划约束提升安全性,获ICCV 2023奖项[69] - 行业综述论文系统分析250+篇研究,梳理端到端自动驾驶的挑战与未来趋势[69] 前沿技术方向 - 3DGS强化学习框架RAD实现碰撞率降低3倍,开创基于3DGS的RL训练范式[27][30] - VLM-AD通过文本注释数据集提炼VLM知识,使碰撞率降低57.4%[29][32] - HiP-AD采用可变形注意力机制,在nuScenes数据集实现0.7%闭环碰撞率[55][61]