Diffusion模型 - 财报，业绩电话会，研报，新闻

Diffusion模型

搜索文档

自动驾驶之心· 2025-09-14 00:04

扩散模型数学原理朗之万采样与扩散模型基础 - 扩散模型本质是通过神经网络学习解常微分方程/随机微分方程的过程，核心是从随机噪声逐步生成目标数据分布[3] - 图像生成任务可视为从高维概率分布采样，朗之万采样通过分数函数（概率密度梯度）将随机噪声推向高概率区域[11] - 噪声项在朗之万采样中必不可少：无噪声会导致收敛到局部极大值（模式搜索），有噪声才能确保采样多样性并探索多模态分布[11][14][26] - 网络负责生成宏观结构和方向，噪声提供高频细节和纹理，两者结合产生真实感图像[11][26] 分数匹配与训练目标 - 通过高斯核密度估计（KDE）将离散分布连续化，获得可求梯度的分数函数：∇ₓlog pσ(x) = (μ_w(x) - x)/σ² [41][46][53] - 训练目标分为分数匹配和噪声预测两种等价形式：分数匹配直接预测梯度，噪声预测则估计添加的噪声，关系为 sθ(x_t, t) ≈ -(1/σ_t) · εθ(x_t, t) [64][65][66] - 方差爆炸（VE）和方差保持（VP）是两种主流噪声调度策略：VE让方差随时间递增最终变为高斯噪声，VP保持总方差不变[69][70] Flow Matching 框架 - Flow Matching 直接学习速度场而非分数函数，通过构造确定性流将先验分布传输到数据分布[144][145] - MeanFlow 学习平均速度场而非瞬时速度场，可实现一步生成（1-NFE），推理公式为 z₀ = z₁ - uθ(z₁, 0, 1) [105][107][111] - Rectified Flow 通过重流（reflow）技术拉直轨迹，使ODE可用单步欧拉求解，提升推理效率[94][97][98] - 与扩散模型对比：Flow Matching 不依赖高斯先验和边界分数，支持任意可采样分布[144][145] 分类器自由引导（CFG） - CFG 通过线性组合有条件和无条件预测增强控制效果：ū_t(x|y) = (1-w)u_t(x|∅) + wu_t(x|y)，其中 w > 1 为引导尺度[179][183][184] - 训练时以概率 η 替换条件 y 为空集 ∅，统一学习有条件和无条件速度场[184][189] - 推导基于贝叶斯规则：∇log p(x|y) = ∇log p(x) + ∇log p(y|x)，引导项放大分类器梯度[177][181][193] 概率流ODE统一框架 - 概率流ODE构建确定性生成路径：dX_t = [f(X_t,t) - ½g(t)²∇log p_t(X_t)] dt，其分布演化与SDE一致[148][158][164] - 分数匹配（SDE/ODE）和Flow Matching属同一家族，前者学分数再转速度，后者直接学速度场[148][151] - 扩散模型依赖高斯先验的原因：线性高斯SDE有闭式解，梯度易计算，且边界分数已知（∇log p₀(x) = -x）[133][134][143] 技术实现与优化 - 实现涉及雅可比向量积（JVP）计算，框架如Jax和Torch提供原生支持[115][122] - 损失函数设计避免EMA和stop_gradient，理论保证收敛性且训练稳定[120][121][125] - 采样效率通过平均速度场和直线轨迹优化，减少推理步数[98][105][111] 注：本文仅涉及扩散模型数学原理及算法框架，未包含风险提示、免责声明、评级规则等无关内容[3]

Classifier-Free Guidance（CFG）

Classifier-Free Guidance（CFG）

概率流ODE

关于理想VLA新的36个QA

理想TOP2· 2025-08-13 13:10

技术架构与研发方向 - 强化学习在VLA架构中起关键作用公司已增加大量推理卡资源支持强化训练[1] - VLA采用串联设计整合视觉-语言-动作模块相比并联的VLM架构具备自主思考能力[3] - Diffusion模型被应用于轨迹生成借鉴机器人领域经验但非完全跟随特斯拉方案[4] - 3D空间理解+2D全局语义构成VLA感知核心解决传统VLM缺乏空间感知的痛点[7][29] - 基座模型团队专门设计8×0.4 MoE架构优化芯片部署效率[28] 产品功能与用户体验 - EID界面仿真视频级渲染需更高算力支持当前受限于驾舱芯片性能[2] - 语音控车功能支持复杂连续指令规则引擎方案难以实现组合任务[25][26] - 三点掉头功能需Diffusion模型支持多模态轨迹拟合配合决策思考能力[6] - 高速场景研发重点在超视距问题事故后果严重性高于城区场景[22][23] - 人机共驾通过语音交互实现底层能力优于方向盘信号干预方案[36][37] 技术实现与工程挑战 - 单芯片部署通过int4量化压缩带宽结合FP8计算精度优化[12][13] - 模型规模扩展遵循Scaling Law 7B参数可通过蒸馏和数据优化提升智力[9][10] - 3D数据标注需全部重刷标注内容与端到端阶段存在本质差异[32] - 极端工况识别受限于摄像头分辨率需视觉与激光雷达前融合提升置信度[33][34] - 仿真数据占比约10% 主要用于特殊场景补充而非过拟合测试[23] 行业对比与发展路径 - L2渐进式路线与Robotaxi直接L4方案差异显著前者强调全场景覆盖能力[10][11] - 特斯拉FSD V13未采用Language模型漫游能力依赖端到端而非寻路逻辑[26][27] - 大模型公司缺乏3D数据资产业务需求决定三维场景理解能力发展[30][31] - 关键人物推动技术迭代但行业大势依赖基础设施与工程师群体[38] 法规与商业化 - 拍照功能受法规限制暂未全量发布需与监管部门协同推进[15] - 召唤功能面临严格法规约束能力储备先于政策放开[16][17] - 商业化路径强调用户规模普及高精地图方案难以满足百万级车辆需求[25]

对话阶跃星辰段楠：“我们可能正触及 Diffusion 能力上限”

AI科技大本营· 2025-05-20 09:02

视频生成技术现状与挑战 - 当前视频生成技术（如Diffusion模型）已能产出惊艳视觉片段，但可能触及能力天花板，真正具备深度理解能力的多模态基础模型尚在孕育中[1][5] - 阶跃星辰开源两个30B参数视频生成模型：Step-Video-T2V（文生视频）和Step-Video-TI2V（图生视频），在运动性和风格化生成方面表现突出[12][33] - 当前Diffusion视频模型Scaling Law表现不显著，30B参数模型泛化能力提升有限，15B参数可能在效率与性能间取得更好平衡[5][26] 下一代技术发展方向 - 未来1-2年内可能出现视觉领域的"GPT-3时刻"，带来革命性突破[4][36] - 技术突破方向包括：自回归（AR）与Diffusion模型融合架构、从映射学习转向因果预测学习范式、增强少样本学习能力[5][21][45] - 视觉基础模型需具备深度理解能力而非仅像素生成，需借鉴NLP领域成功经验，通过生成方式获得更强理解能力[19][32] 行业实践关键因素 - 高质量自然数据是核心瓶颈，需大规模多样化真实数据而非合成数据，数据处理复杂度极高[14][16][32] - 系统支持与多团队协作至关重要，阶跃星辰项目成功得益于强大系统团队支持[17][18] - 模型需平衡上限探索与易用性，30B参数模型因体积过大影响实际应用，未来需大小模型并行发展[28][29] 多模态与AI应用前景 - 视频理解能力进步将推动具身智能、机器人等需要物理交互的AI应用发展[14][37] - 多模态模型将向物理世界感知发展，增强动作理解等能力，2025年可能出现图像与文字理解生成的重要突破[56][49] - AIGC趋势包括视频长度延长、编辑能力提升、基于参考的生成技术发展，未来将降低内容创作门槛[38][44] 技术里程碑与行业参考 - 近五年AI重大创新包括BERT、GPT-3、ChatGPT、Sora等，确立不同领域技术范式[15] - 视觉领域可能处于NLP中BERT之后、GPT-3之前的阶段，需经历类似发展过程[32] - DeepSeek系列模型因性能优异且实用性强，成为国内行业重要参考[15]

Artificial Intelligence

Artificial Intelligence

Step-Video-T2V