Diffusion Model - 财报，业绩电话会，研报，新闻 - Reportify

Diffusion Model

搜索文档

告别Transformer！北大、北邮、华为开源纯卷积DiC：3x3卷积实现SOTA性能，比DiT快5倍！

机器之心· 2025-07-11 16:27

AI视觉生成技术 - 当前AI视觉生成领域主流是基于Transformer架构的扩散模型，如Stable Diffusion和Sora，这些模型虽然生成效果好但计算开销大、推理速度慢[4] - 北大、北邮和华为的研究团队提出了一种纯卷积的扩散模型DiC，采用3x3卷积而非Transformer架构，在性能和推理速度上都有显著提升[1][5] - DiC模型证明了经过精心设计，简单的卷积网络依然能在生成任务中达到顶尖水平，挑战了生成模型必须依赖自注意力的固有观念[24] 技术架构创新 - DiC采用U-Net Hourglass架构而非Transformer的直筒形堆叠架构，通过下采样和上采样弥补了3x3卷积感受野受限的问题[13] - 模型减少了U-Net的跳连频率，降低了计算冗余，同时采用分阶段嵌入、条件门控机制等优化手段提升生成质量[14] - 将常用的SiLU激活函数替换为GELU，带来了一定的效果提升[15] 性能表现 - 在ImageNet 256×256测试中，DiC-XL的FID分数从DiT-XL/2的20降低到13，IS分数也大幅提升[17] - DiC-XL的推理吞吐量达到313.7，是DiT-XL/2(66.8)的近5倍，展现了显著的效率优势[17][18] - 在512x512分辨率下，DiC-XL用比DiT-XL/2更少的计算量，实现了更好的生成效果和更快的速度[22] 训练效率 - 不使用cfg时，DiC的收敛速度是DiT的十倍；使用cfg时FID可以达到2.25[18] - DiC-H模型在400K训练步数时FID为11.36，600K时降至9.73，800K时进一步降至8.96，展现了良好的训练扩展性[19] - 在相同设定下，DiC-H仅需256×2M的训练就能达到2.25的FID，优于DiT-XL/2需要256×7M训练才能达到的2.27[20]

Artificial Intelligence

Diffusion Model

3x3 Convolution

Artificial Intelligence

DiC (Diffusion CNN)

Artificial Intelligence

Diffusion Model

3x3 Convolution

Artificial Intelligence

DiC (Diffusion CNN)

2025秋招开始了，这一段时间有些迷茫。。。

自动驾驶之心· 2025-07-08 15:53

自动驾驶行业就业趋势 - 双非研究生在自动驾驶和具身智能领域面临就业挑战，需提升技术实力和背景竞争力 [2] - 行业需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向，传统技术人才已相对饱和 [3] - 机器人/具身智能初创公司融资活跃，技术栈培养全面，深圳、杭州是产业聚集地 [3][4] 技术发展方向 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大前沿技术方向 [8] - 视觉大语言模型领域涵盖预训练、迁移学习、知识蒸馏等技术，涉及图像分类、文本检索、行为识别等任务 [10][13][14] - 世界模型在自动驾驶中实现3D场景理解和生成一体化，如HERMES、DrivingGPT等模型 [31][32] - 扩散模型应用于自动驾驶视频生成、3D视觉、轨迹预测等领域，技术成熟度快速提升 [33][35][40] 数据集与评估体系 - VLM预训练数据集规模从百万级到百亿级，如LAION5B含50亿图文对，WebLI含120亿数据 [16] - 自动驾驶专用数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务，如NuScenes、Waymo Open Dataset等 [22][23] - 评估指标包括mAP（目标检测）、mIoU（语义分割）、Recall（文本检索）等，不同任务有标准化测试集 [17][20][21] 应用领域创新 - 智能交通领域采用语言引导的车辆检索技术，如Multi-granularity Retrieval System提升自然语言交互能力 [24] - 自动驾驶感知系统集成VLM技术，实现开放词汇检测（OpenScene）和语言引导3D检测（Language-Guided 3D Object Detection） [25] - 决策控制系统结合LLM，如GPT-Driver、DriveGPT4实现可解释的轨迹规划和运动控制 [26][27] 端到端自动驾驶进展 - 端到端方法整合感知、预测、规划模块，DriveGPT4、DriveMLM等模型实现行为状态对齐 [28][48] - 技术挑战包括长尾分布处理（BEVGPT）、开环控制优化（MiniDrive）和安全性验证（CAT） [50][56] - 行业报告指出端到端技术需平衡模块化与一体化，特斯拉FSD验证了大规模数据驱动的可行性 [45] 行业资源与社区 - 知识星球提供自动驾驶课程、硬件代码资料及招聘信息，已吸引华为天才少年等专家加入 [5][60] - GitHub资源库汇总Awesome系列，如Awesome-Diffusion-Models、Awesome-End-to-End-Autonomous-Driving等 [34][42] - 学术会议（CVPR、ICRA）设立自动驾驶专题研讨会，推动技术标准化和产学研合作 [46]

Autonomous Driving

Embodied Intelligence

Visual Language Model

Diffusion Model

Autos (Autonomous Driving)

Autonomous Driving

Embodied Intelligence

Visual Language Model

Diffusion Model

Autos (Autonomous Driving)

双非研究生，今年找工作有些迷茫。。。

自动驾驶之心· 2025-06-30 13:51

自动驾驶与具身智能行业趋势 - 自动驾驶和具身智能公司对人才要求较高，倾向于招聘实力强、背景好的同学[2] - 行业技术方向正从传统方法向端到端、大模型、VLA、强化学习、3DGS等前沿领域转型[3] - 机器人初创公司融资活跃，未来几年发展前景可观[3] 职业发展建议 - 双非背景同学可考虑SLAM和ROS方向，从事机器人/具身智能相关的优化、集成类工作[3] - 建议关注机器人公司，虽然工作较苦但能学习到实打实的技术栈[4] - 具身智能是最前沿方向，但传统机器人仍是产品主线[4] 技术社区资源 - 知识星球提供自动驾驶视频课程、硬件及代码学习资料，以及全栈学习路线图和招聘信息[5] - 社区已形成学术+产品+招聘的完整链路，包含课程、硬件和问答闭环[5] - 社区关注行业技术动态、技术分享、讨论和求职信息，聚焦具身智能与自动驾驶结合等前沿话题[5] 前沿技术方向 - 四大前沿技术方向包括视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[7] - 视觉大语言模型领域有多篇CVPR 2024论文，涉及预训练、迁移学习等方向[11][12] - 扩散模型在自动驾驶中的应用包括场景生成、数据增强等方向[38][39] 数据集资源 - VLM预训练数据集规模从百万级到百亿级不等，最大达12B样本[15] - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等任务，时间跨度从2009到2024年[21] - 语言增强的自动驾驶数据集支持文本解释、视觉问答等任务[22] 应用领域进展 - 智能交通领域主要研究语言引导的车辆检索和视觉问答技术[23] - 自动驾驶感知方向聚焦行人检测、目标指代等任务[24] - 定位规划领域探索语言引导导航和运动规划技术[25] - 决策控制方向研究大语言模型在自动驾驶决策中的应用[26] 端到端自动驾驶 - 端到端方法整合感知、预测和规划模块，实现自动驾驶全流程[27] - 相关研究关注模型可解释性、行为规划和场景生成等方向[45] - 世界模型在端到端驾驶中发挥重要作用，支持场景理解和生成[30][50]

Autonomous Driving

Embodied Intelligence

Visual Language Model

Diffusion Model

Autonomous Driving

Embodied Intelligence

Visual Language Model

Diffusion Model

100+自动驾驶数据集，这5个你总得知道吧？

自动驾驶之心· 2025-06-22 09:35

自动驾驶数据集 - KITTI数据集是自动驾驶领域最经典的基准数据集之一，包含立体视觉、光流、视觉里程计、3D目标检测和跟踪等多种感知任务的标注，覆盖城市、高速和乡村场景 [3][6] - nuScenes数据集包含1000个连续驾驶场景，配备6个摄像头、5个毫米波雷达、1个顶置LiDAR，提供约140万张高分辨率相机图像和39万帧LiDAR扫描，标注了23个对象类别的1.4M个3D边界框 [5][7] - Waymo Open Dataset是全球最大的自动驾驶开放数据资源之一，包含2030个20秒场景的高分辨率相机和LiDAR数据，以及103,354个场景的车辆轨迹及3D地图信息 [10][12] - PathTrack数据集包含720个序列中的15,000多个人的轨迹，专注于人员跟踪任务 [13][14] - ApolloScape数据集规模远超同类数据集，包含数十万帧高分辨率的逐像素语义分割标注图像，定义了26个语义类别 [17][19] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区，创办于2022年7月，已聚集近4000人，包含100+行业专家 [32] - 社区覆盖30+自动驾驶技术学习路线，包括端到端自动驾驶、世界模型、视觉大语言模型、BEV感知等几乎所有子方向 [32][36] - 每周举办1-2场视频直播，每年计划100场左右，邀请CVPR、ICCV等顶会作者及顶尖公司团队分享 [38][39] - 社区成员来自地平线、蔚来、小鹏、理想等知名公司，以及清华大学、上海交大、香港科大等国内外高校 [134] 前沿技术方向 - 2025年自动驾驶技术基调已确定为大模型赋能下的端到端2.0 - VLA（Vision-Language-Action） [26] - 视觉大语言模型（VLM）在自动驾驶中的应用包括作为教师模型训练端到端系统、直接作为规划器等 [31][122] - 扩散模型与自动驾驶结合的前沿方向包括轨迹联合预测、3DGS生成技术等 [26][63] - 世界模型在自动驾驶中的应用包括场景理解、未来场景演化预测等 [59][60] 求职与职业发展 - 自动驾驶求职方向包括TensorRT模型部署、毫米波雷达视觉融合、车道线检测、规划控制等细分领域 [89] - 对于3D目标检测方向，建议从BEV感知开始学习，关注DETR3D、BEVFormer等算法 [115] - SLAM领域从业者可考虑向闭环仿真3DGS重建方向转型，规控方向建议学习基于模型的planner算法 [118] - 多模态3D检测领域相对成熟，建议关注端到端、大模型、数据闭环等新兴方向 [121]

Autonomous Driving

Visual Language Model

Diffusion Model

ApolloScape 数据集

Autonomous Driving

Visual Language Model

Diffusion Model

ApolloScape 数据集

数据减少超千倍，500 美金就可训练一流视频模型，港城、华为Pusa来了

机器之心· 2025-06-19 10:28

核心观点 - 帧感知视频扩散模型(FVDM)通过引入向量化时间步变量(VTV)解决了传统标量时间步在视频生成中的局限性，显著提升时序建模能力 [2][18][19] - Pusa项目是FVDM理论的实际应用，探索出极低成本微调大规模预训练视频模型的有效路径，训练成本降低超200倍，数据需求减少超2500倍 [3][5] - Pusa通过非破坏性微调预训练模型(如Wan-T2V 14B)，仅需500美金成本即可达到优于原模型的效果，同时解锁图生视频、首尾帧、视频过渡等多项功能 [5][35] - Pusa-Mochi版本进一步降低成本至100美金，实现高效视频生成 [11] - 完整代码库、训练数据集和训练代码已全面开源，旨在推动领域共同进步 [17] 技术原理 - 传统视频扩散模型采用标量时间变量，无法捕捉帧间动态关系 [18] - FVDM引入向量化时间步变量$$\mathbf{r}(t)=\left[\tau^{(1)}(t),\tau^{(2)}(t),...,\tau^{(N)}(t)\right]^{\top}$$，允许每帧独立噪声扰动 [18][19] - 扩展前向随机微分方程(SDE)以适应向量化时间步，每帧经历独立高斯分布噪声扰动 [20] - 设计集成反向SDE封装跨帧依赖关系 [23] - 基于分数的模型近似分数函数$$s_{\theta}(\mathbf{X},\tau(t))\approx\nabla_{X}\log p_{t}\left(\mathbf{X}\right)$$ [24] 网络架构与训练 - 对Mochi1及Wan等开源视频模型进行非破坏性改造，将标量时间步输入扩展为(B, N)形状向量化时间步 [27][28] - 通过正弦位置编码将时间步转换为(B, N, D)嵌入表示，通过adaLN-Zero等机制作用于Transformer层 [28] - 独创概率性时间步采样训练策略(PTSS)，以概率为每帧采样随机独立时间步或相同时间步，解耦时序动态与基础生成能力学习 [29][30] - 非破坏性改造使模型初始即具备基础能力，仅需少量独立时间步微调即可掌握时序动态控制 [33] 应用效果 - Pusa-Wan实现500美金成本下优于原模型效果，保留文生视频能力同时解锁图生视频、首尾帧、视频过渡、视频拓展等功能 [5][35] - Pusa-Mochi版本仅需100美金训练成本 [11] - VTV机制支持多样帧级控制采样算法，如输入图像作为任意帧时可不加噪或加少量噪声 [35] - 测试样例展示大白鲨游泳、奶牛吃干草、戴墨镜男子驾驶汽车等场景生成效果 [7][9] 行业影响 - FVDM理论通过VTV带来视频生成根本性变革 [2][37] - Pusa项目以惊人低成本和高效微调策略将理论付诸实践，推广至强大预训练模型 [3][37] - 开源策略推动领域共同进步，探索更多可能性 [17][37]

Diffusion Model

Video Generation

Artificial Intelligence

Diffusion Model

Video Generation

Artificial Intelligence

挑战 next token prediction，Diffusion LLM 够格吗？

机器之心· 2025-06-08 10:11

挑战 next token prediction，Diffusion LLM 够格吗？ - Gemini Diffusion 采用扩散架构进行文本生成，平均采样速度达1479 TPS，编码任务中可达2000 TPS，比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成，与自回归架构不同，采用"从粗到细"的生成方法，具备并行处理能力 [6] - 扩散模型能并行优化整个序列，显著减少计算开销，有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索，近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token，极大提升文本生成效率 [8] - 具备文本插值能力，可生成句子间衔接内容，提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型，优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]

Artificial Intelligence

Diffusion Model

Self-Regressive Model

Artificial Intelligence

Gemini Diffusion

Artificial Intelligence

Diffusion Model

Self-Regressive Model

Artificial Intelligence

Gemini Diffusion

三位顶流AI技术人罕见同台，谈了谈AI行业最大的「罗生门」

36氪· 2025-05-28 19:59

AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑，OpenAI前首席科学家公开认为"预训练已走到尽头"，而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示，行业分化成两派：曹越、孔令鹏等通过跨架构创新（如语言模型应用Diffusion、视频模型采用自回归）实现突破，阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势，参与者形容为"摸彩票"，不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新：Dream 7B以7B参数量超越671B的DeepSeek V3，通过双向学习处理并行任务，在数学/代码任务表现突出[3][8][17] - 视频模型革新：曹越团队将自回归应用于视频生成，突破Sora无时序先验的限制，通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导：阿里内部多次"魔改"Transformer后仍确认其最优性，但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展：DeepSeek实现1:20+稀疏比，阿里测试显示1:10-1:20区间效果最佳，但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新：通过Attention稀疏化提升跨模态效率，端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显：GPU对Transformer训练非最优，行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧：2024年认为数据枯竭是共识，2025年美国新观点认为仍有潜力，阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新：历史显示算力增长可激活曾被放弃的技术，当前需重点优化算力利用率[40][41] - 创造本质探索：将创作定义为搜索问题，通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题：强化学习可能加剧错误推理模式，阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本：模型结构需同时兼容预训练与强化学习，当前每次技术押注成本显著上升[20][33] - 技术迭代哲学：行业进步类似飞机航道调整，需动态修正而非预测终极形态[44][45]

Transformer架构

Model Bias（模型偏差）

Data Bias（数据偏差）

Transformer架构

Model Bias（模型偏差）

Data Bias（数据偏差）

ICML 2025 Spotlight | 用傅里叶分解探讨图像对抗扰动，代码已开源

机器之心· 2025-05-18 12:25

研究背景 - 对抗样本通过微小扰动生成，难以被人眼察觉但显著降低深度学习模型性能，对计算机视觉领域模型安全性和鲁棒性构成重大挑战[5] - 现有对抗净化技术分为基于训练的方法和基于扩散模型的方法，前者需大量训练数据和时间，后者不依赖训练数据且泛化能力更强[5] - 对抗净化在自动驾驶、金融分析和医疗影像等安全关键领域尤为重要，可降低对抗攻击威胁并提升系统整体安全性[5] 动机和理论分析 - 现有策略在像素空间无法解耦干净像素与对抗扰动，导致破坏扰动时损害原始图像语义信息[7] - 对抗扰动更倾向于破坏高频幅度谱和相位谱，低频信息对扰动更鲁棒[7] - 相位谱被噪声破坏速度更快，逆向过程中保留相位谱非常关键[12] 方法 - 利用傅里叶分解技术将图像分解为幅度谱和相位谱，通过滤波器保留低频幅度谱信息[14][15] - 将估计图像低频相位谱投影到输入图像低频相位谱范围内，避免直接保留扰动[16] - 通过逆离散傅里叶变换将更新后的幅度谱和相位谱结合，获得时间域表示[16] 实验效果 CIFAR10 - 在WideResNet-28-10模型上，标准准确率94.14±1.17，鲁棒准确率93.75±0.80，均优于SOTA方法[18] - 在WideResNet-70-16模型上，标准准确率94.92±0.39，鲁棒准确率92.77±0.58，表现最佳[18] ImageNet - 使用ResNet-50分类器，标准准确率77.15±1.57，鲁棒准确率65.04+2.54，显著优于其他方法[19] 可视化 - 净化后图像与原始干净图像在视觉上最为相似，联合分布也最接近原始图像[20] 未来方向 - 探索更有效的图像分解手段以更好解耦对抗扰动和语义信息[21] - 提供更深入的理论解释以进一步优化对抗净化效果[21]

Adversarial Purification

Fourier Decomposition

Diffusion Model

Computer Vision

Adversarial Purification

Fourier Decomposition

Diffusion Model

Computer Vision

CVPR 2025 Oral | DiffFNO：傅里叶神经算子助力扩散，开启任意尺度超分辨率新篇章

机器之心· 2025-05-04 12:57

超分辨率技术发展 - 超分辨率技术（SR）已成为计算机视觉领域重要挑战，应用场景包括医疗影像、卫星遥感、视频监控和游戏渲染等[1] - 传统深度学习模型（如SRCNN、EDSR）在固定放大倍数表现优异，但无法支持任意放大尺度或在大倍率下出现细节模糊[1] - 扩散模型能恢复高频细节但推理速度慢，难以满足实时需求[1] DiffFNO技术框架 - 由三大核心组件构成：加权傅里叶神经算子（WFNO）、门控融合机制、自适应ODE求解器[2][5] - WFNO通过频域卷积捕获全局信息，可学习频率权重放大高频分量，相比普通FNO在大倍率超分中PSNR提升0.3–0.5 dB[9][10] - 门控融合机制并行引入轻量化注意力算子（AttnNO），动态结合谱域与空域特征[5][12] - 自适应ODE求解器将扩散逆过程转化为确定性ODE，推理步数从1000步降至30步（减少33倍），推理时间从266 ms缩短至141 ms[15] 性能表现 - 在DIV2K等五大数据集上PSNR领先SOTA方法2~4 dB，大倍数放大（×8、×12）优势更显著[17] - 定性结果显示对建筑细节、植物纹理、动物皮毛等高频结构复原出色，边缘锐利且伪影少[20] - 消融研究表明：去除模式重平衡导致PSNR下降0.4 dB，去除AttnNO影响局部纹理，去除ATS会使推理步数回升至千步级[23] 技术突破 - 首次实现支持任意连续倍率（如2.1、11.5倍）的超分辨率重建[2] - 通过神经算子赋能扩散架构，打破"高质量重建"与"快速推理"矛盾[1][23] - 采用全模式保留策略，兼顾图片整体解构与局部细节[18] 学术认可 - 研究成果入选CVPR 2025 Oral报告[2] - 论文已发布于arXiv（编号2411.09911）并提供开源项目主页[7]

Super Resolution

Neural Operator

Diffusion Model

Computer Vision

Super Resolution

Neural Operator

Diffusion Model

Computer Vision