Workflow
Diffusion Model
icon
搜索文档
100+自动驾驶数据集,这5个你总得知道吧?
自动驾驶之心· 2025-06-22 09:35
自动驾驶数据集 - KITTI数据集是自动驾驶领域最经典的基准数据集之一,包含立体视觉、光流、视觉里程计、3D目标检测和跟踪等多种感知任务的标注,覆盖城市、高速和乡村场景 [3][6] - nuScenes数据集包含1000个连续驾驶场景,配备6个摄像头、5个毫米波雷达、1个顶置LiDAR,提供约140万张高分辨率相机图像和39万帧LiDAR扫描,标注了23个对象类别的1.4M个3D边界框 [5][7] - Waymo Open Dataset是全球最大的自动驾驶开放数据资源之一,包含2030个20秒场景的高分辨率相机和LiDAR数据,以及103,354个场景的车辆轨迹及3D地图信息 [10][12] - PathTrack数据集包含720个序列中的15,000多个人的轨迹,专注于人员跟踪任务 [13][14] - ApolloScape数据集规模远超同类数据集,包含数十万帧高分辨率的逐像素语义分割标注图像,定义了26个语义类别 [17][19] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,创办于2022年7月,已聚集近4000人,包含100+行业专家 [32] - 社区覆盖30+自动驾驶技术学习路线,包括端到端自动驾驶、世界模型、视觉大语言模型、BEV感知等几乎所有子方向 [32][36] - 每周举办1-2场视频直播,每年计划100场左右,邀请CVPR、ICCV等顶会作者及顶尖公司团队分享 [38][39] - 社区成员来自地平线、蔚来、小鹏、理想等知名公司,以及清华大学、上海交大、香港科大等国内外高校 [134] 前沿技术方向 - 2025年自动驾驶技术基调已确定为大模型赋能下的端到端2.0 - VLA(Vision-Language-Action) [26] - 视觉大语言模型(VLM)在自动驾驶中的应用包括作为教师模型训练端到端系统、直接作为规划器等 [31][122] - 扩散模型与自动驾驶结合的前沿方向包括轨迹联合预测、3DGS生成技术等 [26][63] - 世界模型在自动驾驶中的应用包括场景理解、未来场景演化预测等 [59][60] 求职与职业发展 - 自动驾驶求职方向包括TensorRT模型部署、毫米波雷达视觉融合、车道线检测、规划控制等细分领域 [89] - 对于3D目标检测方向,建议从BEV感知开始学习,关注DETR3D、BEVFormer等算法 [115] - SLAM领域从业者可考虑向闭环仿真3DGS重建方向转型,规控方向建议学习基于模型的planner算法 [118] - 多模态3D检测领域相对成熟,建议关注端到端、大模型、数据闭环等新兴方向 [121]
数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了
机器之心· 2025-06-19 10:28
核心观点 - 帧感知视频扩散模型(FVDM)通过引入向量化时间步变量(VTV)解决了传统标量时间步在视频生成中的局限性,显著提升时序建模能力 [2][18][19] - Pusa项目是FVDM理论的实际应用,探索出极低成本微调大规模预训练视频模型的有效路径,训练成本降低超200倍,数据需求减少超2500倍 [3][5] - Pusa通过非破坏性微调预训练模型(如Wan-T2V 14B),仅需500美金成本即可达到优于原模型的效果,同时解锁图生视频、首尾帧、视频过渡等多项功能 [5][35] - Pusa-Mochi版本进一步降低成本至100美金,实现高效视频生成 [11] - 完整代码库、训练数据集和训练代码已全面开源,旨在推动领域共同进步 [17] 技术原理 - 传统视频扩散模型采用标量时间变量,无法捕捉帧间动态关系 [18] - FVDM引入向量化时间步变量$$\mathbf{r}(t)=\left[\tau^{(1)}(t),\tau^{(2)}(t),...,\tau^{(N)}(t)\right]^{\top}$$,允许每帧独立噪声扰动 [18][19] - 扩展前向随机微分方程(SDE)以适应向量化时间步,每帧经历独立高斯分布噪声扰动 [20] - 设计集成反向SDE封装跨帧依赖关系 [23] - 基于分数的模型近似分数函数$$s_{\theta}(\mathbf{X},\tau(t))\approx\nabla_{X}\log p_{t}\left(\mathbf{X}\right)$$ [24] 网络架构与训练 - 对Mochi1及Wan等开源视频模型进行非破坏性改造,将标量时间步输入扩展为(B, N)形状向量化时间步 [27][28] - 通过正弦位置编码将时间步转换为(B, N, D)嵌入表示,通过adaLN-Zero等机制作用于Transformer层 [28] - 独创概率性时间步采样训练策略(PTSS),以概率为每帧采样随机独立时间步或相同时间步,解耦时序动态与基础生成能力学习 [29][30] - 非破坏性改造使模型初始即具备基础能力,仅需少量独立时间步微调即可掌握时序动态控制 [33] 应用效果 - Pusa-Wan实现500美金成本下优于原模型效果,保留文生视频能力同时解锁图生视频、首尾帧、视频过渡、视频拓展等功能 [5][35] - Pusa-Mochi版本仅需100美金训练成本 [11] - VTV机制支持多样帧级控制采样算法,如输入图像作为任意帧时可不加噪或加少量噪声 [35] - 测试样例展示大白鲨游泳、奶牛吃干草、戴墨镜男子驾驶汽车等场景生成效果 [7][9] 行业影响 - FVDM理论通过VTV带来视频生成根本性变革 [2][37] - Pusa项目以惊人低成本和高效微调策略将理论付诸实践,推广至强大预训练模型 [3][37] - 开源策略推动领域共同进步,探索更多可能性 [17][37]
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 10:11
挑战 next token prediction,Diffusion LLM 够格吗? - Gemini Diffusion 采用扩散架构进行文本生成,平均采样速度达1479 TPS,编码任务中可达2000 TPS,比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成,与自回归架构不同,采用"从粗到细"的生成方法,具备并行处理能力 [6] - 扩散模型能并行优化整个序列,显著减少计算开销,有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索,近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token,极大提升文本生成效率 [8] - 具备文本插值能力,可生成句子间衔接内容,提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型,优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
ICML 2025 Spotlight | 用傅里叶分解探讨图像对抗扰动,代码已开源
机器之心· 2025-05-18 12:25
研究背景 - 对抗样本通过微小扰动生成,难以被人眼察觉但显著降低深度学习模型性能,对计算机视觉领域模型安全性和鲁棒性构成重大挑战[5] - 现有对抗净化技术分为基于训练的方法和基于扩散模型的方法,前者需大量训练数据和时间,后者不依赖训练数据且泛化能力更强[5] - 对抗净化在自动驾驶、金融分析和医疗影像等安全关键领域尤为重要,可降低对抗攻击威胁并提升系统整体安全性[5] 动机和理论分析 - 现有策略在像素空间无法解耦干净像素与对抗扰动,导致破坏扰动时损害原始图像语义信息[7] - 对抗扰动更倾向于破坏高频幅度谱和相位谱,低频信息对扰动更鲁棒[7] - 相位谱被噪声破坏速度更快,逆向过程中保留相位谱非常关键[12] 方法 - 利用傅里叶分解技术将图像分解为幅度谱和相位谱,通过滤波器保留低频幅度谱信息[14][15] - 将估计图像低频相位谱投影到输入图像低频相位谱范围内,避免直接保留扰动[16] - 通过逆离散傅里叶变换将更新后的幅度谱和相位谱结合,获得时间域表示[16] 实验效果 CIFAR10 - 在WideResNet-28-10模型上,标准准确率94.14±1.17,鲁棒准确率93.75±0.80,均优于SOTA方法[18] - 在WideResNet-70-16模型上,标准准确率94.92±0.39,鲁棒准确率92.77±0.58,表现最佳[18] ImageNet - 使用ResNet-50分类器,标准准确率77.15±1.57,鲁棒准确率65.04+2.54,显著优于其他方法[19] 可视化 - 净化后图像与原始干净图像在视觉上最为相似,联合分布也最接近原始图像[20] 未来方向 - 探索更有效的图像分解手段以更好解耦对抗扰动和语义信息[21] - 提供更深入的理论解释以进一步优化对抗净化效果[21]
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
机器之心· 2025-05-04 12:57
超分辨率技术发展 - 超分辨率技术(SR)已成为计算机视觉领域重要挑战,应用场景包括医疗影像、卫星遥感、视频监控和游戏渲染等[1] - 传统深度学习模型(如SRCNN、EDSR)在固定放大倍数表现优异,但无法支持任意放大尺度或在大倍率下出现细节模糊[1] - 扩散模型能恢复高频细节但推理速度慢,难以满足实时需求[1] DiffFNO技术框架 - 由三大核心组件构成:加权傅里叶神经算子(WFNO)、门控融合机制、自适应ODE求解器[2][5] - WFNO通过频域卷积捕获全局信息,可学习频率权重放大高频分量,相比普通FNO在大倍率超分中PSNR提升0.3–0.5 dB[9][10] - 门控融合机制并行引入轻量化注意力算子(AttnNO),动态结合谱域与空域特征[5][12] - 自适应ODE求解器将扩散逆过程转化为确定性ODE,推理步数从1000步降至30步(减少33倍),推理时间从266 ms缩短至141 ms[15] 性能表现 - 在DIV2K等五大数据集上PSNR领先SOTA方法2~4 dB,大倍数放大(×8、×12)优势更显著[17] - 定性结果显示对建筑细节、植物纹理、动物皮毛等高频结构复原出色,边缘锐利且伪影少[20] - 消融研究表明:去除模式重平衡导致PSNR下降0.4 dB,去除AttnNO影响局部纹理,去除ATS会使推理步数回升至千步级[23] 技术突破 - 首次实现支持任意连续倍率(如2.1、11.5倍)的超分辨率重建[2] - 通过神经算子赋能扩散架构,打破"高质量重建"与"快速推理"矛盾[1][23] - 采用全模式保留策略,兼顾图片整体解构与局部细节[18] 学术认可 - 研究成果入选CVPR 2025 Oral报告[2] - 论文已发布于arXiv(编号2411.09911)并提供开源项目主页[7]