Diffusion Model
搜索文档
一边是毕业等于失业,一边是企业招不到人,太难了。。。
自动驾驶之心· 2025-07-23 17:56
自动驾驶行业现状 - 自动驾驶行业面临人才供需失衡,企业招聘需求旺盛但匹配度高的顶尖人才稀缺 [2] - 行业资本趋于理性,公司更注重商业化落地和盈利而非盲目扩张 [2] - 技术栈虽完备但距离大规模低成本商业化仍有工程鸿沟 [3] - 企业招聘标准提高,对技术适配性和前沿研究能力要求严格 [3][4] 自动驾驶技术社区 - 自动驾驶之心知识星球已成为国内最大技术社区,拥有4000+成员和100+行业专家 [7][9] - 社区覆盖30+技术方向学习路线,包括BEV感知、Occupancy、端到端驾驶等前沿领域 [9][69] - 与主流自动驾驶公司建立内推渠道,提供简历直达服务 [8][10] - 每周活跃度位居国内前20,形成学术与产业界的深度互动 [10][71] 技术研究方向 视觉语言模型(VLM) - 涵盖预训练、迁移学习、知识蒸馏等完整技术链条 [15][16][17] - 主流数据集包括LAION5B(50亿图文)、Conceptual 12M(1200万图文)等 [19] - 应用领域覆盖智能交通车辆检索、自动驾驶场景理解等 [27][28] 世界模型 - 聚焦驾驶场景生成与预测,代表工作包括HERMES、DriveDreamer等 [34][36] - 实现3D场景理解与生成的统一,提升自动驾驶系统泛化能力 [34][36] - 2024年涌现InfinityDrive等突破性模型,解决长序列预测难题 [36] 扩散模型 - 在3D重建、视频生成领域形成完整技术体系 [37][42] - DrivingDiffusion等框架实现时空一致性驾驶场景生成 [43] - 应用于数据增强,如Cityscape-Adverse模拟八种恶劣条件 [43] 端到端自动驾驶 - 形成从模仿学习到强化学习的完整方法论 [49][55] - 主流方案融合多模态输入,如DriveGPT4实现可解释决策 [31][55] - 面临开环评估与真实场景的差距挑战 [49][52] 行业应用与数据集 - 专用数据集覆盖200+任务,包括NuScenes(1000小时)、Waymo Open(1200万帧)等 [25][26] - 语言增强系统实现自然语言导航与车辆控制 [26][29] - 决策控制领域涌现GPT-Driver等大模型驱动方案 [29][30]
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-07-14 22:04
行业趋势与人才需求 - 自动驾驶和具身智能公司对人才要求较高,倾向于实力强、背景好的候选人 [3] - 大公司招聘需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向 [4] - 机器人初创公司融资活跃,未来几年发展前景可观 [4] - 传统机器人技术仍是产品主线,但具身智能是最前沿方向 [5] 技术方向与就业建议 - 双非学生可转向机器人/具身智能领域,从事SLAM、ROS相关优化和集成工作 [4] - LV融合、无图、BEV感知等技术已应用但人才饱和 [4] - 深圳、杭州的机器人公司提供全面技术培养机会 [5] 前沿技术资源汇总 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大技术方向 [9] - 提供10个Awesome和综述资源链接,涵盖智能交通、AIGC、视觉语言模型等领域 [10] - 列出17个VLM预训练数据集,最大规模达12B图像-文本对(LAION5B) [17] - 汇总图像分类、文本检索、行为识别等评估数据集,如ImageNet-1k(1000类)、Kinetics700(700类) [18][20] 自动驾驶数据集与应用 - 覆盖2D/3D目标检测、语义分割、跟踪等任务,如NuScenes(2020年,多模态)、Waymo Open Dataset(2020年) [23] - 语言增强数据集支持视觉-语言导航、车辆检索等应用,如NuScenes-QA(2023年) [24] - 智能交通领域方法聚焦语言引导的车辆检索和视觉问答 [25] - 自动驾驶感知技术包括语言引导的3D检测、开放词汇分割(如OpenScene) [26] 世界模型与扩散模型 - 世界模型研究集中在3D场景理解和生成,如HERMES(2025年)、DriveGPT(2024年) [32][33] - 扩散模型在自动驾驶中用于视频生成(如DriveDreamer)、数据增强(如Cityscape-Adverse) [35][41] - 汇总19篇扩散模型综述,涉及3D视觉、推荐系统等方向 [35][38][39] 端到端自动驾驶 - 开源仓库跟踪E2E最新研究,如opendilab/awesome-end-to-end-autonomous-driving [43][47] - 方法融合多模态感知与规划,如DriveGPT4(2023年)、VADv2(概率规划) [47][50] - 研讨会覆盖CVPR、ICRA等会议,探讨基础模型与规模化应用 [48] - 长尾分布问题通过对抗训练(如CAT)、场景生成(如KING)解决 [53][58]
4000人的自动驾驶黄埔军校,死磕技术分享与求职交流~
自动驾驶之心· 2025-07-12 22:43
智能驾驶行业现状 - 2025年智能驾驶行业呈现分化态势,部分从业者转向具身智能领域,但多数仍坚守原赛道 [2] - 头部企业持续高薪招聘人才,应届生薪资可达45k*16薪,超越2-3年经验社招水平 [2] - 行业技术迭代周期明显缩短,2025年技术基调确定为VLA(视觉语言行动)架构 [7] 核心技术趋势 - 大模型赋能端到端2.0技术成为主流方向,涵盖视觉大语言模型基座、扩散模型轨迹预测等技术栈 [7] - 世界模型成为关键技术,涉及3DGS生成技术、闭环仿真等前沿领域 [7] - 视觉语言模型(VLM)在感知任务中应用广泛,包括预训练、迁移学习和知识蒸馏等方法 [19][20][21] 自动驾驶社区生态 - 自动驾驶之心知识星球已成为国内最大专业社区,拥有近4000名成员和100+行业专家 [11] - 社区构建完整技术闭环,涵盖课程体系(9大视频教程)、硬件开发(标定板、机械臂)和实战项目 [3] - 与近200家企业建立合作,包括小米汽车、地平线、英伟达等头部公司,提供内推渠道 [7][66] 行业应用场景 - 智能交通领域应用语言引导车辆检索、视觉问答等技术,提升系统交互能力 [30] - 自动驾驶感知模块融合视觉语言模型,实现开放词汇目标检测和语义分割 [31] - 决策控制系统结合大语言模型,开发可解释的轨迹预测和运动规划方案 [32][33] 数据集发展 - 视觉语言预训练数据集规模显著扩大,LAION5B包含50亿图文对,WebLI达120亿规模 [23] - 自动驾驶专用数据集持续丰富,NuScenes、Waymo Open Dataset支持多任务学习 [28] - 语言增强数据集兴起,如NuScenes-QA支持视觉问答任务,推动人车交互发展 [29] 人才发展体系 - 社区建立30+技术学习路线,覆盖BEV感知、Occupancy等40个方向 [11] - 求职板块包含100问系列(TensorRT部署、BEV感知等)和面经分享,直击企业需求 [66][68] - 直播体系每年规划100场,邀请CVPR/ICCV作者和车企专家分享量产经验 [15][16]
4000人的自动驾驶黄埔军校,死磕技术分享与求职交流~
自动驾驶之心· 2025-07-12 13:41
自动驾驶行业现状与趋势 - 2025年自动驾驶行业面临技术迭代加速和人才竞争加剧的局面,部分从业者转向具身智能和机器人领域,但仍有大量人才坚守[2] - 行业薪资水平显示头部企业仍保持高投入,应届生可达45k*16薪,超越2-3年经验社招人员[2] - 技术迭代周期从2024年下半年开始明显缩短,2025年技术基调确定为VLA(视觉语言动作)2.0体系[8] - 前沿技术方向包括:视觉大语言模型基座、扩散模型端到端轨迹预测、3D高斯泼溅生成技术、世界模型等[8] 自动驾驶技术社区与资源 - 自动驾驶之心知识星球已成为国内最大专业社区,拥有近4000名成员和100+行业专家[13][14] - 社区内容覆盖30+技术方向学习路线,包含感知、定位、规划控制等全栈技术栈[14] - 提供独家资源包括:千元级付费课程8折、100+场学术/工业界直播回放、近5000份干货资料[19] - 每周举办1-2场前沿技术直播,2025年重点聚焦VLA、大模型、扩散模型等方向[21][22] 关键技术发展方向 视觉语言模型(VLM) - 形成完整技术体系包括预训练、迁移学习、知识蒸馏等方向,相关论文在CVPR2024等顶会集中爆发[24][25] - 应用领域覆盖智能交通和自动驾驶,包括语言引导车辆检索、视觉问答、异常识别等[37][38] - 基础理论持续创新,2024年出现RLAIF-V、RLHF-V等强化学习对齐方法[25] 端到端自动驾驶 - 形成两大技术路线:开环端到端1.0和闭环端到端2.0(VLA体系)[50] - 关键挑战包括:感知-规划耦合、长尾场景处理、可解释性等[55][62] - 典型方法包括DriveGPT4、DriveMLM等,结合大语言模型提升解释能力[59] 世界模型与扩散模型 - 世界模型成为研究热点,2024-2025年出现HERMES、DrivingWorld等统一框架[43][45] - 扩散模型在3D视觉、视频生成等领域应用广泛,相关综述论文超过20篇[47][48] - 自动驾驶应用包括DriveDreamer系列、MagicDriveDiT等街景生成方法[42][51] 行业人才发展 - 技术岗位需求呈现两极分化:基础算法岗竞争激烈,新兴领域(VLA、世界模型等)人才紧缺[2][97] - 职业发展建议:传统SLAM可转向3D重建,控制背景可拓展规划算法,感知方向需关注端到端技术[99] - 学习路径强调体系化:建议通过社区获取领域知识图谱、面试经验和岗位需求信息[3][14] 企业合作与生态 - 社区与近200家企业建立合作,包括小米、地平线、英伟达等头部公司[7][109] - 提供校招/社招内推渠道,简历可直达企业HR,覆盖算法、工程等多个岗位[10][19] - 资源对接涵盖学术机构(清华、ETH等)和工业界(华为、大疆等)[7][106]
告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
机器之心· 2025-07-11 16:27
AI视觉生成技术 - 当前AI视觉生成领域主流是基于Transformer架构的扩散模型,如Stable Diffusion和Sora,这些模型虽然生成效果好但计算开销大、推理速度慢[4] - 北大、北邮和华为的研究团队提出了一种纯卷积的扩散模型DiC,采用3x3卷积而非Transformer架构,在性能和推理速度上都有显著提升[1][5] - DiC模型证明了经过精心设计,简单的卷积网络依然能在生成任务中达到顶尖水平,挑战了生成模型必须依赖自注意力的固有观念[24] 技术架构创新 - DiC采用U-Net Hourglass架构而非Transformer的直筒形堆叠架构,通过下采样和上采样弥补了3x3卷积感受野受限的问题[13] - 模型减少了U-Net的跳连频率,降低了计算冗余,同时采用分阶段嵌入、条件门控机制等优化手段提升生成质量[14] - 将常用的SiLU激活函数替换为GELU,带来了一定的效果提升[15] 性能表现 - 在ImageNet 256×256测试中,DiC-XL的FID分数从DiT-XL/2的20降低到13,IS分数也大幅提升[17] - DiC-XL的推理吞吐量达到313.7,是DiT-XL/2(66.8)的近5倍,展现了显著的效率优势[17][18] - 在512x512分辨率下,DiC-XL用比DiT-XL/2更少的计算量,实现了更好的生成效果和更快的速度[22] 训练效率 - 不使用cfg时,DiC的收敛速度是DiT的十倍;使用cfg时FID可以达到2.25[18] - DiC-H模型在400K训练步数时FID为11.36,600K时降至9.73,800K时进一步降至8.96,展现了良好的训练扩展性[19] - 在相同设定下,DiC-H仅需256×2M的训练就能达到2.25的FID,优于DiT-XL/2需要256×7M训练才能达到的2.27[20]
2025秋招开始了,这一段时间有些迷茫。。。
自动驾驶之心· 2025-07-08 15:53
自动驾驶行业就业趋势 - 双非研究生在自动驾驶和具身智能领域面临就业挑战,需提升技术实力和背景竞争力 [2] - 行业需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向,传统技术人才已相对饱和 [3] - 机器人/具身智能初创公司融资活跃,技术栈培养全面,深圳、杭州是产业聚集地 [3][4] 技术发展方向 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大前沿技术方向 [8] - 视觉大语言模型领域涵盖预训练、迁移学习、知识蒸馏等技术,涉及图像分类、文本检索、行为识别等任务 [10][13][14] - 世界模型在自动驾驶中实现3D场景理解和生成一体化,如HERMES、DrivingGPT等模型 [31][32] - 扩散模型应用于自动驾驶视频生成、3D视觉、轨迹预测等领域,技术成熟度快速提升 [33][35][40] 数据集与评估体系 - VLM预训练数据集规模从百万级到百亿级,如LAION5B含50亿图文对,WebLI含120亿数据 [16] - 自动驾驶专用数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,如NuScenes、Waymo Open Dataset等 [22][23] - 评估指标包括mAP(目标检测)、mIoU(语义分割)、Recall(文本检索)等,不同任务有标准化测试集 [17][20][21] 应用领域创新 - 智能交通领域采用语言引导的车辆检索技术,如Multi-granularity Retrieval System提升自然语言交互能力 [24] - 自动驾驶感知系统集成VLM技术,实现开放词汇检测(OpenScene)和语言引导3D检测(Language-Guided 3D Object Detection) [25] - 决策控制系统结合LLM,如GPT-Driver、DriveGPT4实现可解释的轨迹规划和运动控制 [26][27] 端到端自动驾驶进展 - 端到端方法整合感知、预测、规划模块,DriveGPT4、DriveMLM等模型实现行为状态对齐 [28][48] - 技术挑战包括长尾分布处理(BEVGPT)、开环控制优化(MiniDrive)和安全性验证(CAT) [50][56] - 行业报告指出端到端技术需平衡模块化与一体化,特斯拉FSD验证了大规模数据驱动的可行性 [45] 行业资源与社区 - 知识星球提供自动驾驶课程、硬件代码资料及招聘信息,已吸引华为天才少年等专家加入 [5][60] - GitHub资源库汇总Awesome系列,如Awesome-Diffusion-Models、Awesome-End-to-End-Autonomous-Driving等 [34][42] - 学术会议(CVPR、ICRA)设立自动驾驶专题研讨会,推动技术标准化和产学研合作 [46]
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-06-30 13:51
自动驾驶与具身智能行业趋势 - 自动驾驶和具身智能公司对人才要求较高,倾向于招聘实力强、背景好的同学[2] - 行业技术方向正从传统方法向端到端、大模型、VLA、强化学习、3DGS等前沿领域转型[3] - 机器人初创公司融资活跃,未来几年发展前景可观[3] 职业发展建议 - 双非背景同学可考虑SLAM和ROS方向,从事机器人/具身智能相关的优化、集成类工作[3] - 建议关注机器人公司,虽然工作较苦但能学习到实打实的技术栈[4] - 具身智能是最前沿方向,但传统机器人仍是产品主线[4] 技术社区资源 - 知识星球提供自动驾驶视频课程、硬件及代码学习资料,以及全栈学习路线图和招聘信息[5] - 社区已形成学术+产品+招聘的完整链路,包含课程、硬件和问答闭环[5] - 社区关注行业技术动态、技术分享、讨论和求职信息,聚焦具身智能与自动驾驶结合等前沿话题[5] 前沿技术方向 - 四大前沿技术方向包括视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[7] - 视觉大语言模型领域有多篇CVPR 2024论文,涉及预训练、迁移学习等方向[11][12] - 扩散模型在自动驾驶中的应用包括场景生成、数据增强等方向[38][39] 数据集资源 - VLM预训练数据集规模从百万级到百亿级不等,最大达12B样本[15] - 自动驾驶数据集涵盖2D/3D目标检测、语义分割、目标跟踪等任务,时间跨度从2009到2024年[21] - 语言增强的自动驾驶数据集支持文本解释、视觉问答等任务[22] 应用领域进展 - 智能交通领域主要研究语言引导的车辆检索和视觉问答技术[23] - 自动驾驶感知方向聚焦行人检测、目标指代等任务[24] - 定位规划领域探索语言引导导航和运动规划技术[25] - 决策控制方向研究大语言模型在自动驾驶决策中的应用[26] 端到端自动驾驶 - 端到端方法整合感知、预测和规划模块,实现自动驾驶全流程[27] - 相关研究关注模型可解释性、行为规划和场景生成等方向[45] - 世界模型在端到端驾驶中发挥重要作用,支持场景理解和生成[30][50]
100+自动驾驶数据集,这5个你总得知道吧?
自动驾驶之心· 2025-06-22 09:35
自动驾驶数据集 - KITTI数据集是自动驾驶领域最经典的基准数据集之一,包含立体视觉、光流、视觉里程计、3D目标检测和跟踪等多种感知任务的标注,覆盖城市、高速和乡村场景 [3][6] - nuScenes数据集包含1000个连续驾驶场景,配备6个摄像头、5个毫米波雷达、1个顶置LiDAR,提供约140万张高分辨率相机图像和39万帧LiDAR扫描,标注了23个对象类别的1.4M个3D边界框 [5][7] - Waymo Open Dataset是全球最大的自动驾驶开放数据资源之一,包含2030个20秒场景的高分辨率相机和LiDAR数据,以及103,354个场景的车辆轨迹及3D地图信息 [10][12] - PathTrack数据集包含720个序列中的15,000多个人的轨迹,专注于人员跟踪任务 [13][14] - ApolloScape数据集规模远超同类数据集,包含数十万帧高分辨率的逐像素语义分割标注图像,定义了26个语义类别 [17][19] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,创办于2022年7月,已聚集近4000人,包含100+行业专家 [32] - 社区覆盖30+自动驾驶技术学习路线,包括端到端自动驾驶、世界模型、视觉大语言模型、BEV感知等几乎所有子方向 [32][36] - 每周举办1-2场视频直播,每年计划100场左右,邀请CVPR、ICCV等顶会作者及顶尖公司团队分享 [38][39] - 社区成员来自地平线、蔚来、小鹏、理想等知名公司,以及清华大学、上海交大、香港科大等国内外高校 [134] 前沿技术方向 - 2025年自动驾驶技术基调已确定为大模型赋能下的端到端2.0 - VLA(Vision-Language-Action) [26] - 视觉大语言模型(VLM)在自动驾驶中的应用包括作为教师模型训练端到端系统、直接作为规划器等 [31][122] - 扩散模型与自动驾驶结合的前沿方向包括轨迹联合预测、3DGS生成技术等 [26][63] - 世界模型在自动驾驶中的应用包括场景理解、未来场景演化预测等 [59][60] 求职与职业发展 - 自动驾驶求职方向包括TensorRT模型部署、毫米波雷达视觉融合、车道线检测、规划控制等细分领域 [89] - 对于3D目标检测方向,建议从BEV感知开始学习,关注DETR3D、BEVFormer等算法 [115] - SLAM领域从业者可考虑向闭环仿真3DGS重建方向转型,规控方向建议学习基于模型的planner算法 [118] - 多模态3D检测领域相对成熟,建议关注端到端、大模型、数据闭环等新兴方向 [121]
数据减少超千倍,500 美金就可训练一流视频模型,港城、华为Pusa来了
机器之心· 2025-06-19 10:28
核心观点 - 帧感知视频扩散模型(FVDM)通过引入向量化时间步变量(VTV)解决了传统标量时间步在视频生成中的局限性,显著提升时序建模能力 [2][18][19] - Pusa项目是FVDM理论的实际应用,探索出极低成本微调大规模预训练视频模型的有效路径,训练成本降低超200倍,数据需求减少超2500倍 [3][5] - Pusa通过非破坏性微调预训练模型(如Wan-T2V 14B),仅需500美金成本即可达到优于原模型的效果,同时解锁图生视频、首尾帧、视频过渡等多项功能 [5][35] - Pusa-Mochi版本进一步降低成本至100美金,实现高效视频生成 [11] - 完整代码库、训练数据集和训练代码已全面开源,旨在推动领域共同进步 [17] 技术原理 - 传统视频扩散模型采用标量时间变量,无法捕捉帧间动态关系 [18] - FVDM引入向量化时间步变量$$\mathbf{r}(t)=\left[\tau^{(1)}(t),\tau^{(2)}(t),...,\tau^{(N)}(t)\right]^{\top}$$,允许每帧独立噪声扰动 [18][19] - 扩展前向随机微分方程(SDE)以适应向量化时间步,每帧经历独立高斯分布噪声扰动 [20] - 设计集成反向SDE封装跨帧依赖关系 [23] - 基于分数的模型近似分数函数$$s_{\theta}(\mathbf{X},\tau(t))\approx\nabla_{X}\log p_{t}\left(\mathbf{X}\right)$$ [24] 网络架构与训练 - 对Mochi1及Wan等开源视频模型进行非破坏性改造,将标量时间步输入扩展为(B, N)形状向量化时间步 [27][28] - 通过正弦位置编码将时间步转换为(B, N, D)嵌入表示,通过adaLN-Zero等机制作用于Transformer层 [28] - 独创概率性时间步采样训练策略(PTSS),以概率为每帧采样随机独立时间步或相同时间步,解耦时序动态与基础生成能力学习 [29][30] - 非破坏性改造使模型初始即具备基础能力,仅需少量独立时间步微调即可掌握时序动态控制 [33] 应用效果 - Pusa-Wan实现500美金成本下优于原模型效果,保留文生视频能力同时解锁图生视频、首尾帧、视频过渡、视频拓展等功能 [5][35] - Pusa-Mochi版本仅需100美金训练成本 [11] - VTV机制支持多样帧级控制采样算法,如输入图像作为任意帧时可不加噪或加少量噪声 [35] - 测试样例展示大白鲨游泳、奶牛吃干草、戴墨镜男子驾驶汽车等场景生成效果 [7][9] 行业影响 - FVDM理论通过VTV带来视频生成根本性变革 [2][37] - Pusa项目以惊人低成本和高效微调策略将理论付诸实践,推广至强大预训练模型 [3][37] - 开源策略推动领域共同进步,探索更多可能性 [17][37]
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 10:11
挑战 next token prediction,Diffusion LLM 够格吗? - Gemini Diffusion 采用扩散架构进行文本生成,平均采样速度达1479 TPS,编码任务中可达2000 TPS,比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成,与自回归架构不同,采用"从粗到细"的生成方法,具备并行处理能力 [6] - 扩散模型能并行优化整个序列,显著减少计算开销,有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索,近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token,极大提升文本生成效率 [8] - 具备文本插值能力,可生成句子间衔接内容,提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型,优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]