扩散模型
搜索文档
智源&悉尼大学等出品!RoboGhost:文本到动作控制,幽灵般无形驱动人形机器人
具身智能之心· 2025-10-27 08:02
文章核心观点 - 研究团队提出名为RoboGhost的创新方案 旨在解决基于语言引导的人形机器人运动流程中存在的多阶段处理问题 通过将文本驱动的人形机器人运动视为生成任务而非简单映射 该方案无需显式的运动解码与重定向流程 能够直接从噪声中解算出可执行动作 在保持语义完整性的同时支持快速响应控制 [6][7][8] 技术方法与架构 - 团队设计了两阶段训练过程 第一阶段采用连续自回归架构训练动作生成器 第二阶段训练基于扩散模型的学生策略 该策略以第一阶段的运动潜变量为条件引导运动降噪过程 [11] - 教师策略采用Mixture-of-experts架构提高泛化性 并引入因果自适应采样方法动态调整动作序列采样概率 以掌握更具挑战性的长运动序列 [11][13] - 推理阶段完全由潜变量驱动 文本描述输入运动生成器获得潜运动表征后 直接通过扩散模型生成可执行动作 无需解码为显式运动序列 消除了运动重定向需求 [13] 实验结果与性能 - 在HumanML3D数据集上 Ours-DDPM模型的R Precision Top 1达到0.639 Top 2达到0.808 Top 3达到0.867 FID为11.706 MM-Dist为15.978 Diversity为27.230 Ours-SiT模型的R Precision Top 1为0.641 Top 2为0.812 Top 3为0.870 FID为11.743 MM-Dist为15.972 Diversity为27.307 [16] - 在HumanML数据集上 Baseline方法的IsaacGym平台成功率为0.92 Empjpe为0.23 Empkpe为0.19 MuJoCo平台成功率为0.64 Empjpe为0.34 Empkpe为0.31 而Ours-DDPM方法在IsaacGym平台成功率提升至0.97 Empjpe降至0.12 Empkpe降至0.09 在MuJoCo平台成功率提升至0.74 Empjpe降至0.24 Empkpe降至0.20 [16] - 在Kungfu数据集上 Baseline方法的IsaacGym平台成功率为0.66 Empjpe为0.43 Empkpe为0.37 Ours-DDPM方法成功率提升至0.72 Empjpe降至0.34 Empkpe降至0.31 [16] - 与Baseline方法相比 RoboGhost将部署时间成本从17.850秒大幅降低至5.840秒 同时成功率从92.0%提升至97.0% [17] - 在未见过的MotionUnion子集测试中 基于扩散的策略相比多层感知机策略成功率从0.54提升至0.68 Empjpe从0.48降至0.42 Empkpe从0.45降至0.39 显示出更优的跟踪效果和鲁棒性 [18][19]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-25 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%
量子位· 2025-10-23 11:52
核心观点 - 北京航空航天大学与中关村实验室团队提出全新框架InSUR,旨在解决人工智能模型安全对齐中的语义约束对抗样本生成问题 [2] - InSUR框架基于指令不确定性约简思想,实现独立于具体任务与模型的对立样本生成,其工作已入选NeurIPS 2025 [2] - 该框架首次实现了3D语义约束对抗样本生成,为自动驾驶、具身智能等安全关键系统生成高逼真度对抗测试场景提供了新思路 [6][45] 技术框架与创新点 - InSUR框架从“采样方法”、“任务建模”、“生成器评估”三个维度突破,实现“可迁移、可适应、高效能验证”的SemanticAE生成 [9] - 针对人类指令中固有的不确定性导致的三大痛点(指称多样性、描述不完整性、边界模糊性),框架提供了相应解决方案 [8][14] - 框架整体采用扩散模型实现,并在对抗采样器、上下文编码和生成器评估上引入新机制 [11] 采样方法创新 - 设计了残差引导的对抗DDIM采样器(ResAdv-DDIM),解决扩散模型对抗采样问题 [12] - 通过“粗预测语言引导的采样过程”,提前锁定对抗优化方向,避免不同采样步骤中对抗特征优化方向反复跳跃 [12][15] - 加入L2范数约束,确保生成样本不偏离指令语义,显著提升对抗迁移能力与鲁棒性 [16][20] 任务建模突破 - 引入任务目标嵌入策略,实现更好的2D语义约束对抗样本生成,并首次实现3D语义约束对抗样本生成 [22] - 在2D生成中,通过差异化引导掩码控制扩散模型生成内容的语义引导空间分布 [23][26] - 在3D生成中,整合可微分渲染管线,包含3D高斯泼溅渲染器、可微渲染器和ResAdv-DDIM嵌入 [27][29][31] 评估体系构建 - 提供自动评估的任务构建方法,利用WordNet分类体系提升抽象层次来重新构建评估标签 [28][32] - 提出非对抗性样本生成子任务,要求生成对抗样本同时生成可被正确分类的“范例”样本 [33] - 定义相对攻击成功率和语义差异度指标,若在两个指标上都获得高分可充分证明生成器性能 [34] 实验结果 - 在2D SemanticAE上,InSUR在4种代理模型和2种任务设置中,所有目标模型至少实现1.19倍平均ASR提升和1.08倍最小ASR提升 [40] - 在3D SemanticAE生成中,InSUR方法攻击成功率达到92.2%,而非对抗性基线仅为45.1% [42] - 可视化结果表明InSUR生成的对抗样本在迁移攻击性、真实性方面展现出显著优越性 [43][44] 应用前景 - InSUR设计与具体模型和任务解耦,展现出良好可扩展性,为测试时的红队评估框架提供新思路 [45] - 可作为高质量对抗训练数据生成器,利用扩散模型生成的“困难样本”反向提升模型鲁棒性 [45] - 未来可与现有3D场景生成管线集成,应用于自动驾驶、具身智能体等安全关键系统 [45][46]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-22 08:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶、具身交互、联合预测等技术 [3] - 其他关键方向包括SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理 [3] 合伙人资质要求 - 候选人需来自QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级会议论文成果的候选人将获得优先考虑 [4] 合伙人待遇与支持 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源
机器之心· 2025-10-20 17:15
技术突破与核心创新 - 提出名为DiffBrush的全新扩散模型,首次将扩散模型应用于文本行级别的手写体生成任务[2][7] - 模型能够生成风格逼真、内容准确、排版自然的手写体文本行,支持英文、中文等多语言场景[2][7] - 通过内容解耦的风格模块,将风格学习和内容学习分离,避免两者相互干扰[11][12] - 采用“列掩码+行掩码”的内容解耦策略,分别从垂直和水平方向对字符内容进行掩蔽,有效保留书写风格[16][17] - 构建多尺度内容判别模块,包含行级和词级判别器,兼顾全局字符顺序与局部字符结构的准确性[19] 技术方案细节 - 整体框架包括内容解耦的风格模块、风格-内容融合模块、条件扩散生成器和多尺度内容判别模块[13] - 风格编码器采用CNN-Transformer结构,通过列向与行向掩码增强垂直和水平方向的风格学习[13][17] - 多尺度内容判别模块中,行级判别器使用3D-CNN确保字符顺序与词间空白准确,词级判别器通过预训练CNN-LSTM模块确保单词内容准确性[19] - 风格-内容融合模块使用6层Transformer Decoder组成的Blender,先进行垂直风格融合,再进行水平风格融合[20] 性能评估结果 - 在IAM英文数据集上,DiffBrush的HWD指标为1.41,DCER为8.59,DWER为28.60,FID为8.69,IS为1.85,均优于对比方法[23] - 在CVL数据集上,DiffBrush的HWD指标为1.06,DCER为20.92,DWER为36.38,FID为7.57,IS为1.70,表现最佳[23] - 与One-DM方法相比,在中文数据集上字符错误率显著降低,DCER从81.99降至0.73,DWER从82.80降至96.65[23] - 消融实验表明,完整模型(Base+§style+Dline+Dword)的HWD为1.41,DCER为8.59,DWER为28.60,性能最优[29] 应用前景 - 技术可用于个性化字体定制,轻松创造属于用户个人的字体库[4] - 在字体设计、笔迹验证等领域具有广阔应用前景[4] - 未来在历史笔迹复原、鲁棒文本行识别器训练等方面具有应用潜力[35]
Self-Forcing++:让自回归视频生成模型突破 4 分钟时长极限
机器之心· 2025-10-18 16:30
文章核心观点 - Self-Forcing++技术突破视频生成长度限制,首次实现4分钟15秒高质量长视频生成,无需长视频数据再训练[2][10] - 该技术通过“教师模型即世界模型”的核心思想,利用教师模型纠错能力,使学生模型在长时间尺度下学会自我修复和稳态生成[8][9][10] - 在50秒、75秒和100秒视频生成评测中全面超越基线模型,尤其在动态程度和视觉稳定性指标上表现突出[23][25] 技术原理与创新 - 采用反向噪声初始化技术,在长视频生成后将噪声重新注入已生成序列,保持时间连续性,避免时间割裂[13][14][15] - 提出扩展分布匹配蒸馏方法,将教师-学生分布对齐从5秒窗口扩展为滑动窗口蒸馏,实现长期一致性学习[16][18] - 在训练阶段同步采用滚动KV缓存,实现真正的训练-推理对齐,彻底消除曝光漂移和帧重复问题[19][20] - 引入强化学习的光流平滑奖励机制,惩罚光流突变,使视频运动过渡更自然,光流方差显著下降[22] 性能表现与实验结果 - 模型参数量为1.3B,在100秒视频生成中文本对齐得分26.04,时序质量90.87,动态程度54.12,视觉稳定性84.22[25][26] - 在50秒视频生成评测中,动态程度指标达到55.36,远超基线模型的31.96-39.15,视觉稳定性达到90.94,显著优于基线模型的40.12-60.41[25] - 随着训练算力增加,视频质量显著提升,训练预算达到25倍时可实现几乎无损的长视频生成[31] - 在0-100秒生成过程中能保持很好稳定性,基线模型大多会出现严重质量下降如过曝光和错误累积[25][30] 行业现状与挑战 - 当前主流视频生成模型如Sora、Wan、Hunyuan-Video等普遍受限于数秒短片段生成,存在训练-推理不匹配和误差累积等架构缺陷[6][7][17] - 极长场景下仍存在长时记忆缺失问题,可能丢失被遮挡物体状态,且自回归训练成本较高,效率有待提升[33]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-18 00:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶等前沿技术方向 [3] - 其他关键领域包括具身交互、联合预测、SLAM、3D目标检测、世界模型等 [3] - 技术布局覆盖闭环仿真3DGS以及大模型部署与量化感知推理 [3] 人才招聘标准 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有发表成果的候选人 [4] 合伙人待遇与激励 - 为合伙人提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 公司提供创业项目合作与推荐机会 [5]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-18 00:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
工业界和学术界都在怎么搞端到端和VLA?
自动驾驶之心· 2025-10-17 08:03
端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型(VLA)等多种子领域,尤其是基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型(VLM)、扩散模型、强化学习、世界模型等,代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域,内容涵盖从VLM作为自动驾驶解释器,到模块化VLA、一体化VLA,以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理,包括Vision/Language/Action三大模块、强化学习、扩散模型等,并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验,例如有教师主持完成多项自动驾驶感知和大模型框架工具,其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家,拥有CCF-A/B论文发表记录,并主持完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU,推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [17]
VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石
机器之心· 2025-10-14 16:24
技术突破核心观点 - 纽约大学谢赛宁团队提出表征自编码器(RAE),旨在替代存在10多年的变分自编码器(VAE),作为扩散模型(如DiT)的潜空间基础[1][2] - RAE结合预训练表征编码器(如DINO、SigLIP、MAE)与训练好的解码器,实现高质量重建和语义丰富的潜空间,同时具备可扩展的Transformer架构特性[2] - 该方案展现出明显优势,应成为DiT训练的全新默认方案[6] VAE的局限性 - SD-VAE计算量约为450 GFLOPs,而简单的ViT-B编码器仅需约22 GFLOPs,过时的骨干网络使架构比实际需要的更复杂[4] - VAE的潜空间过度压缩(仅4个通道),限制了可存储的信息量,其压缩作用有限,几乎和原始三通道像素一样受限[4] - VAE仅使用重建任务训练,学到的特征很弱(线性探针精度约8%),导致模型收敛更慢、生成质量下降[4] RAE的重建性能与优势 - 使用冻结预训练表征编码器的RAE在重建质量(rFID)上一致优于SD-VAE,例如使用MAE-B/16的RAE达到0.16的rFID,明显胜过SD-VAE的0.62[18] - 即使小型表征编码器模型也保留足够底层细节供解码,重建质量在DINOv2-S、B、L三种尺寸下保持稳定[19] - 增加解码器容量能持续提升rFID,从ViT-B的0.58提升到ViT-XL的0.49,且ViT-B性能已超过SD-VAE,其GFLOPs效率高出14倍[19] - RAE直接继承底层表征编码器的表征能力,线性探测精度远高于SD-VAE的8%,例如DINOv2-B达84.5%,SigLIP2-B达79.1%[18][20] DiT^DH架构创新 - 针对高维RAE潜空间,研究者提出新的DiT变体DiT^DH,引入浅层但宽度较大的头部结构,使扩散模型在不显著增加二次计算成本的前提下扩展网络宽度[3][32] - DiT^DH的收敛速度比标准DiT快,在计算效率(FLOPs)方面显著优于DiT[34] - DiT^DH在不同规模RAE上保持性能优势,例如在使用DINOv2-L时,将FID从6.09降低至2.73[36] 图像生成性能表现 - DiT^DH-XL在ImageNet数据集上取得优异图像生成效果:在256×256分辨率下,无引导条件FID为1.51;在256×256和512×512分辨率下,有引导条件FID均为1.13[5][41] - 该性能大大优于所有先前扩散模型,在256×256下创下新的最先进FID分数[41] - 当训练计算量达约5×10¹⁰ GFLOPs时,DiT^DH-XL表现已超越REPA-XL、MDTv2-XL和SiT-XL等模型;在5×10¹¹ GFLOPs时实现全场最佳FID,所需计算量仅为基线模型的1/40[43] 技术实现关键点 - 研究证明只要解码器训练得当,冻结表征编码器可作为扩散潜在空间的强大编码器,挑战了其不适合重建任务的假设[11][12] - 为使DiT在RAE潜空间中成功生成,模型宽度必须匹配或超过RAE的Token维度,否则训练失败或性能远逊[24][26] - 采用维度相关的噪声调度偏移,通过缩放因子调整噪声时间步长,在高维潜空间训练时带来显著性能提升[28] - 提出噪声增强解码方案,向干净潜变量注入高斯噪声,增强解码器对扩散模型输出空间的泛化能力,改善生成指标(gFID)[29]