Workflow
掩码扩散模型
icon
搜索文档
全新范式!LLaDA-VLA:首个基于大语言扩散模型的VLA模型
具身智能之心· 2025-09-12 08:05
技术突破 - 首次将掩码扩散模型引入机器人动作生成领域 基于预训练多模态大语言扩散模型微调 支持并行化动作轨迹预测[5] - 提出局部化特殊Token分类技术 将连续动作空间离散化为32个动作Token 仅在动作相关Token集合计算交叉熵损失 非动作Token被屏蔽[8][12] - 开发层级化动作结构解码策略 显式建模动作间与动作内依赖关系 采用先粗后细生成方式提升轨迹连续性[9][13] 性能表现 - 在SimplerEnv环境平均成功率55.5% 超越CogACT模型4.2个百分点[14][21] - 在CALVIN环境平均任务长度4.01 超越OpenVLA模型0.74[14][21] - 真实机械臂WidowX测试平均成功率58% 较π0模型提升23个百分点 较CogACT提升28个百分点[15][21] 模型架构 - 输入为自然语言指令和场景RGB图像 输出多步离散动作序列 每步动作由7个Token表示三维位置变化 三维旋转变化和夹爪状态[7] - 采用SigLIP-2视觉编码器提取特征 基于LLaDA扩散式大语言模型融合多模态信息 通过投影器实现跨模态统一[10] - 通过动作级置信度估计和重采样机制 优先保留高置信度动作 对低置信度动作进行Token级精细重采样[16] 实验验证 - 在SimplerEnv高拟真仿真平台测试精准操作任务 在CALVIN长时序仿真评估多步骤任务 使用ABC-D设置验证泛化能力[17] - 消融实验显示单独使用LSC技术使平均任务长度提升0.79 叠加HAD技术后进一步提升0.58至4.01[18] - 真实机器人测试包含8个操作任务 涵盖域内任务如"将草莓放入碗中"和域外任务如"将立方体放入未知容器"[17]
ICML 2025杰出论文出炉:8篇获奖,南大研究者榜上有名
自动驾驶之心· 2025-07-16 19:11
ICML 2025最佳论文奖项总结 - 本届ICML共评选出8篇获奖论文,包括6篇杰出论文奖和2篇杰出立场论文奖,南京大学研究者位列获奖名单[3] - 大会共收到12107篇有效投稿,接收3260篇,接收率26.9%,相比2024年9653篇投稿数量持续大幅增长[5] - ICML是全球人工智能领域三大顶会之一,与NeurIPS、ICLR并列,本届为第42届,在加拿大温哥华举行[3] 杰出论文奖主要研究成果 - 论文1提出自适应Token解码顺序策略,将掩码扩散模型在数独解题准确率从7%提升至90%,超越7倍参数量的自回归模型[8][10] - 论文2研究机器学习在政府项目中的应用,通过德国失业案例评估预测技术对福利分配的影响,为政策制定提供分析框架[11][13][14] - 论文3提出CollabLLM框架,通过多轮感知奖励增强人机协作,任务表现提升18.5%,用户满意度提高17.6%,减少10.4%用户时间[15][17][18][19] - 论文4分析语言模型创造性极限,证明多Token方法在生成多样性方面优于下一Token学习,提出噪声注入输入层的新方法[20][22][23] - 论文5从贝叶斯视角改进共形预测,提出基于贝叶斯求积的实用方案,提供更全面的损失范围表示[24][25][26][27] - 论文6调整分数匹配方法处理缺失数据,提出重要性加权和变分两种方法,分别在小样本低维和高维场景表现优异[28][30][31] 杰出立场论文奖核心观点 - 论文1建议改革AI会议评审系统,建立双向反馈机制和审稿人奖励系统,应对投稿量激增带来的评审质量挑战[35][36][39][40] - 论文2指出当前AI安全研究忽视对未来工作影响,主张建立以人为中心的全球治理框架,解决收入不平等和技术债务问题[41][44] 行业动态 - 自动驾驶领域技术社区已聚集近4000人,300+企业和科研机构参与,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等[47] - 专业课程涵盖端到端自动驾驶、大模型应用、BEV模型部署、轨迹预测等前沿方向,提供系统学习路径[48][49]