离散扩散模型
搜索文档
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 08:03
作者丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了! 如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。 文章作者 Moritz Reuss 是2025年Apple AI/ML学者奖得主,曾在RSS、ICLR、NeurIPS等顶级会议多次发表研究成果。这篇综述既是一线 研究者的实战总结,也是洞察趋势的前沿观察。 文章一出,评论区好评不断,甚至顶级猎头Mark Wallace直接抛出了橄榄枝。 这个VLA,究竟有多火? 据统计, VLA模型 相关投稿量,从去年的个位数飙升至164篇,足足增长了18倍。 这股热潮背后,让机器人 "听懂人话、看懂世界、动手干活" ,正成为AI领域极具吸引力的前沿阵地。 然而,在这片繁荣之下,一个问题也随之浮现: 当我们谈论VLA的进步时,我们到底在谈论什么? VLA ...
会自检的VLA!ReflectDrive:更安全更高效scaling的端到端框架(理想&清华)
自动驾驶之心· 2025-09-28 07:33
会自检的ReflectDrive:我的轨迹我做主,安全感拉满! 端到端自动驾驶已成为一个重要且快速发展的研究领域。通过大规模数据集学习类人驾驶策略具有相当大的潜力。但是在多模态性能以及长尾场景, 没有可持续解决问题的框架。如果仅依赖强化学习来加强,那么reward hack又成为了棘手的问题,很难写出一个全面的reward可以适用连续轨迹复杂的 三维空间。所以近年来大语言模型的泛化能力突破让大家看到了希望,是否能够利用模型scaling以及数据scaling去激发模型的泛化性能,也就是vla模 型的兴起。 大家都想利用上vlm的泛化能力,用更少的数据去解决few shot/zero shot的场景。下面是对于目前自动驾驶方案vla方案的痛点分析: 基于上面的描述,可以看出目前迫切需要做到的是L模态和A模态的融合,一种更容易scaling的统一的架构,同时还要做到高效生成。为应对这些挑 战, 理想和清华的团队提出ReflectDrive——一种新型学习框架,通过离散扩散的反思机制实现安全轨迹生成。 我们首先将二维驾驶空间离散化以构 建动作代码本,从而能够通过微调将预训练扩散语言模型用于规划任务。该框架的核心是安 ...
AI动态汇总:智谱发布GLM-4.5,蚂蚁数科发布金融推理大模型Agentar-Fin-R1
中邮证券· 2025-08-06 10:33
根据提供的研报内容,未发现涉及量化模型或量化因子的具体构建与测试内容。该报告主要聚焦于AI领域的技术动态与产品发布,包括以下核心内容: 1. **智谱发布GLM-4.5大模型** - 采用混合专家架构,总参数量3550亿,激活参数320亿[12] - 三阶段训练流程:通用文本预训练、专项数据精调、强化学习对齐[12] - 在AGI评测中综合得分63.2,智能体任务准确率26.4%[15] 2. **蚂蚁数科金融推理大模型Agentar-Fin-R1** - 基于Qwen3架构的双引擎设计,支持金融场景专用推理[20] - 在FinEval1.0评测得分87.7,风险定价任务位列第一[23] 3. **商汤"悟能"具身智能平台** - 核心"开悟"世界模型支持4D环境构建与多视角视频生成[27] - 演示案例中机器人实现PPT讲解与动态交互[28] 4. **京东JoyInside附身智能品牌** - 整合RAG、TTS等多模态技术,支持情绪检测与长期记忆[33] - 教育机器人接入后对话轮次提升148%[33] 5. **字节Seed Diffusion Preview模型** - 离散扩散架构实现2146 tokens/秒的代码生成速度[37] - 在CanItEdit基准pass@1准确率54.3%[39] 6. **通义千问Qwen3-30B-A3B模型** - MoE架构每次推理仅激活33亿参数,支持256K长文本处理[44] - 数学推理测试AIME25得分61.3,较前代提升183%[47] 7. **腾讯Tairos具身智能平台** - "三脑协同"模型划分感知、规划、行动模块[52] - 复杂任务链成功率超80%,动态纠偏响应300毫秒[52] 8. **Goedel-Prover-V2定理证明系统** - 8B参数模型性能达DeepSeek-Prover-V2-671B的83.3%[58] - MiniF2F测试集Pass@32准确率88.1%[60] 注:以上总结未包含风险提示、免责声明等非核心内容[7][65][68][69]。报告重点为AI技术进展,未涉及量化投资相关模型或因子[1][2][3][4][5][6]。