Workflow
机器之心
icon
搜索文档
MeanFlow再下一城,北大提出机器人学习新范式MP1,实现速度与成功率双SOTA
机器之心· 2025-07-24 17:33
作者介绍:盛举义,北京大学在读博士研究生,研究方向为机器人操作技能学习方法研究;王梓懿、李培铭,北京大学在读硕士研究生,研究方向为视频理解分 析; 刘勇,浙江大学控制科学与工程学院教授,研究领域为自主机器人与智能系统; 刘梦源,北京大学深圳研究生院助理教授,研究领域为人类行为理解与机器 人技能学习。 在目前的 VLA 模型中,「A」— 动作生成模型决定了动作生成的质量以及速度。具体而言,生成式模型在推理速度与任务成功率之间存在 「根本性权衡」。 其中,Diffusion Models(如 Diffusion Policy 和 DP3)通过多步迭代生成高质量动作序列,但推理速度较慢,难以满足实时控制要求;而 Flow-based 模型(如 FlowPolicy)尽管能提供快速推理,但需要额外的架构约束或一致性损失(consistency loss)来保证轨迹的有效性,这增加了设计复杂性并可能限制性能和泛化能 力。 此外,机器人操作面临另一个挑战,即数据高效的少样本泛化。标准模仿学习策略容易出现 「特征坍塌(feature collapse)」,即将需要不同动作的关键状态错误 地映射到相似的潜在表征 latent ...
倒计时3天!锁定直播,共赴2025 WAIC云帆奖颁奖典礼&挚友之夜!
机器之心· 2025-07-24 17:33
2025 WAIC 云帆奖颁奖典礼暨云帆青年挚友之夜 7月27日18:30 正式启幕!此次活动定向邀请 150 位云帆 奖得主、召集人、评委、候选人,以及全球 AI 技术领袖、学术新锐和顶尖投资人,致力于打造 WAIC 期 间含全球 AI 顶尖人才浓度最高的年轻舞台 。 全球 AI 新星竞逐云帆奖 • 见证荣耀时刻: 2025 WAIC 云帆奖得主重磅揭晓; • 聆听先锋开讲: 感受新一代 AI 掌舵者的智慧、激情与远见; • 把握前沿脉动: 从现场热烈氛围中,捕捉 AI 领域最值得关注的新方向与新力量。 2025 WAIC 云帆奖汇聚全球顶尖 AI 学术与产业力量,由清华大学交叉信息研究院院长及人工智能学院院 长、上海期智研究院院长 姚期智 ,清华大学智能科学讲席教授、智能产业研究院院长 张亚勤 ,上海人工 智能实验室主任、首席科学家、清华大学惠妍讲席教授 周伯文 担任奖项召集人,携手寻找真正引领变革的 顶尖 AI 青年人才。奖项以其广泛的国际影响力,吸引了全球顶尖青年 AI 人才竞相角逐! 面向未来 AI 青年力量 锁定直播,见证历史,共襄盛举 激动人心的颁奖典礼盛况全球直播!您将: WAIC 云帆奖于2 ...
创智突破:AI首次自主发现106个超越人类设计的神经网络架构
机器之心· 2025-07-24 14:50
科学发现还是人类专利吗? 当世界还在为 AI 在数学竞赛中达到金牌水平而惊叹时,一项更加深远的突破正在悄然发生。与解决 IMO 题目这种封闭性问题不同,真正的科学发现是一个开放 性的、长期的认知过程 —— 需要提出原创问题、设计实验方案、观察现象规律、形成科学假设,然后在不断的试错和迭代中逼近真理。 这个过程的复杂度远超任何标准化测试,它要求的不是计算能力,而是真正的科学创新思维。 由创智学院领衔的研究团队今日发布的 AI 超智能系统首次证明,AI 已经具备了进行完整科学发现的能力 —— 该系统在 完全自主的条件下发现了 106 个超越人类 设计的神经网络架构(在多个基准测试中超越了如 Mamba2 和 Gated DeltaNet 等强大的基线模型) ,更恐怖的是,它初步验证了 科学突破可以像训练模型一样 进行工业化量产 。标志着我们正式跨入了长期自主超智能(Long-Horizon Superintelligence)的新纪元, 科 学发现进入 Scaling Law 时代 ! 从数学金牌到科学发现: 认知复杂度的代际跃迁 近期 AI 领域最引人注目的成就之一是在数学竞赛中的突破表现。Google 等研究 ...
DeepRare 重磅发布:全球首个可循证智能体诊断系统,直击医学Last Exam难题
机器之心· 2025-07-24 14:50
在医学面前,罕见病是一道最难的题。全球已有超过 3.5 亿人受到罕见病影响,病种超过 7000 种,约 80% 为遗传性疾病。但大多数患者在确诊前需经历 5 年以 上的延迟、 7 次以上就诊、 3 次以上误诊,平均误诊率高达 40%-50% ,给患者和家庭带来沉重负担。 系统由中央控制单元(Central Host)统筹全局,以大模型为引擎,通过精心设计的任务规划和工作流程,调用多个功能智能体(Agent)分工协作,综合各类信息 构建结构化诊断建议与可溯源因果链条,构成端到端的智能诊断解决方案: 罕见病症状异质性高、诊断路径长、知识分布极度稀疏,是典型的「小样本、大空间」问题。医生如同在浩如烟海的资料中「大海捞针」,面对碎片化信息与复 杂交互线索,传统 AI 模型难以胜任,临床专家的经验更难被规模化复制。 破解之道:重塑 诊断路径 为破解这一世界级难题, 上海交通大学人工智能学院牵头,联合新华医院、上海人工智能实验室、哈佛医学院 共同发布了全球首个罕见病推理型智能体诊断系统 —— DeepRare 。 论文标题:An Agentic System for Rare Disease Diagnosis with ...
Vibe Coding爆火,YouWare靠「社区+产品思路」突围
机器之心· 2025-07-24 12:08
机器之心报道 编辑:Panda 任何足够先进的科技,都与魔法无异。—— 亚瑟・克拉克,科幻小说作家、发明家 AI 时代,一种名为 「Vibe Coding」(氛围编程) 的「魔法」已然兴起。 在近期 AI 行业巨头的一场备受争议的收购案中,这股浪潮的热度达到了一轮高潮:AI Coding 创业公司 Windsurf 在早已传出将被 OpenAI 收购之际,却被谷歌 DeepMind 以 24 亿美元出价挖走了其核心创始团队与核心技术人才。这场巨头间围绕 AI Coding 人才和技术的激烈博弈,将整个行业的目光都聚焦到了正日益走向 主流的 Vibe Coding 上。 Vibe coding 最早由 OpenAI 联合创始人、前特斯拉 AI 负责人 Andrej Karpathy 于 2025 年 2 月提出,它描述了一种全新的创作方式: 你几乎可以忘记代码的存在, 完全沉浸在与 AI 对话的氛围中。 你只需向 AI 提出创意和需求,然后「全部接受」它的方案;遇到报错,也可让 AI 自己解决这些问题 。 今年 6 月,传奇音乐制作人 Rick Rubin 在和 Anthropic 合作的新书《The Way ...
维也纳免费约饭!ACL 2025期间这场晚宴不容错过!
机器之心· 2025-07-24 12:08
在这一背景下,作为自然语言处理领域最具影响力的顶级会议之一,ACL 2025 如期而至,成为全球研究者 和技术从业者分享最新成果、探讨未来趋势的重要舞台。 Meetup 日程 活动时间: 奥地利维也纳时间 7 月 30 日 16:00-20:30 活动地点: 维也纳奥地利中心周边 活动规模: 250 人 如果您对业内热点话题感兴趣,想学习前沿新式技术和了解行业变化趋势。我们设置了青年学者 Talk、顶 尖人才 SHOW 和晚宴交流等环节,期待更多青年才俊现场共同探讨前沿技术与应用落地等关键问题,碰撞 转眼之间,时间已来到 7 月,AI 领域依旧保持着快速发展的趋势。 新的研究不断被推出,尤其是在视频生成、自主智能体等方向,多项成果相继刷新 SOTA,引发广泛关注。 想必很多从业者将前往现场参会,除了密集高强度的会议日程之外,不妨也为自己预留一些时间,参与一 场更轻松、更自由的线下交流活动「云帆・ACL 2025 AI Talent Meetup」。 这是一次聚焦前沿技术与人才对话的特别聚会,由机器之心与上海人工智能实验室、东方菁汇、 黄大年茶 思屋科技网站、蚂蚁技术研究院、全球高校人工智能学术联盟共同发起,诚 ...
ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗?
机器之心· 2025-07-24 12:08
大语言模型主动推理研究 核心观点 - 大语言模型在被动推理(如数学推理、代码生成)表现优异,但主动推理(信息不完备场景下的动态交互推理)能力存在显著短板 [1][2] - 主动推理要求模型通过多轮交互提问获取关键信息,其核心是"提出正确问题"而非"找到答案" [4][18] - 当前顶尖模型如GPT-4o在主动推理任务中准确率仅35%,且现有方法(SFT/DPO/ToT)提升有限 [28][29][30] 研究创新 理论框架 - 首次系统定义主动推理(AR)与被动推理(PR)的本质区别:PR基于完整信息直接求解,AR需通过交互补充缺失信息 [8][14][15] - 提出AR三大核心挑战:动态提问能力、信息检索效率、迭代推理质量 [15][18] 评估体系 - 开发AR-Bench基准测试,包含三类任务:情景谜题(逻辑发散)、数字猜谜(符号推理)、诊断对话(专业交互) [20][21][22] - 采用双维度评估:结果匹配度(答案准确性)和过程质量(关键问题覆盖率/F1-Score) [25] 实验结果 模型表现 - 模型普遍存在提问质量递减现象,后期问题有效性下降38% [38][45] - 典型错误模式:宽泛提问(占比42%)、时间线误解(23%)、未利用符号反馈(19%) [49][50][51] - 模型规模与表现正相关:Llama-3.1-70B比8B版本多提取27%有效信息 [36][43] 方法对比 - 基于搜索的方法(如ToT)在数字猜谜任务提升15%准确率,但在情景谜题中无效 [38] - 微调方法(SFT/DPO)导致部分任务性能下降12-18% [30] - 人类表现显著优于模型,在诊断对话任务中F1-Score高出41% [34][37] 未来方向 技术突破 - 开发高质量微调数据集(计划构建10万条AR样本) [56] - 强化学习适配(PPO/GRPO)与可靠验证器设计 [60] 场景拓展 - 医疗诊断场景的定制化代理开发 [60] - 多模态主动推理(机器人/游戏环境) [60] 注:所有数据引用自ICML 2025会议论文及AR-Bench基准测试结果 [11][20][25]
五倍推理加速,激发自回归潜能,苹果新工作让LLM预测未来
机器之心· 2025-07-24 12:08
语言模型技术突破 - 语言模型近年来的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性[2] - 自回归训练框架中每个token都作为前文上下文的预测目标 无需显式标注 具有明显训练优势[3][4] - 自回归推理阶段存在顺序执行瓶颈 计算开销大 与人类表达方式存在差异[5] 多token预测创新 - 苹果研究人员开发新框架 使自回归大模型能执行多token预测 实现5.35倍代码数学任务加速和2.5倍一般任务加速[7] - 该方法通过对现有模型进行LoRA微调实现 具有开创性意义[8] - 技术突破可能大幅降低AI运行成本 使轻量设备运行强大实时助手成为可能[9] 研究方法与架构 - 研究引入特殊mask token 扩展输入序列 通过NTP和MTP两种预测模式工作[29][30] - 采用门控LoRA模块 仅更新LoRA参数与采样器头参数 保持原始解码器权重冻结[34] - 采样器MLP头结合模型潜在表示与已生成token信息 确保连贯多token输出[22][32] 实验验证结果 - 在Tulu3-8B模型上验证 编程和数学任务加速效果最显著 分别达5.35倍和5.22倍[46][47] - 知识问答领域平均加速2.38倍 对话任务加速2.52倍 安全领域最高达3.72倍[47] - 门控LoRA能保持NTP token生成质量稳定 标准LoRA则导致质量下降[39][40] 技术影响与展望 - 多token预测技术处于完全自回归与完全扩散生成之间 兼具效率与质量潜力[53] - 未来可探索预训练阶段引入该方法 或结合扩散生成方法进一步优化[53] - 该框架为推理优化带来颠覆性变革可能 显著提升大模型实用性和普及度[9][10]
如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式
机器之心· 2025-07-24 11:19
论文链接:https://arxiv.org/pdf/2505.22967 GitHub 开源代码:https://github.com/chengqiArchy/MermaidFlow 随着大语言模型技术的持续突破与火热发展,AI 智能体正从单点能力迈向复杂系统协作, 多智 能体系统 (Multi-Agent Systems, MAS) 成为学术和产业界聚焦的新前沿。在这一背景下, 「Agentic Workflow」作为面向智能体自主决策与协作流程自动生成的技术理念 ,正成 为多智能体系统研究和应用的探索热点。 为提升智能体系统的自主化与智能化,谷歌、上海 AI Lab 等国内外领先团队陆续推出了 Meta-GPT、ADAS、AFlow 等创新性 Agentic Workflow 工作,大力推动利用大模型实现任务规划、分工协作与流程优化的自动化进程。 尽管这些系统能够灵活的表达工作流,但在自动化搜索工作流的过程中, 存在合理性难以保证、 可验证性 不足、 难以直观表达等突出挑 战 ,严重制约了多智能体系统的可靠落地与规模化部署。 近日,来自 新加坡 A*STAR 的 Centre for Frontier ...
首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交等
机器之心· 2025-07-24 11:19
近期,来自清华大学、上海交通大学、北京华控智加科技有限公司和华北电力大学的研究者联合发布首个多模态工业信号基座模型 FISHER,采用搭积木的 方法对异质工业信号进行统一建模。目前技术报告和权重均已开源,欢迎使用! 研究背景 近年来,越来越多的工业设备被安装上传感器以监控工作状态。然而安装传感器容易,如何高效分析工业信号却很难,因为不同传感器采集的工业信号具有 极大的异质性。本文中,我们将其总结为 M5 问题:多模态、多采样率、多尺度、多任务和少故障。 FISHER 模型是首个面向多模态工业信号的基座模型。它以子带为建模单元,通过堆积木的方式表征整段信号,可处理任意采样率的工业信号。详细介绍如 下: 子带建模 谱分析是语音和信号分析常用的手段。与语音模型常采用的 Mel 谱不同的是,FISHER 采用短时傅里叶变换(STFT)作为信号输入特征,这是由于 1)故 障分量往往出现在高频 2)对于旋转类机械,倍频关系往往很重要。为保证不同采样率下时频分辨率相同,FISHER 中的 STFT 采用固定时长的窗长和帧 移。 受到 M5 问题影响,现有方法大多只分析小范围的工业信号,例如基于振动的轴承故障诊断,所采用的模 ...