机器之心

搜索文档
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心· 2025-05-31 12:00
核心观点 - RM-R1框架将奖励建模重新定义为推理任务,提出推理奖励模型(ReasRMs),通过生成结构化评估标准和推理过程提升模型可解释性和性能[1][5] - 实验验证推理能力是奖励模型关键要素,两阶段训练范式(推理蒸馏+强化学习)展现出高效性,链式评估准则(CoR)机制带来深度可解释性与卓越性能[33][34][35] - RM-R1在多个基准测试中超越更大规模的开源和闭源模型,性能提升高达8.7%,证明推理能力比模型规模更重要[25][26] 技术架构 - 引入链式评估准则(CoR)机制,将任务动态分类为推理型或对话型,分别采用内部专家解决方案或定制化评估准则进行多维度判断[9][10][11][12] - 推理型任务要求模型先自行生成解决方案作为基准,对话型任务则生成带权重的评估准则和理由,实现类似人类的复杂偏好判断[11][12] - CoR机制通过预定义逻辑序列、任务特定评估和透明推理痕迹,实现深度元推理能力[13] 训练方法 - 采用两阶段训练流程:推理蒸馏阶段从高质量推理链提取知识,强化学习阶段用可验证奖励信号优化推理能力[17][18][19] - 消融研究表明推理蒸馏是关键因素,单独的强化学习无法弥补性能差距,CoR提示工程显著优化推理过程[30] - 仅需8.7K蒸馏示例即可达到与800K示例训练模型相当的性能,展现卓越数据效率[31] 性能表现 - RM-R1-DeepSeek-Distilled-Qwen-32B在数学和代码任务中准确率分别达91.8%和74.1%,远超此前最佳表现(数学73%,代码63%)[26] - 模型规模与性能呈线性关系,32B版本在多个基准平均表现达81.5%,超越INF-ORM-Llama3.1-70B和GPT-4o等大模型[25][26] - 在RM-Bench推理密集型基准上,14B版本性能达79.6%,32B版本提升至81.5%,显示计算预算增加对推理能力的积极影响[26][29] 行业意义 - 开创基于推理的可解释奖励范式,为大模型对齐研究提供新方向,强调认知能力提升比规模扩张更重要[32][34] - 结构化推理方法使模型能处理复杂场景判断,在安全、数学等专业领域展现突破性进展[8][26] - 小模型高效训练路径为资源有限团队提供实际部署方案,具有显著经济优势[31][35]
250美元起售,还开源,Hugging Face 发布史上最亲民人形机器人
机器之心· 2025-05-31 12:00
开源机器人发布 - Hugging Face开源两款人形机器人HopeJR和Reachy Mini,推动马斯克2040年百亿机器人预言实现[1] - HopeJR为全尺寸人形机器人,具备66个驱动自由度,可行走和手臂移动[3] - Reachy Mini是桌面机器人,可移动头部、说话、倾听,用于AI应用测试[5] 产品定价与供应 - HopeJR售价约3000美元,Reachy Mini售价250-300美元,显著低于宇树G1的16000美元[7] - 首批机器人预计2024年底发货,已开放等候名单[7] - 两款机器人均提供完整物料清单和零件采购链接[16][21] 技术细节与功能 - HopeJR需手动录制动作数据,通过模仿学习算法训练自主控制策略[10] - 目前HopeJR仅在3D模拟环境行走,计划向现实世界转移[12] - HopeJR配备机械臂,可通过专用手套远程控制执行握手、指向等任务[13] 设计特点与用户反馈 - HopeJR设计粗糙,头部框架结构类似动画角色班德[9] - 网友评价HopeJR动作像患帕金森症,外观不太聪明[8][14] - Reachy Mini采用可伸缩颈部设计,基于Pollen Robotics的Orbita执行器技术[17][18] 应用场景与生态建设 - Reachy Mini可用于工业自动化AI模型测试,如人机交互场景[20] - Reachy 2已展示多语言理解能力,集成GPT-4实现带情绪响应[23][24] - Hugging Face构建开源机器人生态,包括LeRobot项目和SO-100机械臂[26][28] 行业影响与开源价值 - 开源模式打破技术壁垒,使机器人技术不再被大公司垄断[7][28] - 开源硬件平台有望像开源软件一样推动行业加速发展[30] - 社区共同塑造的"公共智慧"将成为机器人进化新范式[30]
具身进化·无界未来:这场论坛引领具身智能模型革命新浪潮
机器之心· 2025-05-30 17:33
具身智能技术发展 - 具身AI模型与人形机器人结合为AGI进入物理世界提供新可能,多模态大模型和世界模型推动具身智能进化 [1] - 新型大物理模型(如CoA行动链)在泛化性、端到端训练和统一大小脑功能上优于传统思维链(CoT),并已开发世界模型、仿真平台等工具 [6] - 脉冲神经网络实现机械臂类脑仿生控制,通过仿生算法和计算神经结构达成复杂环境下的自适应与灵巧操作 [10] 产业应用与商业化路径 - 智能机器人需满足V(感知)-L(理解)-A(行动)闭环,产品化需聚焦用户场景划分、技术交叉点及低失效成本场景 [8] - 视觉大模型(VLM)通过开源强化学习框架提升机器人环境感知与决策能力,联汇科技展示VLM-R1框架及终端联动案例 [12] - 模块化关节设计颠覆传统机器人开发,星际光年开源方案使灵巧手成本与周期显著降低 [12] 行业生态与未来展望 - 张江依托"一中心、两基地"布局推动人形机器人产业加速,集聚科研资源完善政策环境 [4] - 世界模型和Scaling Law被视为具身智能算法潜力方向,生成式AI可缩小虚拟与现实差距 [13] - 工业搬运、商超展厅为优先落地场景,预计5-10年内或进入C端家庭市场 [13] - 合成数据可百倍放大真实数据价值,解决训练数据稀缺问题,仿真数据在泛化性和采集效率上优势显著 [14]
大模型智能体如何突破规模化应用瓶颈,核心在于Agentic ROI
机器之心· 2025-05-30 12:16
大模型智能体可用性瓶颈 - 当前大模型智能体应用主要集中在专业领域如代码生成、科研辅助等,在大众日常场景中普及率较低 [1] - 核心制约因素并非模型能力不足,而是Agentic ROI(投资回报率)未达实用化门槛 [1][3] - Agentic ROI衡量信息收益与使用成本比值,需同时满足信息质量阈值和成本节省比例要求 [4] Agentic ROI关键构成要素 - Information Quality:智能体生成信息的准确性和完整性 [5] - Human Time/Agent Time:人类与智能体完成任务的耗时对比 [5] - Interaction Time:用户与智能体交互过程的时间消耗 [5] - Expense:模型调用和API使用的经济成本 [5] 当前应用场景矛盾 - 高人力成本场景(如科研)因替代效应显著而ROI较高 [7] - 日常场景(如电商)因任务简单且交互成本低,智能体边际价值不明显 [7] - 额外交互成本和延迟导致日常场景Agentic ROI偏低 [7] 发展路径优化策略 - 采用「之字形」发展模式:先规模化提升信息质量,后轻量化降低使用成本 [8][9] - OpenAI模型系列(o1-mini到o3-mini)验证该路径有效性,新一代小模型在保持性能同时降低60%推理费用 [9] 规模化提升阶段 - 预训练规模化:扩大模型参数/数据量,扩展上下文窗口和记忆机制 [11] - 后训练规模化:通过用户反馈构建数据飞轮实现持续优化 [12] - 推理时规模化:构建多模态世界模型,支持复杂任务处理 [13] - 多智能体协作和工具调用扩展可提升任务分解能力 [15] 轻量化优化阶段 - 记忆机制复用历史知识减少重复计算 [18] - 模型压缩技术可降低50%推理延迟而不显著影响性能 [18] - 优化推理策略避免冗余链条,硬件升级(如Groq芯片)提升实时响应 [18] - 主动意图理解设计可降低30%用户交互时间 [18]
多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
机器之心· 2025-05-30 12:16
模型技术 - LaViDa是一种基于扩散模型的视觉-语言模型(VLM),能够联合处理视觉和文本信息,继承了扩散语言模型高速且可控的优点[1] - 不同于流行的自回归VLM,LaViDa将文本生成视为在离散token上的扩散过程,通过前向过程将文本token序列退化为掩码token序列,再通过反向过程转换为有意义的文本[3] - 扩散模型相比自回归模型具有多项优势:可通过调整扩散步骤数量灵活控制速度与质量平衡,能够建模双向上下文,更适合文本填空等任务[4] 模型架构 - LaViDa由视觉编码器和扩散语言模型组成,通过MLP投射网络连接[10] - 视觉编码器使用SigLIP-400M,将输入图像调整为多个视图并独立编码,产生3645个嵌入,通过平均池化减少到980个以提高训练效率[12][13] - 扩散语言模型采用多层Transformer架构,注意力掩码为非因果式,使用扩散语言建模目标而非下一个token预测[13] 训练方法 - 采用两阶段训练流程:预训练阶段仅更新投射算子使视觉嵌入与DLM隐空间对齐,微调阶段对所有组件进行端到端联合训练以实现指令遵循[19] - 通过第三阶段训练得到专用模型:使用1.92万个CoT样本蒸馏得到推理模型LaViDa-Reason,在MathVision等基准上相对提升达18%[25][27] - 使用阶段2数据20%子集进行额外训练得到LaViDa-FIM,支持长度可变的文本填空,在约束诗歌生成任务中实现100%约束满足率[30][32] 性能表现 - 在一般视觉-语言理解任务中,LaViDa-L在MMMU上取得43.3分,优于所有同类模型[22] - 在科学任务中,LaViDa在ScienceQA上取得81.4和80.2分,在AI2D上与Open-Llava-Next表现相当[23] - 在OCR任务中表现尚可但落后于最新自回归模型,主要因平均池化导致细粒度空间信息丢失[23] - 通过控制离散化步数K实现速度与质量权衡:NFE=75%和50%时速度比自回归基线更快且质量更好,NFE=25%时速度明显更快但性能略逊[35]
美团开放AI代码工具,零代码实现全栈能力,项目负责人揭秘架构细节
机器之心· 2025-05-30 12:16
美团AI零代码工具NoCode核心观点 - 美团推出完全免费的AI零代码工具NoCode,用户通过自然语言对话即可生成应用,支持实时预览、局部修改和一键部署,大幅降低开发门槛 [2][4][12] - 工具定位为"全栈AI工程师",可创建个人提效工具、产品原型、交互页面等,内部已应用于网站页面、数据分析、简单游戏等多种场景 [18][26] - 采用三层技术架构:基础设施层、runtime sandbox层和Agent应用层,包含7B参数专用模型及多个垂直场景小模型,推理速度达每秒2000 token [24][25][27] - 内部测试显示非技术人员用户是技术人员的3倍,AI生成代码占仓库增量达50%,预计提效30-50% [21][40][41] 产品功能与技术特性 - **自然语言编程**:用户输入自然语言指令即可生成完整功能,支持指令拓展优化和一键优化 [12] - **实时交互能力**:具备Visual Edit功能实现局部修改,支持版本对比回退,每次对话自动生成带截图版本 [29][30] - **部署优化**:采用容器池化技术实现秒级启动,通过无状态设计和热更新保障实时渲染效率 [29] - **专业协同**:提供Dev Mode满足专业用户需求,实现非专业与专业用户的协同创作 [30] 内部应用案例 - HR团队用NoCode开发春节红包系统,覆盖10万员工,耗时仅1-2个工作日 [39] - 数据团队通过30-40轮对话即可创建定制化数据分析工具,大幅减少需求提交流程 [39] - 出海业务员工构建外语学习软件,HR/行政团队开发抽奖程序等多样化场景应用 [39] 技术架构创新 - 专用7B参数Apply模型基于美团代码基座训练,使用内部真实代码+合成数据,迭代超10个版本 [27] - 自研Embedding/Rerank等小模型集群,在精度不变前提下提升推理速度,优化token利用率 [28] - 图片检索服务结合网页上下文语义化处理,增强生成页面的视觉协调性 [30] 行业影响与未来规划 - 目标推动AI技术平民化,6月将发布专业开发工具Dev Mode,探索IDE领域创新 [48][49] - 长期方向聚焦打通非专业到专业的AI开发自动化,构建新型开发环境 [48] - 公司内部AI生成代码占比已达27%,预计将持续提升代码生产效率 [40][41]
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 11:28
多智能体系统自动化失败归因研究 核心观点 - LLM驱动的多智能体系统存在脆弱性,Agent间误解、信息传递错误或决策不当易导致整体任务失败,但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务,目标是自动识别导致失败的Agent(Who)和错误步骤(When)[1][5] - 研究构建首个基准数据集Who&When,包含127个多智能体系统失败日志,涵盖GAIA等公开基准,并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法:All-at-Once(整体判断,成本低但易忽略细节)、Step-by-Step(逐轮分析,精度高但成本高)、Binary Search(二分法平衡成本与精度)[13] - 混合策略(如All-at-Once+Step-by-Step)可提升准确率,但计算成本显著增加(达149,177 Token)[10][11] 实验结果 - 当前方法效果有限:最佳模型识别出错Agent准确率仅53.5%,定位错误步骤准确率仅14.2%[13] - 方法互补性明显:All-at-Once擅长识别责任Agent(57.02%准确率),Step-by-Step更适合定位错误步骤(7.9%准确率)[11][13] - 现有SOTA模型(如OpenAI o1、DeepSeek R1)表现不理想,远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白,首次将失败原因量化,为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床,推动更可靠的多Agent系统开发[6][16]
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
机器之心· 2025-05-30 11:28
核心技术 - 分块 KV 缓存(Block-Wise KV Cache)通过双向缓存策略实现90%以上的激活重用率,显著减少重复计算 [6][12] - 置信度感知并行解码(Confidence-Aware Parallel Decoding)通过动态阈值筛选(如≥0.9置信度)确保生成逻辑连贯性,避免无效组合 [9][13] - 伪代码展示无需训练即可集成到现有扩散LLM(如LLaDA、Dream)的即插即用加速流程 [15][16] 性能突破 - 在LLaDA模型上实现27.6倍端到端加速,1024 token长文本生成耗时从266秒压缩至12秒,单步延迟从0.26秒降至0.09秒 [18] - GSM8K任务中保持76%准确率的同时实现8.1倍吞吐量提升,HumanEval代码生成任务准确率提升1.2%且吞吐量增加3.7倍 [21] - 主流基准测试中精度损失控制在2%以内,验证技术通用性(兼容LLaDA、Dream等模型) [19][21] 应用价值 - 零训练成本特性支持快速集成到现有系统,不改变模型架构或训练流程即可提升推理效率 [20] - 特别适用于长文本生成(如代码、数学推理)和实时交互场景,解决传统扩散模型推理效率瓶颈 [17][23] - 技术设计为非自回归模型提供新优化范式,有望推动扩散模型在工业级部署中的普及 [23]
用Veo 3+Suno做了个AI Rapper,吊打音乐节上的流量明星
机器之心· 2025-05-29 19:38
AI视频生成技术 - Google Flow Veo3和Suno 4 5合作生成的嘻哈歌手rap视频效果逼真 网友难以分辨真实性[1] - Veo3生成的演唱会视频细节丰富 包括乐队成员动作 乐器演奏同步性 镜头切换等 几乎无瑕疵[4][6] - 典型案例包括另类摇滚乐队酒吧演出 怪诞钢琴家与交响乐团合作 混乱摇滚音乐会等场景[5][7][8] AI音乐生成技术 - Suno 4 5被称为"音乐界ChatGPT" 支持歌词输入和风格选择 但免费版Suno 3 5存在咬字不清 电音明显等问题[12][13] - 豆包音乐生成功能支持模板化创作 咬字清晰度优于Suno 尤其擅长处理生僻字发音 但旋律多样性不足[16] - 案例显示AI可将《木兰辞》等古诗改编为嘻哈风格 播放量超百万[10][19] 多模态AI创作流程 - Flow平台提供从文本提示到视频生成的完整工具链 包括摄像机控制 场景构建等功能[20][22] - 高质量视频需精细设计提示词 例如指定服装 舞台动作 观众反应等要素 并通过分段生成实现时长扩展[22][25] - 最终作品需结合Suno/豆包生成的音乐与Flow生成的视频 通过剪辑软件合成完整内容[27]
Linear-MoE:线性注意力遇上混合专家的开源实践
机器之心· 2025-05-29 19:38
大语言模型架构发展 - 近年来大语言模型领域的研究热点集中在取代Transformer的高效模型架构及预训练 主要包括线性序列建模和混合专家(MoE)两部分 但两者的结合研究较少 Linear-MoE架构的开源实现此前完全缺失 [1] - 近期广受好评的MiniMax-01模型(使用Lightning Attention-MoE)和腾讯混元TurboS模型(使用Mamba2-MoE)均属于Linear-MoE架构 [1] - 上海人工智能实验室团队最新成果Linear-MoE首次系统性地实现了线性序列建模与MoE的高效结合 并开源了完整技术框架 包括Modeling和Training两大部分 支持层间混合架构 [1] 线性序列建模技术进展 - 线性序列建模技术核心优势在于线性时间复杂度的训练和恒定内存占用的推理 主要分为线性注意力(Linear Attention) 状态空间模型(SSM)和线性RNN(Linear RNN)三大类 [5] - 代表性工作包括Lightning Attention GLA Mamba2 RWKV等 研究表明这些模型可通过统一的递归形式表达 反映出技术流派逐渐收敛至统一表达形式 [5] 混合专家(MoE)技术应用 - 国际上的GPT-4系列 Gemini系列 Claude系列以及国内的DeepSeek系列 Qwen系列 腾讯混元LLM 字节豆包 MiniMax-01 Moonshot-Kimi等都在All in MoE [8] Linear-MoE架构设计 - Linear-MoE支持线性序列建模层与MoE层的灵活组合 同时兼容传统Softmax Attention Transformer层 形成混合架构 [10] - 模块化架构包括LSM层(支持Lightning Attention Gated-DeltaNet Mamba2等方法)和MoE层(集成Qwen-MoE DeepSeek-MoE Mixtral-MoE等实现) [10] - 高效训练技术基于Megatron-Core框架开发 支持张量并行 流水线并行 专家并行 LASP和MegaBlocks等优化技术 [10] Linear-MoE性能验证 - 混合模型(线性+Softmax Attention)比纯线性模型表现出更稳定的训练曲线 [13] - 借助专家并行和MegaBlocks 系统在超大参数规模下仍保持高吞吐量 [13] - 线性模型推理速度比传统架构快2-5倍 内存占用降低50%以上 [13] - 在不同规模基准测试中 Linear-MoE展现出良好的性能线性增长 [13] 开源生态与未来方向 - Linear-MoE已全面开源 支持多种主流线性序列建模方法和MoE实现 填补了技术空白 提供可复现的高效训练方案 [13] - 未来将探索Linear-MoE在长上下文理解 Vision-Language模型架构中的应用潜力 [13]