机器之心

搜索文档
边学边练,推理觉醒:LUFFY让强化学习即学即用!
机器之心· 2025-05-05 11:40
核心观点 - 上海AI实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式LUFFY,旨在解决AI模型训练中“只学不练”和“只练不学”的两难困境 [1][2] - LUFFY通过混合使用在线推理和离线示范轨迹,实现“边学边练”的目标,在多个数学推理任务中平均提升7.0分,并在分布外任务上展现出显著泛化能力 [2][4][24] - 该方法在Hugging Face社区和alphaXiv学术论坛引起广泛关注 [5] 模仿学习与强化学习的两难困境 - 模仿学习(SFT)通过参考专家解题轨迹快速学习已知方法,但遇到新题时缺乏自主能力 [8] - 强化学习(Zero-RL)通过试错获得奖励反馈并优化策略,具备泛化能力但容易陷入局部最优 [10] - 两种方法分别存在“泛化差”和“效率低”的问题 [1] LUFFY的直觉与机制 - 关键思想是在强化学习过程中引入“离策略指导”,混合使用模型自身生成的在线推理过程和来自更强模型的离线示范轨迹 [14] - 通过“策略塑形”机制,在模型自身推理失败时从专家示范中学习关键步骤,表现优异时保持独立探索 [16] - 该机制引导模型聚焦低概率但关键的行动,实现推理能力的持续进化与泛化 [16] 技术亮点 - 混合策略训练:同时利用在线轨迹和离线示范,引导模型向高奖励动作靠拢并保留有效尝试 [18] - 策略塑形函数:通过非线性加权机制强化对关键步骤的学习,防止过早收敛并保持持续探索 [18][20] - 基于GRPO算法框架实现,提升对罕见但重要行为的梯度响应 [18][21] 实验结果 - 在AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math和OlympiadBench六个基准测试中平均准确率达49.6%,较Zero-RL方法提升+7.0分 [4][24] - 在Qwen2.5-Math-1.5B小模型上表现显著优于基线,平均得分从34.8提升至42.1 [27] - 推理路径长度优于SFT,能用更短过程达成正确答案,且在增加探索强度时性能保持稳定 [28][31] 应用前景 - 可扩展至代码生成、科学问答、自动规划等需要复杂推理的AI任务 [33] - 项目已在GitHub开源,具备复现和拓展潜力 [34]
8/8/7分被NeurIPS拒稿,谢赛宁读博投的首篇论文,10年后获AISTATS 2025时间检验奖
机器之心· 2025-05-05 11:40
会议与奖项 - 第28届国际人工智能与统计学会议(AISTATS)在泰国举办,该会议是人工智能、机器学习与统计学交叉领域的重要国际会议,致力于促进计算机科学、人工智能、机器学习和统计学等领域研究者之间的交流与合作 [1] - 会议主办方公布了本年度时间检验奖,授予UCSD与微软研究院合著的论文《Deeply-Supervised Nets》(深度监督网络),共同一作分别为Chen-Yu Lee(现为谷歌研究科学家)和谢赛宁(现为纽约大学助理教授) [1] - 该论文被引数已经超过了3000,具有较高的学术影响力 [3] 论文背景与作者分享 - 《Deeply-Supervised Nets》是谢赛宁读博期间提交的第一篇论文,最初被NeurIPS拒稿(分数为8/8/7),但最终获得AISTATS 2025时间检验奖 [5] - 谢赛宁寄语同学们,如果对论文评审结果感到沮丧,可以将他的经历当作提醒,坚持不懈会带来收获 [5] - 共同一作Chen-Yu Lee也对论文获奖感到自豪,并表示这项研究成果至今仍具有重要意义和影响力 [6] 论文摘要与核心问题 - 深度学习在图像分类和语音识别等任务中表现优异,但仍存在隐藏层特征透明度低、梯度爆炸和消失导致训练困难、缺乏透彻的数学理解等问题 [11] - 深度学习框架的改进包括微调特征尺度、步长和收敛速度的方法,以及dropout、dropconnect、预训练和数据增强等技术 [11] - 梯度消失问题使得深度学习训练缓慢且低效 [11] 论文方法与创新 - 提出深度监督网络(DSN),对隐藏层和输出层都强制进行直接和早期监督,并为各个隐藏层引入伴随目标,显著提高了现有监督深度学习方法的性能 [12] - DSN框架支持SVM、softmax等多种分类器选择,独特价值在于实现对每个中间层的直接监督控制 [12] - 实验证明DSN方法的收敛速度优于标准方法,前提是假设优化函数具有局部强凸性 [12] 实验结果与性能提升 - DSN-SVM和DSN-Softmax在MNIST、CIFAR-10、CIFAR-100及SVHN数据集上刷新当前最优纪录 [13] - 在500个样本时,DSN-SVM比CNN-Softmax提高了26% [13] - 在CIFAR-10上,DSN方法的错误率为0.39%,优于CNN(0.53%)、Stochastic Pooling(0.47%)、Network in Network(0.47%)和Maxout Networks(0.45%) [15] 特征学习与工程优化 - DSN学习到的特征图比CNN学习到的特征图更直观,展示了从第一个卷积层学习到的特征图,仅显示前30%的激活值 [16] - DSN框架可兼容模型平均、dropconnect和Maxout等先进技术,通过精细化工程优化可进一步降低分类误差 [16]
大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升
机器之心· 2025-05-04 12:57
研究团队背景 - 团队来自中兴通讯无线研究院「大模型深潜」团队,核心研究方向包括推理模型构建、无线通信故障定位、多模态推理模型和推理加速技术 [1] - 核心成员毕业于中国科学技术大学、中国科学院软件研究所等知名高校与科研院所 [1] 研究动机 - 大模型如DeepSeek-R1(671B参数)推理能力强大但难以在边缘设备和实时系统中部署 [6] - 业界聚焦参数量低于70亿的小模型研究,尤其在复杂数学解题和代码生成长链推理场景 [7] - 小模型在多步骤推理任务上存在明显瓶颈,难以满足应用需求 [7] 现有CoT数据困局 - 海量数据驱动方法计算与标注成本高、效率低 [8] - 精品数据驱动方法受规模限制,性能增益难以持续 [9] - 现有方法普遍忽视「模型能力—数据难度」动态匹配问题 [10] 核心问题 - 如何定义高质量CoT语料 [11] - 如何从既有数据中提炼可迁移的「静态经验流」 [11] 创新方法 - 首创「LLM自适应题目难度蒸馏」方法,提升高质量CoT语料生产效率与效果 [2] - 基于模型自适应问题难易度蒸馏CoT语料,显著提升长CoT语料质量 [13] - 方法包含四大创新点:题目难度分级体系、自适应题库构建、难度分布采样策略、批量生成高质量CoT语料 [15][16][17][18] 实验效果 - 在AIME24数学竞赛数据集上,各参数档模型准确率相比传统方法提高6.66%–26.7% [18] - ZMath-32B在MATH500上达到94.6%准确率,超过DeepSeek-Distill-32B(89.8%)和Sky-32B-Preview(90%) [37] - ZMath-14B在AIME24上准确率为50%,远超phi4-14B(30%) [37] - ZCode-32B在Easy、Medium、Hard三个难度级别上分别达到96.06%、75.53%、31.85%,全面优于DeepSeek-Distill-32B [38] 方法论贡献 - 构建系统化CoT数据生成与评估流程,为小参数LLM提升链式推理能力提供新路径 [41] - 验证方法灵活,支持数学推理与代码生成任务 [36] - 仅需约2k条高质量CoT样本即可显著提升性能,降低数据与算力成本 [41] 未来工作 - 结合强化学习挖掘深层推理能力 [42] - 扩展至通信故障诊断等更复杂的跨领域任务 [42]
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
机器之心· 2025-05-04 12:57
超分辨率技术发展 - 超分辨率技术(SR)已成为计算机视觉领域重要挑战,应用场景包括医疗影像、卫星遥感、视频监控和游戏渲染等[1] - 传统深度学习模型(如SRCNN、EDSR)在固定放大倍数表现优异,但无法支持任意放大尺度或在大倍率下出现细节模糊[1] - 扩散模型能恢复高频细节但推理速度慢,难以满足实时需求[1] DiffFNO技术框架 - 由三大核心组件构成:加权傅里叶神经算子(WFNO)、门控融合机制、自适应ODE求解器[2][5] - WFNO通过频域卷积捕获全局信息,可学习频率权重放大高频分量,相比普通FNO在大倍率超分中PSNR提升0.3–0.5 dB[9][10] - 门控融合机制并行引入轻量化注意力算子(AttnNO),动态结合谱域与空域特征[5][12] - 自适应ODE求解器将扩散逆过程转化为确定性ODE,推理步数从1000步降至30步(减少33倍),推理时间从266 ms缩短至141 ms[15] 性能表现 - 在DIV2K等五大数据集上PSNR领先SOTA方法2~4 dB,大倍数放大(×8、×12)优势更显著[17] - 定性结果显示对建筑细节、植物纹理、动物皮毛等高频结构复原出色,边缘锐利且伪影少[20] - 消融研究表明:去除模式重平衡导致PSNR下降0.4 dB,去除AttnNO影响局部纹理,去除ATS会使推理步数回升至千步级[23] 技术突破 - 首次实现支持任意连续倍率(如2.1、11.5倍)的超分辨率重建[2] - 通过神经算子赋能扩散架构,打破"高质量重建"与"快速推理"矛盾[1][23] - 采用全模式保留策略,兼顾图片整体解构与局部细节[18] 学术认可 - 研究成果入选CVPR 2025 Oral报告[2] - 论文已发布于arXiv(编号2411.09911)并提供开源项目主页[7]
DeepSeek开源的文件系统,是如何提升大模型效率的?
机器之心· 2025-05-04 12:57
核心观点 - DeepSeek开源高性能分布式文件系统3FS,旨在解决AI训练和推理中的计算资源与数据访问效率问题 [3] - 3FS在180节点集群中实现6.6 TiB/s聚合读取吞吐量,显著提升大模型训练数据预处理、嵌入向量搜索等任务效率 [3] - 该系统通过开源推动AI基础设施创新,树立行业新设计范式 [4] 分布式文件系统基础 - 分布式文件系统抽象本地化操作,使分散在多台机器的文件表现为单一路径(如`/3fs/stage/notes.txt`) [9] - 具备PB级数据处理能力,提供高吞吐量、容错性和冗余性 [11] - 应用场景包括并行处理框架(如Spark HDFS)、机器学习训练流水线、大型代码存储库等 [12] 3FS架构与组件 核心节点类型 - **Mgmtd**:管理集群配置与节点状态,通过心跳机制监控活动节点 [17][20] - **Meta**:处理文件元数据(inode、DirEntry),使用FoundationDB存储,支持幂等操作 [25][27] - **Storage**:管理物理存储数据块,通过ChunkEngine跟踪元数据 [28][31][33] - **Client**:协调节点通信,执行文件操作发现与数据传输 [19] 关键机制 - **CRAQ协议**:实现强一致性,写入从头部传播至尾部并标记为"干净",读取时优先查询尾部节点 [36][38][41][43][45] - **性能特点**:写入吞吐量受链中最慢节点限制,读取延迟低但受Zipfian工作负载影响 [47][52] - **存储设计**:数据条带化分布,避免节点故障导致吞吐量大幅下降(如5节点集群中单节点故障仅影响1/5吞吐量) [49] 技术对比与潜在问题 - **差异化**:3FS聚焦现代SSD与RDMA带宽利用,但缺乏与单节点系统及其他分布式文件系统的基准对比 [54][55] - **待验证问题**:包括工作负载适配性、延迟管理、瓶颈分析(CPU/内存/磁盘/网络)及FUSE瓶颈争议 [56]
谷歌NotebookLM终于说中文了!这可是最火的大模型播客产品
机器之心· 2025-05-04 12:57
产品功能升级 - NotebookLM新增中文播报功能,支持超过50种语言,显著提升多语言AI知识助手能力[4][8] - 核心功能Audio Overviews可将文本、网页、视频转化为带主持人对话的AI播客,用户渗透率达90%[7][8] - 支持跨语言内容转换(如日文→中文),处理上限为200MB文件或50万token上下文[20] 技术架构与用户体验 - 底层采用Gemini 2.5 Flash模型,虽非最强Pro版本但能精准引用用户上传资料,避免幻觉问题[20][21] - 播客生成效果自然,具备双AI主持人、口语化停顿插话等细节,优于市场同类产品(如微信读书)[15] - 测试案例显示8分钟生成中文播客,能准确提炼导演访谈关键词并对比文化视角差异[12][13][14] 市场拓展计划 - 移动端战略加速,安卓/iOS App将于5月20日Google I/O大会发布,预注册已开放[22] - 新App将集成音频概览与AI对话功能,但高阶服务可能需Gemini Advanced订阅($20/月)[23] - 当前仅限网页端使用,移动浏览器体验欠佳,功能落地性强调效率提升而非流程干扰[21][22]
i人如何在学术会议有效社交?滑铁卢大学教授Gautam Kamath亲授心得
机器之心· 2025-05-03 12:18
学术会议社交策略 - 计算机科学家Gautam Kamath提出在大型学术会议中建立有效社交联系的具体方法,尤其针对内向型研究人员[2][3] - 核心建议包括寻找共同研究兴趣、利用茶歇/海报环节搭讪、加入群聊等,强调"每个人都属于这里"的归属感[6][7] - 特别指出大规模机器学习会议(NeurIPS/ICML/ICLR)与其他类型会议的差异,如理论计算机科学会议通常不设海报环节[7] 社交价值分析 - 科研社交具有双重价值:既带来人际乐趣(如全球旅行交友),也促进职业发展(长期学术合作)[9] - 研究人员职业路径稳定,会议上结识的人可能成为终身同事,共同参与学术服务至65岁退休年龄[9] - 区别于功利性"建立人脉",强调真诚交友对科研群体的重要性[10][11] 具体实施方法 - 初级策略:跟随善于社交的导师引荐,典型场景为导师牵线学生间的学术交流[14] - 自主社交技巧:直接讨论对方论文内容(对同级更有效)、发现共同合著者或导师关系[15][16] - 最佳时机选择:茶歇(63%参会者倾向社交)、海报展示(82%展示者期待交流)、会议午餐等场景[18][22][23] 场景化沟通技巧 - 破冰话术包括"今天下午期待哪个报告"等开放式问题,兼具了解对方兴趣与获取领域动态双重功能[21] - 走廊交流被证实有效,资深研究人员平均每天仅能专注听取1-2场演讲,其余时间适合非正式交流[22] - 会前邮件联络需精准定位潜在合作者,避免盲目群发带来的低响应率(成功率<30%)[23] 后续关系维护 - 会议期间可组织WhatsApp群聊(使用率75%),主动提议聚餐/观光能提升社交影响力[27] - 长期维护方式包括邮件跟进研究讨论(合作转化率15%)、异地访问时约见(维持率62%)等[27] - 建议新人避免全程固定社交圈,应与不同群体互动以扩大接触面(最优接触组数≥3)[23] 特殊场景应对 - 需规避的社交时机:对方匆忙赶路(拒绝率89%)、打电话(干扰度100%)或照顾儿童时[24] - 应对虚假社交的方法包括设定退出机制(85%受访者采用)、与亲密同事恢复能量等[30] - 时差影响下,选择会场附近住宿可使休息效率提升40%,避免FOMO(错失恐惧症)心理[31] 群体特征洞察 - 计算机会议参与者普遍存在社交焦虑,数据显示92%自认"书呆子",但正形成互助性社交文化[32] - A型人格研究者更倾向结构化社交策略,B型人格则偏好灵活方式(适应差异度73%)[33] - 小型会议(<200人)因主题集中度高达90%,社交匹配效率比大型会议(>3000人)高2.3倍[7]
315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
机器之心· 2025-05-03 12:18
编程智能体构建 - 知名Go专家Thorsten Ball用315行代码构建基础编程智能体 强调其易复制性且运行效果良好[1] - 该智能体核心功能包括编辑文件 运行命令 自主纠错 仅需大语言模型 循环结构和足够tokens即可实现[4] - 基础架构仅包含90行关键代码 核心为Run()方法中的对话循环 实现与Claude模型的持续交互[10][11] 技术实现路径 - 采用Anthropic API作为底层支持 通过环境变量ANTHROPIC_API_KEY实现鉴权[6][7] - 工具调用机制采用"条件触发"模式 模型通过特定格式请求工具使用 开发者需执行并返回结果[15][17] - 每个工具需定义名称 描述 JSON schema输入模式和执行函数 例如read_file工具需指定文件路径参数[22][23][24] 功能扩展案例 - 文件读取工具实现包含17行代码 包含工具描述 路径参数定义及jsonschema生成逻辑[32][34] - 智能体能自主判断工具使用场景 如在未明确指令情况下主动调用read_file解答文件内谜题[40] - 系统支持多工具扩展 博客后续演示了list_files和edit_file工具的添加方法[41] 行业应用启示 - 该项目验证了小型智能体的快速构建可行性 400行内代码即可实现基础功能[4] - 采用终端交互模式揭示AI聊天应用底层原理 对话状态维护完全由客户端实现[13] - 模型展现2025年技术趋势预判 具备工具调用意识并能自主补充信息缺口[18]
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法
机器之心· 2025-05-03 12:18
扩散模型技术进展 - 扩散模型已成为文本生成图像的核心引擎,正改变艺术创作、广告设计和社交媒体内容的生产方式 [1] - 个性化单人图像生成已达到惊艳效果,但多人图像生成面临身份特征泄露(ID leakage)和位置控制等技术挑战 [2][3] 现有技术局限性 - OMG方法采用两阶段策略导致风格割裂,生成速度随人数增加显著下降(8人需近2分钟) [4] - InstantFamily通过注意力掩码提升效率,但ID泄露问题未解决,特征重叠风险达32% [4] ID-Patch技术创新 - 首创身份-位置绑定机制,身份还原度达0.751,位置匹配准确率0.958 [12] - 将身份特征转化为RGB图像块嵌入ControlNet,支持与姿态图/深度图等多条件融合 [9][10] - 生成8人合影仅需10秒,比OMG快12倍,比InstantFamily效率提升15% [17] 性能表现 - 在3人以上场景中表现稳健,ID泄露率比传统方法降低63% [14] - 支持同时控制人物位置和动作,文本对齐效果与主流方法相当 [12][16] 应用前景 - 可应用于虚拟合影、广告多角色叙事等场景,支持6种空间条件组合 [21] - 未来可通过多角度图像训练提升面部还原度,实现表情+位置双重控制 [22] 技术实现细节 - 采用ID Patch(位置标记)与ID Embedding(身份细节)双模块设计 [11] - 模型开源发布于Hugging Face平台,支持SDXL框架集成 [11]
阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首
机器之心· 2025-05-03 12:18
本文由阿里云通义点金团队和苏州大学联合完成。 近日,阿里云通义点金团队与苏州大学携手合作,在金融大语言模型领域推出了突破性的创新成果: DianJin-R1 。这款推理增强型金融大模 型,融合了先进的技术和全面的数据支持,专为金融任务而设计。 全面开源的 Reasoning 数据集 : DianJin-R1 的独特亮点之一是其全面开源的 Reasoning 数据集—— DianJin-R1-Data 。该数据集基于通 义点金团队去年在 ACL-2024 上发表的 CFLUE Benchmark 上进行的全面升级,整合了 FinQA 和中国合规检查(CCC)数据集,为金融推 理任务提供了强大的基础。目前已经开源,旨在支持和推动金融领域的研究和应用。 尽管取得了这些改进,最近在金融基准上的评估揭示出,由于需要领域特定的知识、精准的数值推理以及严格遵循监管要求,金融领域的推理仍 然特别具有挑战性。有效应对这些挑战需要专门的推理策略,能够处理结构化的金融信息和开放性问题解决。 为此,我们推出了 DianJin-R1,这是一种融合推理增强监督和强化学习来提高金融推理任务表现的 LLM。 全面开源的 Financial ...