Workflow
机器之心
icon
搜索文档
成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力
机器之心· 2025-05-29 12:53
核心观点 - 提出ZeroSearch框架 无需真实搜索即可激活大语言模型搜索能力 通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤 提升推理路径清晰度 格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题 并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量 通过指数函数控制Noisy文档生成概率 实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案 模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎 避免传统方法频繁调用API的高成本 公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术 仅对策略模型自生成token计算损失 防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段:初期缓慢提升难度学习基础逻辑 中期快速提升强化推理 后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线:ZeroSearch-base达40.93分 超过Search-R1-base的39.51分[20] - 参数量扩展性:3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势 单跳问答任务NQ最高43.6分 多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索 波动更小 最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分 超过Prompt-7B的31.39分 验证微调必要性[28] - 交互轮数呈现U型变化:初期冗余调用导致高轮数 中期效率提升轮数下降 后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练 验证系统性能力提升路径的有效性[36]
刚刚,AI科学家Zochi在ACL「博士毕业」,Beta测试今日上线
机器之心· 2025-05-29 12:53
核心观点 - Intology的AI科学家Zochi的论文被顶级会议ACL主会录用,成为首个独立通过A*级别科学会议同行评审的人工智能系统 [1] - Zochi的论文《Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search》展示了其在多轮越狱攻击方法上的创新,成功率达到GPT-3.5-turbo 100%和GPT-4 97% [8][11] - Zochi的自主性体现在从研究方向确定到论文撰写的全流程,人类仅参与图表和格式修订 [8] 论文与研究成果 - 论文标题为《Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search》,前期版本《Siege》曾被ICLR研讨会接收 [8] - 方法基于树搜索,通过并行探索对抗性提示分支,集成跨分支学习和部分合规跟踪功能 [9] - 评估显示Tempest在较少查询次数下达到更高成功率,提示当前语言模型安全机制的潜在不足 [11] 学术影响力与争议 - ACL等顶级会议主会议录用率仅20%,远低于研讨会60-70%的录用率,Zochi的录用标志着其达到博士级别研究水平 [3][5] - Zochi的论文在自动审稿人评估中平均得分7.67分,远超其他AI系统生成的论文(3-4分) [14] - Intology因未提前向ICLR通报AI生成论文而陷入批评风波,被指滥用同行评审过程 [16][17] Zochi的技术能力 - 提出CS-ReFT方法解决模型微调中的跨技能干扰问题,仅用0.0098%参数实现93.94%的AlpacaEval胜率 [21] - 开发EGNN-Fusion用于计算生物学,参数数量减少95%的同时保持顶尖性能 [21] - 在MLE-Bench评估中,80%任务超过人类表现中位数,50%任务获奖牌 [23] 行业比较 - 与其他AI系统相比,Zochi论文质量显著更高,自动审稿人评分达8、8、7,远超录用门槛6分 [23] - 基线系统专注于受限问题,而Zochi致力于开放式挑战并提出最先进方法 [23]
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架
机器之心· 2025-05-29 11:04
核心观点 - 中国人民大学高瓴人工智能学院与值得买科技 AI 团队提出了一种名为 JointDiT 的生成框架,首次实现从静态图像直接生成同步音视频内容的技术突破 [1][6][11] - 该技术解决了传统多模态生成中音视频语义错位与节奏失调的问题,通过联合注意力机制和联合引导机制实现高质量同步生成 [8][15][17] - 在 CVPR 2025 会议上发表的实验数据显示,JointDiT 在视频质量(FVD 326)、音频质量(FAD 23.9)和音视频一致性(AV-Align 1.296)等核心指标上全面领先现有方法 [19][20] 技术背景 - 人类感知本质上是多模态的,但现有 AI 生成技术长期将视觉与听觉拆分为独立研究路径 [6] - 谷歌 Veo 3 模型已开始探索视频与音频同步生成,而 JointDiT 首次系统定义了图像到有声视频(I2SV)这一新任务 [6][11] - 传统拼接方法(如 SVD+Im2Wav)存在语义错位问题,例如视频中小狗未张嘴却配汪汪叫声 [8][10] 技术方案 - **架构设计**:通过解构预训练的音视频扩散模型,在专家层引入 Joint Block 实现跨模态交互,保留独立输入输出层处理模态差异 [13] - **感知式联合注意力**:采用模态特定的 Query-Key-Value 映射,解决音视频在时间/空间/频率维度的异构差异 [15] - **联合引导机制**:提出 JointCFG* 技术,在强化图像条件引导的同时增强跨模态交互,提升语义一致性与时间同步性 [17] 实验结果 - **定量数据**:在 GreatestHits 数据集上,JointDiT 的 FVD(173)和 FAD(1.08)显著优于 SVD+AudioLDM(FVD 441,FAD 26.65)等对比方法 [20] - **用户评价**:在视频质量、音频质量、语义一致性等五项主观评分中均排名第一,领先第二名近 20% [21] - **案例表现**:保龄球击瓶案例中,生成视频精确模拟撞击声与瓶子倾倒的连锁声响,视听延迟符合物理规律 [25][26] 应用前景 - 可应用于娱乐内容创作、影视制作等领域,例如将静态剧照自动转化为带环境音效的动态预告片 [28] - 为构建多模态通用模型(图像/文本/音频/视频四模态联合)提供技术基础,未来或实现"一张照片讲述完整故事" [28][29] - 项目代码与模型将近期公开,官方 Demo 页已展示技术细节与案例 [30]
DeepSeek-R1今天一次「小更新」,颠覆了大模型格局,网友:尽快放R2
机器之心· 2025-05-29 11:04
机器之心报道 昨晚,DeepSeek 官方宣布其 R1 推理模型升级到了最新版本(0528),并在今天凌晨公开了模型及权重。 编辑:泽南、Panda 超出所有人的期待。 千呼万唤始出来,DeepSeek 迎来了推理模型更新。 HuggingFace 链接:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 模型文件上传时间是凌晨 1 点,不知 DeepSeek 工程师们是不是加班到了最后一刻。也有网友表示,这回又在端午节假期前发新模型,简直比放假通知还靠谱。 这次更新的升级版 R1 参数量高达 6850 亿,体量巨大,虽然开源了出来,但大多数人只能围观。如果「满血版」不进行蒸馏,是肯定无法在消费级硬件上本地运 行的。 不过这种不说话直接放链接的态度还是引来了网友们的普遍欢迎。 根据 DeepSeek 的小范围通知,更新后的 R1 版本采用 MIT 许可证,这意味着它可以用于商业用途,从版本号看来这是一个「小」升级,不过人们大量实测后发 现,新版大模型的性能提升颇为明显。 我们也能在新版 DeepSeek-R1 模型的配置文件中看到更多但并不出人意料的信息,包 ...
相约美国田纳西,CVPR 2025顶会饭局报名了!
机器之心· 2025-05-28 18:00
AI领域发展动态 - AI领域以惊人速度迭代,不断刷新智能边界,新研究、新应用不断涌现 [1] - Google I/O大会发布全系列AI产品,包括大模型、编程工具、视频生成、图像生成模型等 [1] - Anthropic推出Claude 4系列大模型,代码能力重大升级,上述进展均在一周内发生 [1] CVPR会议相关数据 - CVPR 2025共接收13008份投稿,最终接收2878篇论文,整体接收率为22.1% [2] - CVPR是前沿研究竞技场和全球AI人才交流平台 [3] 云帆・CVPR 2025 AI Talent Meetup活动 - 活动由机器之心联合上海人工智能实验室、东方菁汇、全球高校人工智能学术联盟共同举办 [3] - 活动设置顶尖人才SHOW、互动体验、学术主题报告、机构宣讲、企业poster展示、晚宴交流等环节 [6] - 活动规模200人,时间定于美国时间6月11日16:00-20:30,地点为美国田纳西州纳什维尔・音乐城会议中心周边 [7] - 报名截止时间为北京时间2025年6月9日17:00 [5] 机器之心过往活动 - 成功举办云帆・ICLR 2025 AI Talent Meetup、CVPR 2024论文分享会、NeurIPS 2024论文分享会、ACL 2024 AI Talent晚宴等活动 [10] - 活动助力合作伙伴吸纳人才并提升品牌影响力 [10]
准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了
机器之心· 2025-05-28 18:00
代码定位痛点 - 传统代码定位方法存在关键词匹配粗糙、直接丢给LLM低效、Agent盲目遍历笨拙三大缺陷[2] - 核心挑战在于自然语言问题描述与需修改代码位置之间存在多层调用关系(如XSS漏洞需修改深层验证函数)[2] - 代码定位需跨越语义差异与结构距离,要求模型具备跨层级推理能力[4] LocAgent技术架构 - 将代码库解析为包含文件/类/函数关系的异构图,提供图原语接口支持LLM高效探索[9] - 基于AST构建异构有向图显性化隐式依赖,使调用链上的模块在图结构上邻近[12] - 提供SearchEntity/RetrieveEntity/TraverseGraph三大工具接口实现多跳推理[13][14][15] 性能表现 - 在SWE-Bench Lite基准上文件级Acc@5达92.7%,函数级Acc@10达77.37%,全面超越基线方法[22] - 开源模型Qwen2.5-7B微调版成本仅$0.05,性能接近GPT-4o;32B版成本节省86%逼近Claude-3.5[26][27] - 在Loc-Bench四类任务中文件级平均准确率81.1%,函数级46.9%,优于SWE-Agent+Claude-3.5组合[26] 应用价值 - 代码定位准确率提升直接带动GitHub问题自动修复成功率提高12%[30] - 处理高难度任务(hop≥2)时性能下降幅度显著小于传统检索方法,展现强鲁棒性[31] - 采用Qwen2.5-7B时成本效益比达13.2,是商用模型的10倍以上[33][34] 技术范式创新 - 实现从暴力计算到智能决策的转变,通过结构化索引分解复杂问题[37] - 开创agentic retrieval范式,让AI自主决策检索策略而非依赖预设规则[37] - 结构化索引+LLM智能体协同设计可能成为未来AI工程标准模式[37]
AI产品千篇一律?去Google Labs,淘下一个AI爆款
机器之心· 2025-05-28 18:00
Google Labs平台 - Google Labs是谷歌推出的实验性平台,用于展示和测试正在开发中的新技术和产品原型,用户可提前体验未来可能发布的功能或服务 [5] - 平台分为五大类别:创造、学习、发展、玩和I/O新品,涵盖多种创新AI工具 [6] - 该平台曾于2002年推出并孵化出Gmail、Google Maps等产品,2011年关闭后于2023年重启,聚焦生成式AI、搜索和协作工具领域 [22] National Gallery Mixtape工具 - 由伦敦国家美术馆与Google Arts & Culture合作开发,可将200幅世界名画转化为音乐作品 [12][13] - 用户最多选择6幅画作,Gemini多模态AI模型分析画作色彩、主题、情感等元素,MusicFX DJ生成配乐 [15] - 提供Scores和Mixer两种模式,支持调整音乐风格、乐器、心情标签及画作叠加混音 [17][20] 其他创新AI工具 - Whisk可通过上传主题图、场景图和风格图混搭生成创意图像 [8] - MusicFX能根据提示词生成最长70秒音乐 [8] - Illuminate可将学术论文转为可收听音频 [8] - NotebookLM和Learn About分别为AI播客和AI家教工具 [8] 行业趋势 - AI产品同质化严重,但谷歌通过Google Labs持续输出脑洞大开的创新应用 [21][22] - 生成式AI推动谷歌重启Labs平台,聚焦前沿技术实验与孵化 [22][23]
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
机器之心· 2025-05-28 16:09
混合专家模型技术革新 - 华为盘古团队提出分组混合专家模型(MoGE),通过分组机制解决传统MoE专家激活频次不均衡问题,在4K昇腾集群实现高效训练 [2] - MoGE架构下盘古Pro MoE模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2硬件上分别实现321 tokens/s和1528 tokens/s的推理速度 [2] - 分组均衡路由技术强制每个token在预定义专家组内激活等量专家,确保跨设备负载均衡,组间负载差异为0 [12][21] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获59分,千亿参数以内模型并列国内第一,16B激活参数媲美更大规模模型 [3] - 在MMLU-Pro(63.5 EM)、C-Eval(90.6 EM)、HumanEval(63.7 Pass@1)等基准测试中超越同规模稠密模型和MoE模型 [27] - 对比DeepSeek-V2的专家负载集中现象(最高30% token量),盘古Pro MoE实现各专家12.5% token处理的均匀分布 [29] 昇腾硬件协同优化 - 采用分层仿真策略优化昇腾300I Duo/800I A2平台的算子级编译,通过TFLOPS、内存带宽等硬件参数关联搜索最优并行策略 [19][22] - 结合MTP解码和多token优化,昇腾300I Duo单卡吞吐从201 tokens/s提升至321 tokens/s,800I A2平台高并发下达1528 tokens/s [24] - 深度融合昇腾硬件加速架构的并行特性,实现从算法设计到系统落地的全栈创新 [6] 行业应用价值 - 动态负载均衡技术有效降低云端推理成本,支持高并发实时场景,轻量化引擎适配昇腾芯片赋能百亿级模型部署 [31] - 推动大模型从参数竞赛转向实效主义,为企业级应用提供高效普惠的智能底座 [30] - 在代码生成、数学推理等复杂任务中展现同规模最优性能,为AI工业化部署提供新范式 [7][28]
SIGGRAPH 2025 | CLR-Wire:曲线框可生成?可交互?深大VCC带你见证魔法
机器之心· 2025-05-28 16:09
深圳大学黄惠团队独立推出 CLR-Wire:连续潜空间驱动的三维曲线框生成方法,首次实现了将复杂的三维曲线框结构统一编码到连续的潜空间中,解决了传统方 法难以同时有效捕捉线框几何和拓扑信息的难题。这一创新技术能够实现复杂三维结构的高效生成与平滑插值,在工业设计、三维重建及内容创作等领域具有广 泛的实际应用前景。第一作者为深圳大学可视计算研究中心 (VCC) 博士研究生马雪奇,合作者刘奕林、高天龙、黄期瑞均为 VCC 研究生。CLR-Wire 相关代码已 全面开源,欢迎大家试用和建议。 在计算机图形学的世界里,当我们谈论三维线框插补时,我们在讨论些什么? 或许,是如何让一个圆柱平滑地演变为一个精致的碟状结构;或许,是如何巧妙地将一个醒酒器无缝过渡为圆润的花瓶;甚至,是如何从一栋带有屋顶的建筑 物,逐渐变化为简单明朗的方形结构,以及诸如漏斗或盘状结构之间的自由形态过渡。 该工作提出了 CLR-Wire,首先,通过多层交叉注意力将神经参数化曲线及其离散拓扑关系联合编码为定长潜向量,并借助变分自编码器构建连续的潜空间分布; 随后,采用流匹配方法实现从高斯噪声到完整线框的生成,并支持无条件生成以及基于点云、图像的条件生 ...
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 16:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]