Workflow
机器之心
icon
搜索文档
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
机器之心· 2025-06-17 08:10
核心观点 - Agentic RAG 当前面临优化目标偏离、检索与生成耦合、评价标准不准确等挑战 [8][9][14] - s3 方法通过 Search-Select-Serve 范式和 Gain Beyond RAG 奖励函数,显著提升训练效率和生成效果 [1][16][17] - s3 仅需 2.4k 训练样本,在多个领域问答任务中超越数据规模大百倍的基线模型 [1][22][25] RAG 发展轨迹 - Classic RAG:使用固定 query 和 BM25 等检索器,生成器对结果无反馈 [7] - Pre-RL-Zero Active RAG:引入多轮 query 更新和 prompt 引导检索,如 IRCoT 和 Self-RAG [7] - RL-Zero 阶段:强化学习驱动检索行为,代表方法包括 DeepRetrieval 和 Search-R1 [7] 当前 RL-based Agentic RAG 的挑战 - 优化目标偏离:Exact Match 指标过于苛刻,导致模型优化答案 token 对齐而非搜索行为 [9][10] - 检索与生成耦合:无法区分性能提升来自更好的搜索还是更强的语言生成对齐能力 [11][12] - 评价标准不准确:传统 QA 指标与搜索质量关联有限,search-oriented 指标无法体现信息利用效果 [14] s3 方法设计 - 核心思想:只训练搜索器、冻结生成器,以生成结果提升为奖励 [16] - Gain Beyond RAG:衡量搜索到的上下文相比初始 top-k 检索结果是否带来真实增益 [17] - Generation Accuracy:结合 span 匹配和 LLM 判断,与人类判断一致率达 96.4% [18][32] 训练与优化 - 采用 PPO 进行策略优化,预筛除 naive RAG 能答对的样本,集中训练需要新检索信息的任务 [19][20] - 训练总时间仅需 114 分钟,比 Search-R1 的 3780 分钟大幅减少 [21][22] - 训练样本仅需 2.4k 条,比基线方法减少约 70 倍 [1][22][25] 实验分析 通用 QA 任务 - s3 在五个数据集上实现最优表现,平均准确率优于 Search-R1 和 DeepRetrieval [23][24][25] - 使用不同下游 LLM(Qwen2.5-7B/14B-Instruct、Claude-3-Haiku)均展现稳定性能 [24] 医学 QA 任务 - s3 在医学领域展现强泛化能力,在 MedQA-US、MedMCQA 等数据集上优于基线 [26][27] - 使用不同语料库(Wikipedia2018 和 MedCorp)均保持稳定性能,无过拟合趋势 [27] 消融实验 - 原始问题作为检索起点有助于明确搜索目标,避免策略偏离主题 [31] - 文档选择机制减少输入 token 2.6 至 4.2 倍,提升效率并减少噪声干扰 [31] - s3 设计在准确性、训练效率和推理速度上达到最优平衡 [29][30]
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 08:10
DeepSeek-R1(0528)模型升级与性能表现 - 核心观点:DeepSeek-R1(0528)在开源模型中表现突出,多项基准测试排名靠前,尤其在编程领域与闭源模型性能相当 [1][2][3][4] 模型升级与功能改进 - DeepSeek-R1(0528)为最新升级版本,改进基准测试性能,减少幻觉,支持JSON输出和函数调用 [3] - 模型及权重已公开,采用MIT开源协议 [2][8] LMArena基准测试排名 - 在文本基准测试(Text)中整体排名第6,开放模型中排名第一 [5] - 细分领域表现: - 硬提示词(Hard Prompt)排名第4 - 编程(Coding)排名第2 - 数学(Math)排名第5 - 创意性写作(Creative Writing)排名第6 - 指令遵循(Instruction Following)排名第9 - 更长查询(Longer Query)排名第8 - 多轮对话(Multi-Turn)排名第7 [6] WebDev Arena编程竞赛表现 - 与Gemini-2.5-Pro-Preview-06-05、Claude Opus 4(20250514)并列第一,分数超过Claude Opus 4 [7] - WebDev Arena评分: - Gemini-2.5-Pro-Preview-06-05:1433.16(±13.78/-16.08) - DeepSeek-R1(0528):1408.84(±16.75/-15.04) - Claude Opus 4(20250514):1405.51(±12.56/-12.44) [8] 行业影响与用户反馈 - DeepSeek-R1(0528)在AI编程领域与Claude Opus性能相当,被视为开源AI的关键里程碑 [10] - 模型在完全开放的MIT协议下提供领先性能,可能影响更广泛的编程领域 [10] - 实际用户体验仍需更多验证,以确认是否媲美闭源模型 [10]
「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
机器之心· 2025-06-16 17:10
AI生成内容的真实性挑战 - 一段AI生成的袋鼠登机视频在X平台获得7460万次观看 Instagram点赞量达1104万次 因动物行为逼真引发广泛传播[4][5] - 视频存在多处AI痕迹 包括登机牌文字乱码 人物使用虚构语言 空乘胸牌无名 乘客戒指突然出现等细节漏洞[5][7][9] - 视频来源账号InfiniteUnreality专门制作超现实AI动物内容 如飞机座椅上的河马 登机长颈鹿等[13][16] 用户误判AI内容的原因 - 谷歌Veo3等技术已实现高清自然影像生成 包括眨眼 头部微动作协调及逼真音效 大幅提升欺骗性[18] - 创作者虽标注AI标签但采用隐蔽符号(∞) 多数用户难以识别 二次传播者常省略AI声明[19][21] - 用户玩梗行为加剧误导 如评论"袋鼠日常"等调侃形成真实性印象叠加 少数质疑声被淹没[24] 真实内容被反向误认为AI的案例 - 博主将12年前Tim Minchin真实演唱会视频伪称为Veo3生成 提示词详细描述哥特钢琴家场景[28][29] - 类似操作包括用Vitas真实影像假冒AI生成 显示当前真伪判断已进入双向混淆阶段[32] AI内容鉴伪技术发展 - 谷歌推出SynthID工具 通过数字水印识别Gemini Imagen等自家AI生成内容 抗裁剪/转格式干扰[35][36] - 该技术局限在于仅适用于谷歌系模型 对ChatGPT Midjourney等第三方AI内容无效 且恶意编辑可能破坏水印[37][38]
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 13:16
大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试,Gemini 2.5 Pro以145分位列第一,Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出,总分139分与Qwen3-235B持平,仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著,较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分(73分):MiMo-VL单选题得35分(总分40),多选题和填空题均获满分 [8][10][11] - 解答题部分(77分):MiMo-VL得71分位列第五,超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异:MiMo-VL和Qwen2.5-VL-7B采用截图输入,其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级,在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后,MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著:在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法(MORL),整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens,涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源,包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破:7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新:GUI Grounding任务表现媲美专用模型 [18]
AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
机器之心· 2025-06-16 13:16
AI行业转向应用价值 - AI行业从追求模型性能转向关注应用价值,性能不再是终点[3] - 中国已有超500个大模型通过备案,进入"伍佰时代"[4] - 金融行业成为AI应用的重点领域,信息密度高且场景丰富[5][6] 金融AI应用场景 - 华为推出"盘古金融大模型",蚂蚁集团发布"AntFinGLM"并部署于AI金融管家"蚂小财"[5] - AI可识别投资者情绪波动,预判股票价格[7] - AI能学习市场套路,给出操作建议[8] - AI可快速处理交易数据,识别隐藏风险点[9] - 应用场景包括智能投研、舆情监测、客户服务、交易辅助等[9] AFAC2025金融智能创新大赛 - 大赛由北京大学、复旦大学等20余家机构联合发起,50+位专家担任评委[11] - 采用真实业务数据+典型场景任务模式,累计参赛人数超3万[11] - 设置百万奖金池,优秀选手可获得企业校招offer/面试直通权益[13] - 优秀项目可获得创投名师辅导、政府/产业投资资源对接[14] 大赛赛题设置 - 挑战组赛道包括基金产品长周期申赎预测、多源文件长下文一致性校验等[16] - 基金预测赛题要求权衡预测准确率、模型效率和不同时间跨度适应性[18] - 文档一致性校验赛题旨在打造"AI合规官",解决保险行业文档审核痛点[19] - 长思维链压缩赛题要求AI在保持判断力的同时提高推理效率[20] - 初创组赛道不设限,鼓励创意与开发能力[21] 金融AI创新方向 - 新质生产力方向关注AI如何真正进入产业[22] - 普惠金融方向关注技术如何服务传统金融难触达群体[22] - 金融数据要素方向关注数据融合与价值释放[22] - 养老金融方向关注如何用AI服务多样化养老需求,2025年全球养老资产将达53万亿美元[22]
初赛报名截止倒计时!75万奖池+心动Offer,启元实验室重磅赛事等你来战!
机器之心· 2025-06-16 13:16
编辑:吴昕 大赛报名于 2025年6月25日截止,感兴趣的团队尽快报名参赛。 百舸争流,「启智杯」 初赛火热进行中 随着人工智能技术的不断突破,智能化浪潮正深刻改变千行百业, 中国也迎来人工智能加速应用期。 为推动智能算法从理论创新走向实际落地, 5 月 20 日,启元实验室正式启动「启智杯」算法大赛。 本届大赛围绕「卫星遥感图像鲁棒实例分割」「面向嵌入式平台的无人机对地目标检测」以及「面向多 模态大模型的对抗」三大命题,聚焦鲁棒感知、轻量化部署与对抗防御三大关键技术,旨在引导技术创 新精准对接真实场景,加快算法能力的转化落地与规模化应用。 赛事一经发布,便迅速点燃全国 技术圈 热情,目前已有来自高校、科研院所、科技企业的 500 余支 队伍报名。其中不乏清华、北大、复旦、上交、南大、武大、华科、中科大、哈工大、国防科大、西 交、成电等顶尖高校队伍,以及中科院自动化所、 中科院 空天信息创新研究院等科研机构团队,为赛 事注入强劲科研力量。 目前,赛事正处于初赛的关键节点。三大赛道的选手们正围绕核心任务展开高强度的建模与调优,争分 夺秒攻克技术难点,不断迭代优化模型方案,部分赛题的竞争已经进入白热化阶段。 三大 ...
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心· 2025-06-16 12:04
大型语言模型提示工程研究 核心观点 - 研究首次构建量化Prompt搜索空间复杂度的理论框架 将提示工程从经验性"炼丹"转向科学化 [5][7] - Prompt在CoT推理中扮演"信息选择器"角色 通过精确提取隐藏状态关键信息引导模型推理路径 [7][12][14] - 最优提示设计可使LLM推理性能提升超50% 显著优于无监督CoT和次优监督CoT [29][36] 理论框架突破 - 提出Prompt空间与答案空间的双层搜索模型 Prompt空间决定信息提取策略 答案空间执行具体推理步骤 [20][22] - 定义Prompt空间复杂度公式 取决于隐藏状态总信息量n与单步提取信息量s的比值 [14][17] - 最优提示需满足三要素:明确每步输出内容 聚焦核心s比特信息 编码任务算法蓝图 [28] 实验验证 - 在Modular Arithmetic等任务中 S-CoT准确率达100% 较无CoT提升78个百分点 [27] - 监督CoT在Parity Check任务中准确率98.6% 较次优监督高19.7个百分点 [30] - ToT/GoT等变体仅优化答案空间导航 无法突破底层Prompt模板的性能上限 [32][33] 技术机制解析 - CoT通过文本生成实现递归计算 将高维隐藏状态离散化为可解释中间步骤 [9][15] - Transformer原生架构计算深度有限 无法直接处理复杂多步推理任务 [10] - 错误提示会导致模型提取冗余信息 如S-CoT-SUB准确率骤降至26% [10][29] 行业应用启示 - 研究为AutoPrompt等自动化方法提供理论基准 需同步优化Prompt与答案空间 [4][22] - 证实人类监督在提示设计中的不可替代性 最优模板需结合领域知识 [23][36] - 通用提示如"think step by step"存在性能天花板 需定制化设计 [36]
Muon作者仅用一篇博客,就被OpenAI看中了
机器之心· 2025-06-16 12:04
核心观点 - AI行业对学术影响力的衡量标准正在发生变化,顶级会议论文不再是唯一评价指标,OpenAI等机构更注重实际能力而非传统学术成果[1][2][3] - Hyperbolic CEO和OpenAI成员Keller Jordan的案例表明,通过高质量博客展示研究成果也能获得顶级机构认可[3][8] - Muon优化器通过创新设计显著提升神经网络训练效率,在多项基准测试中打破速度记录[6][12][22] Muon优化器技术突破 性能表现 - 在CIFAR-10数据集上,训练速度从3.3秒提升至2.6秒(准确率保持94%)[22] - FineWeb任务训练速度提升1.35倍,验证损失降至3.28[22] - 1.5B参数Transformer训练时间从13.3小时缩短至10小时(H100集群)[22] - 在774M和1.5B参数规模下持续展现加速效果[22] 核心技术 - 采用牛顿-舒尔茨迭代正交化更新矩阵,5次迭代即可收敛[36][49] - 优化后系数(3.4445,4.7750,2.0315)实现x=0处的快速收敛[47] - FLOP开销低于1%,适用于大规模训练(如Llama 405B仅增加0.5%开销)[56][59] - 与Shampoo优化器相比,避免四次方根求逆的高计算成本[63] 应用设计 - 需配合AdamW优化输入/输出层参数[66] - 对Transformer的QKV参数分别处理效果更佳[69] - 默认采用Nesterov动量加速收敛[68] - 支持bfloat16精度运行,避免float32的数值稳定性问题[36] 行业影响 - OpenAI等机构的人才选拔转向能力导向,打破传统论文发表壁垒[8] - 月之暗面团队通过引入AdamW权重衰减机制进一步优化Muon性能[78] - Essential AI的论文证实Muon能扩展帕累托边界,提升大规模训练经济性[81] - 行业需要建立更严格的优化器评估标准,避免基线调优不足的研究缺陷[72][74]
放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
机器之心· 2025-06-15 12:43
核心观点 - 研究者James Campbell放弃CMU博士学位加入OpenAI 研究重心为AGI和ChatGPT的记忆与人格 认为记忆将从根本上改变人类与机器智能的关系 [2] - OpenAI联合创始人Greg Brockman对其加入表示欢迎 社媒互动显示双方早有合作意向 [3][9][10] - 该事件引发行业关注 因其在LLM可解释性、AI安全等领域的突出研究成果 [4][6] 人物背景 - 教育经历:康奈尔大学数学与计算机科学本科 CMU计算机科学博士肄业(2024年入学) [4][8] - 学术成果: - 两篇核心论文作者:《Representation Engineering》(自上而下AI透明性方法)和《Localizing Lying in Llama》(通过提示探查理解LLM不诚实指令) [4][5][7] - 研究领域覆盖LLM可解释性、对抗鲁棒性、计算神经科学及深度学习理论 [4][6] - 创业项目: - ProctorAI(多模态工作状态监视系统) 采用Claude 3.5 Sonnet/GPT-4o等模型实时检测用户注意力 [6][7] - 参与创建AI-Timelineorg和AidanBench(AI模型基准测试) [6] 研究方向 - 在OpenAI将重点研究AGI实现路径及ChatGPT的记忆功能 认为记忆注入将改变人机交互范式 [2] - 此前提出ChatGPT记忆研究需关注幻觉问题 指出上下文污染和模式崩溃现象未被充分研究 [11] - 博士阶段原计划研究通用智能构成要素及其安全性保障 [8] 行业影响 - 人才流动反映头部AI公司对基础研究人才的争夺加剧 [2][9] - ProctorAI项目展示多模态大模型在行为监控场景的商业化潜力 [6] - 其学术成果为行业提供LLM可解释性、安全性评估等关键方法论 [4][5]
复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
机器之心· 2025-06-15 12:40
AGI发展路径 - 大模型演进分为三幕:第一幕是模型规模化胜利,通过堆叠数据与参数实现通用任务跃升,代表模型包括ChatGPT、MOSS、Qwen [6] - 第二幕是后训练优化探索,通过强化学习、工具调用、思维链等技术提升复杂问题决策能力,代表成果包括GPT o1/o3、DeepSeek-R1、AnyGPT [6] - 第三幕Context Scaling聚焦情境理解,旨在让AI适应复杂多变情境并捕获"暗知识",实现模糊环境中的合理判断 [7][8] Context Scaling核心价值 - Context是多维动态信息结构,包含时空信息、参与者状态、文化规则等未明示的语境暗示 [9] - 关键能力是捕获"暗知识"(如社交暗示、文化差异判断),解决现有技术对模糊任务描述的局限性 [11] - 对AI安全发展至关重要,通过情境理解使AI做出符合人类价值观的自主判断(如规避回形针悖论) [12] 技术实现支柱 - 强交互性:要求AI具备社交智能、文化适应、动态调整能力,需从多模态协作中理解情绪状态和未说出口的期望 [14][15] - 具身性:智能体需具备虚拟或现实环境中的主体性,通过感知-行动闭环实现情境学习 [16] - 拟人化:需深度理解人类情感模式与文化敏感性,在参数固定情况下通过Context积累实现持续能力提升 [17] 技术协同与挑战 - Context Scaling与Test-Time Scaling形成互补,前者提升输入质量后者优化计算效率 [18] - 为强化学习提供新环境定义,将简单状态-动作循环升级为含丰富情境的交互空间 [20] - 面临三大技术挑战:Transformer架构重构、学习范式向交互式持续学习转变、复杂情境数据的生成方法创新 [23] 行业影响 - 将推理增强、多模态融合等技术统一于"情境理解"目标,可能成为通向AGI的关键路径 [22] - 代表企业包括OpenAI(o系列数学推理)、DeepSeek(GRPO强化学习突破)等探索不同扩展路径的机构 [2] - 复旦大学邱锡鹏教授提出该理论框架,指出行业需突破已有路径微调,解决"意识到但未表达"的核心问题 [22]