Workflow
反思
icon
搜索文档
如何教AI学会反思?
虎嗅· 2025-07-09 15:57
论文背景 - 论文标题为《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》,由人工智能创业公司Writer的研究团队撰写,联合作者共8人[5][3] - 论文内容简洁明了,仅16页,不同于传统学术论文的复杂风格[4] - 该论文在Hugging Face平台的"每日论文"栏目中排名6月第三位[1][3] 核心研究方法 - 提出三步骤方法让AI从错误中学习:反思、重试、奖励[5][11][12][13] - 与传统方法不同,不依赖更多数据或重新训练,而是教会AI自我改进的能力[8][9][10] - 奖励机制针对AI的反思过程而非最终答案,强化有效的反思方式[13][14] - 该方法使AI获得通用的自我纠错和提升能力,而非死记硬背[15] 实验验证 - 在函数调用任务中,15亿参数模型准确率从32.6%提升至52.9%[20][21] - 在数学方程求解任务中,同一模型准确率从6%提升至45%[23][24][25] - 经过训练的小模型表现超过未训练的大模型:70亿参数模型优于720亿参数模型[27][26] - 证明优化训练方式可使小模型具备强大能力,节省成本[29] 实际应用 - 用户可通过引导AI反思来提升回答质量,如指出错误并要求分析原因[31][32] - 在商业分析等场景中,可提供明确反思方向如"忽略市场风险因素"[33] - 多模型比较方法:让一个AI评估其他AI的回答,再改进自身回答[35][36][37][38] - 通过持续追问和挑战可激发AI产生新思路和更优解决方案[38][39]
日本应吸取侵略战争教训(国际论坛·以史为鉴 共护和平)
人民日报· 2025-07-07 06:52
作为一名日本近代史研究者,我撰写了多部与中国人民抗日战争有关的著作,其中《何谓中日战争?》 《近代日本政军关系研究——日本发动侵华战争的历史渊源》等已在中国翻译出版。我的研究引用了许 多中文文献资料和文章。根据可靠的文件和资料调查历史事件,是进一步还原侵略战争真相的必要工 作。中国的研究者在努力研究战争问题,而一些日本民众却对这些事件兴趣不大,这也是日本政府和日 本人民对侵略战争缺乏了解的原因。 日本在侵华战争中耗费了大量兵力和军费,这是日本战败的决定性原因。今年是具有特殊历史意义的年 份,希望看到日本政府在吸取侵略战争教训、促进日中友好方面展现担当 今年是中国人民抗日战争暨世界反法西斯战争胜利80周年,日本应借此机会认真反思历史。日本在侵华 战争中耗费了大量兵力和军费,这是日本战败的决定性原因。我对中国人民的勇气和功绩表达敬意。 1995年8月15日,时任日本首相村山富市发表"村山谈话",在日本国内和国际社会都得到了高度评 价。"村山谈话"主张铭记日本的战争责任,倡导独立自主的外交政策,郑重主张日本宪法中规定的和平 理念。然而,一段时间以来,日本政府并没有以"村山谈话"为基础施政。今年是具有特殊历史意义的年 ...
AI操作有了“紧急刹车”!通义&自动化所AI决策诊断模型,GUI智能体纠错正确率SOTA
量子位· 2025-06-17 15:41
核心观点 - 阿里通义实验室联合中科院自动化所推出GUI-Critic-R1模型,旨在通过操作前反思机制提升GUI智能体的决策准确性,避免错误操作和不可逆损失[1][8][16] - 该模型在三个典型错误案例中成功纠正智能体行为:文件检索误判(Joplin应用)、冗余操作(费用删除流程)和重复指令(视频拍摄)[2][4][6] - 动态环境下单步错误会产生连锁反应,因此需要比离线任务更高的单步准确率(理论提升14-52%)[8][35][36] 技术架构 数据采集 - 构建6k条链式思维注释的GUI-Critic-Train数据集,采用推理引导策略确保质量[16][22] - 数据生成分两阶段:先采集GUI操作原始数据(含正确决策),再通过开源MLLM生成错误样本并由GPT-4o清洗[23] - 采用渐进式CoT范式生成反思数据,包含思考过程、评分和建议三要素[24] 模型训练 - 强化微调冷启动阶段从11K条人类注释中学习基础GUI操作知识[26][27] - 创新性提出建议感知的组内相对策略优化(S-GRPO),通过格式正确性(λ1=0.3)和建议反馈(λ2=0.7)的加权函数提升泛化能力[28][30] - 训练集包含移动端(85%)和网页端(15%)多场景数据,其中含CoT注释的数据占63%[31][33] 性能验证 静态测试 - 在GUI-Critic-Test三大场景超越主流模型:移动指令泛化(GUI-I)准确率69.2%(较Qwen2.5-VL-7B高14.32%)、移动场景泛化(GUI-S)58.77%、网页泛化(GUI-W)63.08%[35][36] - 建议准确率显著领先:GUI-I场景达52.43%(Claude-3.5为40.71%),跨应用程序场景保持47.37%准确率[36] 动态测试 - 在AndroidWorld基准测试中取得最高任务成功率,且平均操作步骤减少23%[38] - 网页端操作逻辑迁移验证成功,尽管存在滑动方向等交互差异,仍保持60.05%的跨平台准确率[34][36] 应用价值 - 可集成至现有MLLM系统(如GPT-4o)作为安全层,防止38-46%的典型GUI操作错误[1][36] - 支持移动端(Joplin/费用管理)和网页端(视频拍摄)的多模态任务,错误检测响应时间缩短至毫秒级[2][4][6][34]
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位· 2025-06-11 16:07
端到端多模态GUI智能体有了"自我反思"能力!南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展, 端到端GUI智能体 在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去 点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改 正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection 的核心思想是在智能体的各个训练阶段引入 "反思与纠错"机制 ,这一机制贯穿 预训练、监督微调和在线训练 全过程,模 拟了人类 "犯错→反思→重试" 的认知过程。 1. GUI预训练阶段: GUI-Reflection 团队 投稿 量子位 | 公众号 QbitAI 提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打 下基础。 2. 离线监督微调阶段: 构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的 ...
侵华日军细菌战添新证:《抗战时期细菌战与防疫战文献集》出版
新华社· 2025-06-10 16:23
文献集出版背景 - 南京大学联合海内外学者历时8年整理编纂11卷《抗战时期细菌战与防疫战文献集》[1] - 文献集由江苏人民出版社正式出版[1] - 依托国家社科基金抗日战争研究专项工程、国家出版基金等多项国家级支持[4] 文献集内容结构 - 分为史料丛编和调研报告两部分[3] - 立足对日本在华细菌战核心部队、重要事件及关键问题进行史实还原[3] - 总字数约360万字[4] 史料来源与价值 - 收录中、日、俄、美等多国档案馆、图书馆馆藏资料[3] - 首次曝光大量一手日方史料,包括亚洲历史资料中心、日本防卫省防卫研究所等机构收藏的档案[3] - 完整披露荣字1644部队在南京等地从事人体实验的暴行[3] - 收录冈字9420部队相关史料,揭露其在东南亚从事细菌武器研制的内幕[3] - 涵盖台湾岛内机构所藏国民政府防疫档案[3] - 包含俄安全局新解密档案等俄文史料[3] - 收录英国、澳大利亚等国家档案馆藏有关日本战争罪行的档案[3] 学术意义 - 形成"加害—受害—第三方见证"的完整证据链条[4] - 对日本右翼势力否认细菌战的言论构成直接反驳[4] - 为构建中国抗战史学自主话语体系提供扎实基础[4] - 体现中国学界在战争罪行实证研究领域的积极探索[4] - 跨档案、跨国界的史料整理模式可为全球战争记忆与历史正义研究提供范式参考[4] 研究团队 - 汇聚中、日、新加坡等国家和地区23位学者[4] - 50余名高校学生参与档案整理[4] - 课题组及首席专家为南京大学教授张宪文[4]
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
量子位· 2025-06-06 21:45
多模态推理模型的挑战与突破 - 在文本推理领域,"慢思考"模型(如GPT-o1、DeepSeek-R1)凭借显式反思机制,在数学和科学任务上显著优于"快思考"模型(如GPT-4o)[1] - 但在多模态推理场景中,这些模型表现平平,甚至被Qwen2.5-VL-72B超越,在MathVista、MathVerse等基准上与快思考模型持平[1] 多模态慢思考的两大核心障碍 - **优势消失问题**:在GRPO算法训练多模态模型时,随着训练推进,零优势信号样本比例显著增加,导致有效训练样本锐减[3][10] - **反思惰性问题**:现有视觉语言模型(VLM)受限于视觉模态特性,倾向于"快思考",缺乏主动审视与修正能力[5][6] VL-Rethinker的创新解决方案 - **优势样本回放(SSR)**:动态存储非零优势样本,优先复用绝对优势值较大的关键样本,提升训练效率[19][23] - **强制反思机制**:通过追加"反思触发"文本强制模型二次推理,引导多样化反思行为,已在Pixel Reasoner、SkyR1V2中应用[21][25] 训练数据集与模型性能 - 研究团队精编ViRL39K数据集,包含38,870条高质量多模态推理问题,覆盖八大主题(逻辑推理、图表推理等)[7][8][9] - VL-Rethinker-72B在MathVista上提升5.6%(达80.4%),MathVerse提升6.3%(达63.5%),超越GPT-o1(73.4%、57.0%)[27][29] - 在多学科测试中,MMMU-Pro成绩55.9%,EMMA成绩38.5%,接近OpenAI-o1水平[28]
生死战告负,国足无缘美加墨世界杯
中国新闻网· 2025-06-06 09:10
原标题:生死战告负,国足无缘美加墨世界杯 当地时间5日晚,印尼雅加达格罗拉蓬卡诺体育场涌入近八万球迷,中国男足未能攻破印尼队魔鬼 主场,以0:1告负的同时,提前一轮无缘2026美加墨世界杯。 于国足而言,这是一场不容有失的生死战。前8轮过后,国足仅积6分小组垫底,印尼队领先中国队 3分且多7个净胜球。若能在主场击败国足,印尼队将基本锁定小组前四;而国足此役打平或者告负,都 将无缘美加墨世界杯,最后一场在重庆主场与巴林队的对决也将失去实际意义。 冲击世界杯的征程再一次以失败告终,国足的失利不只是赛场上的细节。当印尼队通过归化和青训 双轨并进从而脱胎换骨时,中国足球能够从这个亚洲对手身上反思和复盘的细节就有很多。 最后一场国足与巴林队的对决将变为荣誉之战。18强赛落幕后,中国足球希望又在何处?赛后被问 及这个问题时,伊万科维奇说,没能率队晋级世界杯,教练有很大责任,但年轻球员为球队注入了动 力,从他们的比赛内容中能看到很好的未来。 尽管印尼队世界排名远低于中国队,历史交手纪录上国足也明显占优,但出现在18强赛上的印尼队 已今非昔比。近年来通过归化多名欧洲球员,印尼队已显见欧洲足球风格,他们主场2:0战胜沙特队, ...
人生七大底层逻辑,不要搞反了
洞见· 2025-06-05 18:28
洞见 ( DJ00123987 ) —— 不一样的观点,不一样的故事, 3000 万人订阅的微信大号。点击标题下 蓝字 " 洞见 " 关注,我们将为您提供有价值、有意思的延伸阅读。 见微以知萌,见端以知末。 ♬ 点上方播放按钮可收听洞见主播亚楠朗读音频 芒格曾说:"每件事表象之下必有其深层次的结构和逻辑。就如同深掘土壤,才能找到那滋养 万物的根脉。" 有人做事能够事半功倍,有人却事倍功半。 就是因为前者能够在更短的时间内看清事物的底层逻辑,而后者则不假思索,直接开始蛮干。 错位的做事逻辑,会像一道道阻碍,让你在追逐目标的道路上渐行渐远。 正确的顺序,才是成事的关键,以下七大人生底层逻辑千万别搞反了。 01 作者: 洞见moon 1853年,美国掀起一股淘金热。 旧金山几乎所有企业都停止了营业,海员抛弃了船只,工人扔下工具……甚至连传教士也离开 了布道所,涌向金矿发源地。 二是 淘金工作非常辛苦,人们的衣服经常被磨破,苦不堪言。 于是他果断放弃淘金,转而收购了一批结实的丹宁布和帆布,制成专门的淘金工作服,赚了一 大笔钱。 这位年轻人就是李维·斯特劳斯,他靠着淘金热发家,打造出李维斯牛仔裤商业帝国。 作家蔡磊垒说 ...
看似无害的提问,也能偷走RAG系统的记忆——IKEA:隐蔽高效的数据提取攻击新范式
机器之心· 2025-06-04 17:22
研究背景 - 大语言模型(LLMs)面临无法直接访问最新或领域特定信息的问题,RAG系统通过接入外部知识库解决这一痛点[5] - RAG系统知识库常包含私有或敏感信息,传统攻击方式依赖明显的恶意输入(如提示注入/越狱攻击),易被防御系统识别[5] 攻击方法创新 - 提出隐式知识提取攻击(IKEA),通过自然常规查询高效引导系统暴露私有信息,无需依赖异常指令[1] - IKEA攻击流程具备高度自然性与隐蔽性,核心步骤包括构建锚点概念、生成自然语言问题、优化攻击路径[8] - 采用两项关键机制:经验反思采样(动态筛选有效锚点概念)和可信域有向变异(定向扩展未覆盖知识区域)[17] 技术实现细节 - 锚点概念数据库初始化采用语义相似度阈值筛选,公式为$D_{\rm march}=\{w\in{\rm Gen}_{\rm concept}(w_{\rm logic})|s(w,w_{\rm logic})\geq\theta_{\rm logic}\}$[11] - 经验反思采样通过历史记录评估无效锚点,惩罚得分函数包含域外样本和不相关样本判断标准[14][19] - 可信域有向变异(TRDM)在语义邻域内搜索新锚点词,定义变异停止函数$F_{\mathrm{stop}}$控制探索边界[21] 实验结果 - 在医疗/小说/百科三类数据集测试中,IKEA在无防御/输入检测/输出过滤场景下平均提取效率达91%,攻击成功率96%[23] - 双重防御下提取的知识使问答准确率提升至92-95%(医疗93%/小说94%/百科92%),显著优于基线方法[28] - 构建的替代RAG系统在Pokémon数据集上评估显示,IKEA提取知识在MCQ/QA任务表现接近原始知识库[28] 研究意义 - 揭示RAG系统在表面正常交互下的严重隐私风险,提出首个不依赖异常指令的黑盒攻击范式[1][29] - 攻击方法对现有防御机制具有强鲁棒性,为后续防御体系设计提供关键参考[29]
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
量子位· 2025-06-02 12:13
BARL团队 投稿 量子位 | 公众号 QbitAI 推理模型常常表现出类似自我反思的行为,但问题是—— 这些行为是否真的能有效探索新策略呢? 对此,西北大学与Google、谷歌DeepMind团队质疑了传统强化学习与反思的关系,并提出了贝叶斯自适应的强化学习方法, 首次解释了为 什么、如何、以及何时应该反思并探索新策略 。 通过对比分别使用传统强化学习和新方法训练的模型,研究人员发现: 在完成"模型需要在3步内输出三个连续相同字符"这一合成任务中,传统RL往往一条路走到黑, 而新方法懂得排除无效假设,适时切换新策 略。 并且在数学推理任务中, 新方法在大部分基准和模型上都取得了更高的准确率,同时为解出题目所耗费的token数量更少。 更有意思的是,团队发现反思次数并非决定性能的唯一因素,一些基础模型往往出现很多徒劳的反思,并没有带来实质的信息增益。 下面详细展开。 贝叶斯自适应强化学习激发反思性探索 直观来说,测试时试错的步骤只有当 能带来信息增益 的情况下才有益,然而人们并没有在RL训练中告诉模型试错和反思带来的信息增益。 为了回答上述问题,研究者研究了与传统RL不同的贝叶斯自适应RL框架,简称 BARL ...