强化学习（RL） - 财报，业绩电话会，研报，新闻 - Reportify

强化学习（RL）

搜索文档

90%被大模型吃掉，AI Agent的困局

投中网· 2025-07-25 16:33

通用Agent行业现状 - 通用Agent面临尴尬境地，90%的市场份额可能被大模型吞噬[3][4][8] - Manus等头部公司出现收入下滑和用户活跃度下降，Manus 6月访问量1781万次，较3月峰值2376万次下降25%[5][22] - Genspark发布45天即达3600万美元ARR，但6月MRR环比下跌13.58%至295万美元[20][22] 商业化与竞争格局 - 头部产品商业化表现分化：Manus 5月ARR达936万美元，但6月MRR环比暴跌51.79%至167万美元[20][21] - 国内大厂主导市场，百度、字节等通过免费策略挤压创业公司空间[26][27][29] - 收费模式对比：Manus Pro会员199美元/月限积分制（约10次/天），Claude Opus 4同价但支持不限量使用[9][11] 技术瓶颈与场景困境 - 大模型能力溢出直接冲击Agent价值，用户更倾向使用基础模型API[9][12] - 垂类Agent在企业端优势显著，可对接内部知识库实现精准输出[15][16] - 当前通用Agent核心场景局限在PPT生成、深度研究等办公功能，但存在信息错漏和低价值输出问题[24][32][34] 技术演进方向 - MiniMax采用线性注意力机制支持100万上下文输入，强化法律文书处理能力[35] - 强化学习(RL)成为突破关键，月之暗面Agent模型在HLE测试得分从8.6%提升至26.9%[36][38] - OpenAI最新Agent产品ChatGPT Agent在HLE测试创41.6%的SOTA成绩[38] 市场趋势 - 行业呈现"模型即Agent"趋势，大模型公司直接切入Agent赛道[28][29] - 开发者生态成竞争焦点，阿里、字节等通过平台推广和比赛吸引开发者[26] - 深度研究功能因成本较低成为主流方向，多模态能力成为标配[30][32]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

90%被大模型吃掉，AI Agent的困局

36氪· 2025-07-18 18:48

通用Agent市场现状 - 通用Agent面临增长放缓困境，Manus访问量从3月2376万次下跌至6月1781万次（跌幅25%），Genspark访问量下降8% [10] - 商业化表现波动明显：Manus 5月ARR达936万美元但6月MRR环比下跌超50%至254万美元，Genspark同期ARR 3600万美元但MRR下跌13.58%至295万美元 [9][11] - 核心问题在于缺乏杀手级应用场景，当前功能集中于PPT生成、多模态处理等办公场景，用户付费持续性不足 [2][11] 竞争格局变化 - 基础模型能力溢出侵蚀市场：Claude Opus 4等模型提供不限量服务（200美元/月），相较Manus Pro会员199美元/月但限制每日约10次任务更具性价比 [4][6] - 垂类Agent在企业端形成优势：Head AI等垂类产品能对接内部知识库，准确度显著高于通用Agent [7] - 大厂主导国内市场：百度、字节等通过免费策略挤压创业公司空间，MiniMax等采用积分制但难敌大厂资源 [12][13] 技术演进方向 - 强化学习（RL）成为突破重点：月之暗面Kimi-Researcher通过RL将HLE测试得分从8.6%提升至26.9%，OpenAI ChatGPT Agent最新达41.6% [18][20] - 长文本处理能力升级：MiniMax M1模型支持100万token上下文，优于Gemini 2.5 Pro的200K上限 [17][18] - 多模态集成趋势明显：MiniMax融入视频生成能力，百度心响整合原有对话系统 [15] 商业模式挑战 - 成本转嫁矛盾突出：Manus采用积分制导致高频用户成本高企，对比基础模型API无使用次数限制 [6] - B端落地障碍：企业需求与通用Agent"黑盒"特性存在冲突，需深度集成内部系统 [7] - 大厂生态战略：阿里、字节等侧重开发者平台建设，通过比赛推广而非直接产品竞争 [11]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

思维链开创者Jason Wei最新文章：大模型将攻克哪些领域？ | Jinqiu Select

锦秋集· 2025-07-16 15:58

大模型能力演进与验证者定律核心观点 - 大模型能力每3-6个月迭代一次，从文本生成、多模态理解扩展到复杂推理和工具调用，"模型即产品"趋势明显，模型能力边界决定产品边界 [1] - 验证者定律提出：AI解决任务的难易度与任务可验证性成正比，具备客观真实性、快速验证、可扩展验证、低噪声、连续奖励五大特征的任务将被优先攻克 [2][8][10] - 验证不对称性普遍存在（如数独验证易/解决难、数学问题验证对称、事实核查验证难），通过预研可改善不对称性 [4][6][7] 技术发展路径 - AlphaEvolve案例显示，符合验证者定律五大特性的问题（如几何优化）已被高效解决，未来所有满足条件的问题均可能被AI攻克 [13] - 可验证任务将形成"参差不齐的智能前沿"，AI在该领域表现显著优于人类，因梯度信号密集且迭代速度快 [12][14] 行业影响 - 创业者需紧密跟踪模型技术进步方向，技术敏锐度关乎生存，验证者定律为预判大模型发展提供框架 [1][2] - 科学创新领域出现范式转变：单个高价值问题的解决（train=test）优先级超过传统机器学习泛化能力 [13]

验证的不对称性

验证者定律

强化学习（RL）

验证的不对称性

验证者定律

强化学习（RL）

突发｜思维链开山作者Jason Wei被曝加入Meta，机器之心独家证实：Slack没了

机器之心· 2025-07-16 10:22

核心观点 - Meta持续从OpenAI挖走顶尖AI人才，最新目标是知名研究员Jason Wei和Hyung Won Chung [1][2] - 两位科学家在AI大模型领域贡献显著，Jason Wei是思维链（CoT）技术的主要作者，论文引用量超1.7万次 [4][6] - Hyung Won Chung是OpenAI o1系统的核心贡献者，参与多个重大项目研发 [4][29][38] 人才流动 - Jason Wei和Hyung Won Chung的Slack账号已被OpenAI停用，离职消息获多方证实 [2] - 两人均毕业于MIT，曾任职谷歌，2023年加入OpenAI后现可能同时转投Meta [6][18][27] - Jason Wei未直接回应跳槽传闻，但社交媒体评论普遍认为其将加入Meta [9][10] 技术贡献 - Jason Wei的CoT论文引用量超1.7万次，总论文引用量达77k，位列前两位的是CoT和GPT-4技术报告 [6][21] - Hyung Won Chung主导开发了OpenAI o1系列模型，强化了推理、搜索及RL策略能力 [29][38] - 两人参与OpenAI关键项目包括o1-preview、o1正式版、Deep Research及Codex mini模型训练 [18][29] 行业影响 - 人才流动反映Meta在AI领域的人才争夺策略，OpenAI面临核心团队持续流失压力 [1][41] - Jason Wei提出的RL"同策略"理念强调差异化研究路径，可能影响未来AI研发方法论 [11][12][13] - Hyung Won Chung的技术落地能力推动AI从理论到应用生态的闭环构建 [40]

思维链（CoT）

强化学习（RL）

Artificial Intelligence

思维链（CoT）

思维链（CoT）

强化学习（RL）

Artificial Intelligence

思维链（CoT）

斯坦福毕业，用RL做Agent，华人创业团队种子轮融资1200万美元

机器之心· 2025-07-09 08:50

公司概况 - Pokee AI 公开测试版正式上线，公司定位为开发交互式、个性化、高效的 AI Agent [1][4] - 公司完成 1200 万美元种子轮融资，由 Point72 Ventures 领投 [8] - 团队从 4 人核心组扩张至 7 人，计划在收入规模扩大前将团队控制在 10 人以内 [2][26] 技术架构 - 以强化学习（RL）为核心构建 AI Agent，LLM 仅作为人机交互的“UI层” [5][17] - RL 模型的动作空间直接调用工具，而非 LLM 的 Token 生成，提升任务执行泛化性 [17] - 目标是通过 No Code/Low Code 方式让第三方开发者快速搭建 AI Agent [16] 产品愿景 - 通用 Agent 的终极形态是仅需用户提供 prompt 即可自动调用工具解决问题，无需人工配置 [14][15] - 当前行业尚未完成“决策能力”第一步，后续需攻克个性化记忆（Memory）和对齐（Alignment） [19][21] - 公司认为 LLM 的进步将直接提升其 RL 架构的理解能力，两者非竞争关系 [22] 行业定位 - 创业初期 RL 方向被视为“天方夜谭”，现逐渐成为行业共识 [7][11] - 公司节奏比 Meta 快 4-5 倍，7 个月内完成产品公测和融资 [9] - AI 时代创业更轻量级，远程办公模式高效，无实体办公室 [27][28][30] 商业化路径 - 优先聚焦解决实际问题能力，再逐步优化意图理解 [22] - 商业化初期不追求完美对齐用户意图，而是通过迭代实现三步走战略 [19][21]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

量子位· 2025-07-07 14:13

数学能力与模型迁移性研究 - 核心观点：数学能力强的模型不一定能将技能迁移到其他领域，强化学习(RL)训练的模型展现出显著优于监督微调(SFT)的跨任务迁移能力[1][4][19] - 数学能力与通用智能的关系：传统认知认为数学能力强的模型更智能，但最新研究表明这并非绝对[2][3] - 研究方法：评估20+模型在数学推理、其他推理(医学推理、智能体规划)和非推理任务(常识对话、指令遵循)的表现[7] - 关键指标：提出迁移能力指标(TI)，量化数学能力提升对其他任务的迁移效果(TI>0为正迁移，TI<0为负迁移)[8][9] - 实验结果：RL微调模型在数学任务平均得分达53.8，较基线提升4.1，且在其他推理任务TI达+79.6，非推理任务TI+29.3；SFT模型在非推理任务出现显著负迁移(TI最低-250.2)[10][11] - 机制分析：RL模型PCA偏移最小，KL散度更低(平均降低24.0)，token排名偏移更小，说明其能保持原有知识同时增强特定领域能力[15][16][17][18] - 行业启示：强化学习是实现可迁移推理发展的关键技术路径，对AI产品开发具有重要指导意义[19]

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

Artificial Intelligence

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

Artificial Intelligence

图像目标导航的核心究竟是什么？

具身智能之心· 2025-07-04 20:07

研究背景与核心问题 - 图像目标导航需要两种关键能力：核心导航技能（如检测自由空间、障碍物）和通过比较视觉观察与目标图像计算方向信息 [2] - 当前主流方法依赖专门的图像匹配或预训练计算机视觉模块进行相对位姿估计 [2] - 研究聚焦于是否可以通过强化学习对完整智能体进行端到端训练来解决该任务 [2] 核心研究内容与方法 - 探讨了多种架构设计对任务性能的影响，核心在于如何支持图像间的隐式对应计算 [3] - 主要架构包括Late Fusion、ChannelCat、SpaceToDepth + ChannelCat、Cross-attention [4] - 实验设计使用Habitat模拟器和Gibson数据集，动作空间包括前进、左右转向和停止 [7] - 评估指标包括成功率（SR）和SPL（成功路径长度与最优路径长度的比值） [7] 主要发现 - 早期patch级融合（如ChannelCat、Cross-attention）比晚期融合（Late Fusion）更关键，能更好支持隐式对应计算 [8] - ChannelCat（ResNet9）在Sliding=True时SR达83.6%，远高于Late Fusion的13.8% [6] - Cross-attention（DEBiT-b）在Sliding=True时SR达90.5% [6] - 低容量架构（如ResNet9）在Sliding=False时SR从83.6%降至31.7%，而DEBiT受影响较小（从90.5%降至81.7%） [8][9] - 能力迁移性：将Sliding=True训练的感知模块权重迁移到Sliding=False并微调后，SR从31.7%提升至38.5% [10][11] 导航与相对位姿估计的关联 - 导航性能与相对位姿估计性能存在相关性，DEBiT在两者上均表现最优 [12] - 导航成功率（SR）与相对位姿估计精度（误差<2m, 20°）呈正相关 [12] 结论 - 支持早期局部融合（如交叉注意力、ChannelCat）的结构对任务成功至关重要 [15] - 模拟器的Sliding设置显著影响性能，但通过迁移感知模块权重可部分迁移至真实环境 [15] - 导航性能与相对位姿估计能力相关，验证了方向信息提取的核心作用 [15] - 简单低容量架构仅通过RL训练难以成功解决图像目标导航，预训练仍不可或缺 [15]

图像目标导航

强化学习（RL）

相对位姿估计

交叉注意力（Cross-attention）

晚期融合（Late Fusion）

图像目标导航

强化学习（RL）

相对位姿估计

交叉注意力（Cross-attention）

晚期融合（Late Fusion）

ToMAP：赋予大模型「读心术」，打造更聪明的AI说服者

机器之心· 2025-06-24 22:07

大语言模型的说服能力研究 - 顶尖大模型能生成条理清晰的说服语段在Reddit等平台以假乱真但缺乏心智感知能力成为发展瓶颈 [3] - 成功说服需精准洞察对方立场和思维过程即心理学中的「心智理论」(ToM) 当前大模型在对话中缺乏心智感知导致两个缺陷：仅围绕核心论点讨论无法根据论点联系提出新角度仅重复己方观点无法因应对方态度变化调整策略 [4][6] ToMAP模型架构创新 - 引入两大心智模块：反驳预测器通过提示词激活模型预判反对观点的能力生成的反驳观点与真实被说服者语义高度相似态度预测器动态评估对方对反论点的态度倾向使用BGE-M3文本编码器与MLP分类器实现 [9] - 采用强化学习训练模型说服力得分衡量对方态度变化并引入格式奖励、重复惩罚等辅助信号优化生成质量 [11] 实验性能表现 - 基于Qwen-2 5-3B的ToMAP在CMV、Anthropic、args me数据集测试中平均说服效果达17 48 显著优于基线模型和无心智模块的RL版本超越GPT-4o与DeepSeek-R1等更大参数模型 [14] - ToMAP在10轮长对话中说服力保持稳定增长而基准模型和常规RL模型说服力随轮次增加趋于饱和或下降 [17] - 训练轨迹显示ToMAP重复度惩罚保持低位思考长度显著高于基线更倾向使用理性策略而非情绪煽动 [15][16] 技术突破与行业意义 - ToMAP首次在大模型说服任务中实现对手建模与策略灵活性通过心智模块使AI具备初步社会认知特征 [19][20] - 该框架证明小模型在适当训练和模块设计下可超越大参数模型为构建可信AI交流系统提供新思路 [14][21]

心智理论（ToM）

强化学习（RL）

反驳预测器

态度预测器

心智理论（ToM）

强化学习（RL）

反驳预测器

态度预测器

搜索智能体RAG落地不佳？UIUC开源s3，仅需2.4k样本，训练快效果好

机器之心· 2025-06-17 08:10

核心观点 - Agentic RAG 当前面临优化目标偏离、检索与生成耦合、评价标准不准确等挑战 [8][9][14] - s3 方法通过 Search-Select-Serve 范式和 Gain Beyond RAG 奖励函数，显著提升训练效率和生成效果 [1][16][17] - s3 仅需 2.4k 训练样本，在多个领域问答任务中超越数据规模大百倍的基线模型 [1][22][25] RAG 发展轨迹 - Classic RAG：使用固定 query 和 BM25 等检索器，生成器对结果无反馈 [7] - Pre-RL-Zero Active RAG：引入多轮 query 更新和 prompt 引导检索，如 IRCoT 和 Self-RAG [7] - RL-Zero 阶段：强化学习驱动检索行为，代表方法包括 DeepRetrieval 和 Search-R1 [7] 当前 RL-based Agentic RAG 的挑战 - 优化目标偏离：Exact Match 指标过于苛刻，导致模型优化答案 token 对齐而非搜索行为 [9][10] - 检索与生成耦合：无法区分性能提升来自更好的搜索还是更强的语言生成对齐能力 [11][12] - 评价标准不准确：传统 QA 指标与搜索质量关联有限，search-oriented 指标无法体现信息利用效果 [14] s3 方法设计 - 核心思想：只训练搜索器、冻结生成器，以生成结果提升为奖励 [16] - Gain Beyond RAG：衡量搜索到的上下文相比初始 top-k 检索结果是否带来真实增益 [17] - Generation Accuracy：结合 span 匹配和 LLM 判断，与人类判断一致率达 96.4% [18][32] 训练与优化 - 采用 PPO 进行策略优化，预筛除 naive RAG 能答对的样本，集中训练需要新检索信息的任务 [19][20] - 训练总时间仅需 114 分钟，比 Search-R1 的 3780 分钟大幅减少 [21][22] - 训练样本仅需 2.4k 条，比基线方法减少约 70 倍 [1][22][25] 实验分析通用 QA 任务 - s3 在五个数据集上实现最优表现，平均准确率优于 Search-R1 和 DeepRetrieval [23][24][25] - 使用不同下游 LLM（Qwen2.5-7B/14B-Instruct、Claude-3-Haiku）均展现稳定性能 [24] 医学 QA 任务 - s3 在医学领域展现强泛化能力，在 MedQA-US、MedMCQA 等数据集上优于基线 [26][27] - 使用不同语料库（Wikipedia2018 和 MedCorp）均保持稳定性能，无过拟合趋势 [27] 消融实验 - 原始问题作为检索起点有助于明确搜索目标，避免策略偏离主题 [31] - 文档选择机制减少输入 token 2.6 至 4.2 倍，提升效率并减少噪声干扰 [31] - s3 设计在准确性、训练效率和推理速度上达到最优平衡 [29][30]

Retrieval-Augmented Generation (RAG)

强化学习（RL）

生成式人工智能

Retrieval-Augmented Generation (RAG)

强化学习（RL）

生成式人工智能

揭秘LLM“思考”之谜：推理即“梯度下降”，元学习框架解构训练过程，还给优化提供新思路

量子位· 2025-06-10 12:05

RaML框架核心观点 - 大语言模型(LLM)的推理过程可类比为梯度下降优化过程，推理轨迹中的每个令牌对应参数的一次隐式更新[2] - 研究团队通过理论推导证明Transformer模型中增加的推理轨迹令牌会内化为对模型参数的更新[2] - 实证验证显示随着推理轨迹解码，模型对正确答案的置信度逐步上升，证实推理轨迹作为参数更新的合理性[4] 元学习视角下的LLM推理 - 将LLM推理训练置于元学习框架下解释，每个具体问题视为独立任务[7] - 推理轨迹承担"内循环优化"角色，动态调整内部参数适应特定任务[8] - 外循环优化基于内循环结果调整"学习策略"，形成双循环机制实现泛化能力[8] - 该框架统一解释LLM在不同训练策略、推理策略和任务泛化上的表现[9] 训练方法对比 - 有监督微调(SFT)模型相比纯强化学习(RL)模型在数学基准上表现更优[10] - SFT提供"最优梯度指导"，对较小模型收益显著(Pass@8提升31%，mG-Pass@8提升175%)[13] - RL理论上限更高但需要更强基座模型，可采用SFT+RL混合训练策略[12] 推理轨迹特性 - 更长的推理轨迹对应更好的内循环优化效果，与传统优化算法迭代次数原理类似[14] - "反思"令牌能显著改变模型置信度，帮助跳出局部最优解[15][17] - 强制结束思考过程的令牌序列可能导致模型停留在次优解[18][20] 跨任务泛化能力 - 仅在数学推理训练即可提升科学推理和代码推理任务表现[21] - 模型学习到普适推理特征，通过元学习机制快速适应新任务[23] 实践优化策略 - 增加每个问题的训练轨迹数量(相当于扩大元学习支撑集)可提升推理表现[25] - 对长推理轨迹进行摘要提炼，在保持性能同时显著降低解码开销[30] - 未来可探索更高效的推理轨迹提取方法及任务配比优化[31] 研究价值 - 为理解大模型推理提供全新视角，揭示其与元学习、梯度下降的关联[32] - 理论框架具有实践指导意义，已开源代码和论文供进一步研究[32]

大语言模型（LLM）

元学习（Meta-Learning）

有监督微调（SFT）

强化学习（RL）

QwQ - 32B模型

大语言模型（LLM）

元学习（Meta-Learning）

有监督微调（SFT）

强化学习（RL）

QwQ - 32B模型