机器之心
搜索文档
有效思考激发多模态智能体决策潜力!清华&北大&腾讯联合提出GTR训练新框架
机器之心· 2026-03-13 12:00
研究背景与核心问题 - 基于可验证奖励的强化学习(RLVR)能提升大语言模型(LLM)的思维链决策能力,但对多模态大模型(VLM)智能体的目标导向动作推理任务,强化学习在复杂问题上不能很好提升决策能力,甚至导致思维过程退化[2] - 来自清华、北大和腾讯的研究团队将VLM智能体在RL训练中出现的思维过程退化现象称为“思维崩塌”,表现为智能体思维丧失多样性,并输出不一致和不完整的思路[2] - 思维崩塌现象的核心原因是强化学习的训练机制:环境提供的奖励完全由模型最终的动作决定,而比动作输出更长且更基础的思维过程缺少评估和监督,只能依赖结果奖励间接引导[7][11] “思维崩塌”现象的具体表现与影响 - 在RL训练中,VLM智能体的思维链过程失去多样性,对于不同的视觉和文本输入给出相同的思路[11] - 模型输出的思路不正确、不一致、不完整,虽在输出思路,但已丧失思考能力[11] - 思维能力的丧失极大限制了模型的决策能力,难以释放模型潜力[11] - 实验中发现,更大的模型、更长的训练时间也均展示出思维崩塌的情况[7] 现有解决方案的局限性 - 常见的过程奖励模型(PRMs)需要精细标注的多模态数据训练,昂贵且费力,且固定数据集上的训练容易产生偏差,不适用于动态的交互式环境[9] - 使用VLM进行打分的VLM-as-a-judge方法效果不佳,因为简单的数值奖励难以提供充足的信息量和有效的指导,尤其考虑到大模型更强的奖励破解能力[9] - 在模型基础能力较差的情况下,缺少正向激励也容易导致悲观探索的问题[9] 提出的新框架:思维引导的强化学习 - 研究团队提出思维引导的强化学习(Guided Thought Reinforcement, GTR)框架,通过自动化修正器提供过程引导,在RL训练中实时优化模型的思路,且无需依赖人类的精细标注[4] - GTR利用一个外部的VLM模型作为修正器,在强化学习的每一步,先对智能体思路中识别和推理的正确性进行评估,如果发现不正确或不一致,则利用智能体的状态输入进行修正[13] - 通过在常规的PPO过程中加入一个针对思路token的SFT loss,将模型的思路与修正器给出的正确结果对齐,形成一个“思维 + 动作”、“SFT+PPO”的联合训练框架[13] - 框架还通过为智能体增加格式奖励和重复惩罚、为修正器模型提供工具调用弥补专业知识等方法,进一步提升数据质量[13] GTR框架的实验效果 - 在gym_cards中最困难的24点纸牌游戏中,基于LLaVA-7B的GTR智能体在15k的训练步数内达到了最高**17.5%**的成功率,大幅超过了仅包含强化学习的RL4VLM(**2.5%**)和仅包含思路引导的SFT-only(**11.0%**)两个基线方法,甚至突破了其修正器模型GPT-4o的水平(**13.5%**)[16] - 在更简单的、思维崩塌现象不显著的另外三个游戏中,GTR相比于RL4VLM也能取得突破,并达到10倍其规模的预训练模型的能力水平[17] - 在具身智能任务ALFWorld中,为了模拟真实环境,实验中去掉了环境提供的文本观察,模型仅能依赖视觉信息进行决策。GTR(无文本观察)的成功率达到**17.8%**,显著高于RL4VLM(无文本观察)的**5.4%**,并接近有文本观察的版本(**21.0%**),有效避免了思维崩塌带来的性能下降[19][20] - 消融实验证明了训练全过程思维引导的重要性、工具调用提升修正器专业知识的必要性和DAgger缓解在线训练分布偏移的有效性[21] 研究意义与行业启示 - 本项研究揭示了多模态大模型智能体强化学习训练中,思维崩塌现象对训练稳定性和性能提升的限制[23] - 通过修正器模型进行思路修改,GTR在无需数据标注的条件下实现了实时自动化的思维过程监督,使过程引导与强化学习有机结合,互为补充[23] - 这一创新性的分析和解决方案能够为复杂长时任务中大模型智能体的训练提供更多的启发和可能性[24]
这年头学不会数理化,只能怪自己懒,谷歌NotebookLM上新,秒出科普视频
机器之心· 2026-03-13 12:00
谷歌NotebookLM新功能“电影级视频概览” - 谷歌旗下NotebookLM推出名为“电影级视频概览”的新功能,可根据用户上传的资料自动生成定制化、沉浸式的视频讲解 [1][2] - 该功能融合了谷歌Gemini 3、Nano Banana Pro和Veo 3等先进AI模型,旨在生成流畅动画和丰富细腻的视觉效果 [3] - 功能目前面向Google AI Ultra订阅用户(18岁以上)开放,支持网页和移动端使用 [5] 功能特点与用户体验 - 用户上传资料(如图片)后,系统可自动生成内容介绍,并通过“Video Overview”功能读取文本、提取关键信息、构建可视化画面并添加旁白 [6] - 功能提供多种自定义选项,包括“解释性概述”和“简要概述”两种格式,以及9种视觉风格(如卡哇伊、经典、白板、动漫等) [8] - 生成视频效率较高,例如上传蒙娜丽莎图片后,大约两三分钟即可生成一段时长6分钟的解读视频 [8] - 生成视频结构清晰、讲解通俗易懂、旁白有节奏,并能融入相关视觉元素,适合知识普及 [9][12] - 视频结尾会抛出开放性问题以引导深入思考 [13] - 目前功能存在一些小瑕疵,例如偶尔出现乱码或错别字,视频整体效果更接近“PPT + 旁白”形式,动画效果有提升空间 [14] 功能应用与行业影响 - 该功能具备处理学术内容的能力,测试中可将一篇题为《Speculative Speculative Decoding》的晦涩论文转化为通俗的视频讲解 [16][19] - 该论文介绍了一种推测性推测解码框架,据称比目前世界上最强大的推理引擎还快2倍 [17] - AI技术正在重塑知识传递与教育方式,能够将复杂内容快速转化为易于理解的形式,降低学习门槛,使知识不再成为少数人的特权 [19] - 未来教育可能向个性化发展,AI有望成为随时待命的私人导师,根据用户需求以最易接受的方式进行讲解 [19]
告别Demo、真正跑进生产,华为新框架把Agent端到端效率拉升2.5倍
机器之心· 2026-03-13 10:43
文章核心观点 - 华为诺亚方舟实验室与先进计算与存储实验室联合提出AgentInfer,这是一个面向工业Agent的端到端加速框架,其核心在于将推理架构设计与推理服务系统进行协同优化,以解决大模型Agent从Demo走向生产时遇到的真实效率瓶颈[2] - 该框架不是单点技巧,而是一套可拆可合的系统化方案,其四个模块单独启用均有收益,组合后收益可叠加,并且在高并发、多会话、长上下文的真实负载下依然有效[2] - 文章认为,Agent的效率优化不能仅关注单步推理速度,而应着眼于减少无效回合、减少重算、提高跨轮次复用,本质是一个需要从端到端出发的系统性问题[4][8][27] - 实验表明,AgentInfer在工业场景下能显著提升效率,例如将无效token消耗降低50%以上,实现1.8倍至2.5倍的端到端加速,同时保持任务准确率稳定,并在高并发下QPS(每秒查询率)提升可达2.52倍[24][29] 传统Agent加速方法的陷阱 - **量化陷阱**:对模型进行INT8量化后,单步推理速度提升45.0%(吞吐从42.5 Tokens/s提升至61.6 Tokens/s),平均推理时间减少33.3%(从45.0秒降至30.0秒),但由于精度下降导致任务成功率从88.2%降至61.7%,触发大量自我修复回路,使平均恢复时间暴增1000%(从5.0秒增至55.0秒),端到端总时间反而上升[5][6] - **文本总结不靠谱**:通过总结压缩上下文,虽然使单步平均token数从8,500降至2,100(压缩4倍),但导致平均解决问题所需轮次从4.0轮激增至14.0轮(增加3.5倍),总token消耗仅从约34k降至约29.4k(边际收益),并引入高上下文漂移率,认知模糊性增加[6][7] - **记忆持久性瓶颈(KV-cache)**:在高并发下,采用短作业优先(SJF)调度策略时,长上下文(>32K)会话的KV-cache命中率极低(仅15%),导致大量重算,prefill延迟高达3,100毫秒,严重影响系统吞吐和稳定性[7][8] AgentInfer框架的四个核心模块 - **AgentCollab:难度感知的大小模型协作** - 核心思路是将常规工作交给小模型,关键规划与卡住的推理交给大模型,通过一个结构化的Progress Check自评机制动态判断是否取得实质进展,若停滞则升级到大模型救场,从而在多数时间使用便宜模型,仅在困难段落调用昂贵模型,实现质量与成本间的帕累托最优[12][13] - **AgentCompress:语义压缩与异步蒸馏** - 针对深度研究/搜索型Agent上下文易被搜索结果等撑爆的问题,该模块执行两项操作:一是用轻量模型对搜索结果(URL/摘要)进行过滤排序,减少无关内容进入后续流程,降低并行工具调用压力;二是异步压缩工具输出等“环境交互记忆”,但关键保留“推理轨迹”,以维持Agent的认知连续性,避免因“失忆”导致回合数暴涨[14][16][17] - **AgentSched:KV-aware的自适应调度** - 为解决高并发下长短请求混合导致的调度矛盾(纯FCFS被长请求阻塞,纯SJF牺牲长会话KV-cache持久性),该模块引入一个可解释的控制信号(shadow-price),在“优先短请求低延迟”和“优先高KV复用”之间自适应切换,缓存宽松时类似SJF,缓存紧张时更偏KV-aware,从而保护长会话上下文,减少昂贵的prefill重算,确保系统在高压力下不抖动、不崩溃且吞吐能提升[19][20][25] - **AgentSAM:跨会话投机解码** - 利用后缀自动机(SAM)识别并利用Agent推理中出现的高重复模式(如多轮反复提问、相似请求模板、多次引用的检索证据),将当前会话与语义相似的历史会话组合,为投机解码提供更高命中率的草稿,同时通过异步构建避免阻塞首token延迟,并带有自适应开关,在batch太大或投机收益变差时自动回退,避免负优化[21] 框架的性能与工业可用性 - **模块化与增益可叠加**:实验采用逐步叠加方式,在BrowseComp-zh / DeepDiver基准上进行端到端评估,结果显示每个模块的加入都能带来额外增益,组合后收益叠加而非相互抵消[23][26] - **高并发下的稳定性能提升**:在并发会话数(Nparallel)从4提升到16时,系统QPS提升依然稳定 - 仅使用AgentCollab,QPS提升为1.32倍(Nparallel=4)至1.52倍(Nparallel=16) - 叠加AgentCompress后,提升至1.57倍至2.01倍 - 再叠加AgentSched后,提升至1.71倍至2.25倍 - 全部四个模块叠加后,最终提升达到1.97倍至2.52倍,证明优化在资源争用、缓存压力大的真实负载中保持稳定[24] - **端到端效率优化显著**:框架能将无效token消耗降低50%以上,实现1.8倍至2.5倍的端到端加速,同时保持任务准确率稳定,其设计目标是让Agent在长周期任务与高并发环境中保持效率与认知稳定,定位为一套自演进引擎[29]
杜少雷、安波、杨凯峪,三位世界级 AI 科学家加入MiroMind
机器之心· 2026-03-13 10:43
公司核心战略与愿景 - 公司致力于构建新一代AI平台,专注于“发现式智能”,其目标不仅是分析已有知识,还能进行预测并探索全新概念[1][2] - 公司的使命是打造一种全新的AI系统,能够进行严谨推理并解决现实世界中的复杂难题,其输出要求不只是“看起来合理”,而是能够被形式化验证[2] - 公司正在打造名为“Heavy Duty Solver”的核心引擎,其三大核心技术支柱现已全部就位[1] 核心技术方向与领导团队 - 杜少雷博士出任推理模型与训练首席科学家,将负责公司核心推理模型训练体系的端到端构建,包括模型架构设计、大规模训练策略及推理能力提升[1][3][4] - 安波教授出任运行时与智能体系统首席科学家,将领导该技术部门,负责系统执行层架构的设计与演进,推动推理模型与验证核心的深度融合,构建高可靠、可横向扩展、可审计的系统框架[1][5][7][8] - 杨凯峪博士出任可验证AI实验室首席科学家,将负责建立并领导该实验室,重点推进可验证推理和可验证生成两大研究方向,旨在打造能提供机器可检验正确性保证的下一代AI基础能力[1][11][12] 公司背景与市场定位 - 公司由全球知名创新企业家、慈善家陈天桥创立,是一家总部位于海外的国际AI研究与技术公司[2][16] - 公司致力于打造全球首个通用求解器,这是一种以推理为核心的AI系统,其目标不仅是“看起来正确”,而是能够被证明正确[16] - 公司团队中80%以上为博士研究人员,并由分布全球的世界级科学家团队领导[18] 技术应用与目标市场 - 公司通过开创可验证的长链条System 2推理能力,致力于为软件工程、金融服务、医疗与制药、法律与合规以及科学研究等高风险场景提供可靠、可信的AI能力[17] - 杨凯峪博士团队的技术将应用于代码生成、数学证明以及复杂推理任务,构建从基础研究验证、系统工程实现到产品部署的完整技术闭环[12]
4B模型幻觉抑制能力超越GPT-5,CMU等提出行为校准强化学习新方法
机器之心· 2026-03-12 19:00
文章核心观点 - 研究团队提出了一种名为“行为校准强化学习”的新方法,通过重新设计奖励函数,从根本上解决大语言模型的幻觉问题,使模型学会在不确定时拒绝回答,成为“诚实的沟通者”而非“优秀的应试者”[2][7] - 该方法在多个基准测试上表现卓越,一个仅40亿参数的模型在幻觉抑制能力上超越了GPT-5等前沿大模型,证明了小模型也能实现优秀的置信度校准,且这种校准能力是一种可迁移、与预测准确率解耦的元技能[4][20][35][37] 核心问题与现有范式缺陷 - 当前主流的基于可验证奖励的强化学习后训练范式存在根本性的奖励错位问题:其二元奖励机制惩罚“拒绝回答”行为,迫使模型为最大化预期分数而进行猜测,将不确定性伪装成事实[6][7] 行为校准强化学习解决方案 - 解决方案核心思想是让模型根据用户指定的风险阈值动态调整其拒绝行为,成为一个值得信赖的模型[8][9] - 策略一:言语化置信度。通过将不同用户风险偏好下的奖励函数进行积分,将训练目标转化为对严格适当评分规则的优化,激励模型在最大化预测准确率的同时,校准其声明的置信度[9][10][11] - 策略二:Critic价值函数。使用PPO算法中Critic网络的价值函数作为隐式置信度估计器,其通过训练会收敛到成功概率[12] - 通过设计奖励函数(回答正确+1分,回答错误-1分,拒绝回答得-p分),使模型在置信度低于风险阈值时拒绝回答,从而实现从“应试者模式”到“完全诚实模式”的过渡[13] 声明级行为校准 - 研究将行为校准从响应级别扩展到声明级别,使模型能精确标注答案中单个不确定的推理步骤,而非简单地拒绝整个回答[14] - 面临并解决了三大挑战:1) 通过输出完整响应并用HTML标签高亮不确定声明来解决连贯性问题;2) 忽略中间推理过程,仅在最终结构化步骤上进行校准以处理歧义性;3) 设计基于弱监督的学习目标,将声明级置信度聚合成响应级置信度进行训练[14] - 探索了两种置信度聚合方式:乘积聚合与最小值聚合,实验发现最小值聚合在声明级评估中表现更优,能更有效激励模型识别推理链中的薄弱环节[15][19] 实验结果与性能评估 - 在极具挑战性的数学推理基准BeyondAIME上的响应级评估显示,采用言语化置信度、置信度乘积聚合的40亿参数模型取得了0.806的信噪比增益,大幅超越GPT-5的0.207[20][21] - 在BeyondAIME的声明级评估中,置信度最小聚合方法取得了0.301的信噪比增益,显著优于Gemini-2.5-Pro的0.019[22][23] - 置信度校准图显示,多数前沿模型的校准曲线接近水平线,缺乏“自知之明”,而经过行为校准训练的模型展现出单调递增的理想校准特性[24][25][27][29] - 核心评估指标包括:信噪比增益(衡量幻觉抑制效果)和置信度AUC(纯衡量模型“自知之明”),经过校准的模型在这些指标上表现优异[18][21] 行为校准的四个目标与泛化能力 - 系统满足行为校准的四个目标:1) 自适应风险(模型能根据用户风险阈值自动调整拒绝策略,呈现“凹形”拒绝曲线);2) 准确率保持(在不拒绝模式下,准确率与基线相当或更好);3) 幻觉减少(随着风险阈值增加,幻觉率单调递减,信噪比大幅提升);4) 定量校准(满足真阳性率与假阴性率的定量约束)[30][31][32][33] - 跨领域泛化实验表明,在数学数据上训练出的元认知能力可迁移至SimpleQA事实知识基准,进行零样本评估时信噪比显著优于基础模型,并与最强前沿模型相当,证明行为校准是一种与预测准确率解耦的可迁移技能[35] 研究启示与理论洞察 - 幻觉缓解与事实准确率是两种不同的能力,某些前沿模型的准确率与幻觉率或置信度校准之间并无正相关关系[36][37] - 小模型也能实现与大模型相当的置信度校准,实现有效“校准”所需的计算资源远低于追求绝对准确率所需的资源[37] - 行为校准是一种可通过训练改善的可学习属性,而非LLM不可避免的内置特性[37]
DeepSeek V4真要来了?万亿参数模型匿名开测,免费跑龙虾
机器之心· 2026-03-12 19:00
关于DeepSeek V4的传闻与猜测 - 推特博主“青龍聖者”发布截图,预示DeepSeek V4即将发布,截图信息显示其激活参数量约为1万亿,上下文窗口为100万tokens,并可能采用硬件优化如昇腾910C [1][3] - 随后该博主澄清,表示不确定截图信息真实性,并判定另一张显示更详细参数的DeepSeek V4截图为假消息 [2] OpenRouter平台上新神秘模型 - 全球大模型聚合平台OpenRouter上新两个名为“Hunter Alpha”和“Healer Alpha”的神秘模型 [3] - “Hunter Alpha”被描述为拥有1万亿以上参数和100万token上下文的大模型,专为智能体工作流、长周期复杂任务和深度工具调用设计 [4] - 平台数据显示,“Hunter Alpha”总上下文为1.05M tokens,最大输出为65.5K tokens [6] - “Healer Alpha”被描述为全模态交互模型,上下文窗口为26万tokens,能够原生感知视觉和音频输入并进行跨模态推理 [6] - 平台数据显示,“Healer Alpha”总上下文为262.1K tokens,最大输出为65.5K tokens,发布于2026年3月11日 [7] - 这两个模型目前作为“隐身模型”免费提供,模型提供商会记录所有提示词与生成结果,数据可能被用于改进模型 [12] 社区对模型来源的猜测 - 社区对两款模型的来源有广泛猜测,有人从对话风格判断“Healer Alpha”有Gemini的“Google味”或某些方面像Claude [14] - 有猜测认为“Healer Alpha”很可能是DeepSeek V4或V4 Lite [16] - 对于1万亿参数的“Hunter Alpha”,猜测对象包括DeepSeek V4、Kimi K3、Grok 4.2、Claude以及GPT 5o或5.5 instant,社区观点认为如此大的参数量和上下文组合只有少数大厂能做到 [17] - 有用户通过排除法推测,考虑到发布时间节点,1万亿参数的模型可能来自DeepSeek [18] - 有人在实测后猜测“Hunter Alpha”可能来自DeepSeek,“Healer Alpha”可能来自小米的mimo系列,另有海外博主通过平台信息挖掘到“Hunter Alpha”可能来自中国 [20] - 两款模型的真实来源目前仍是谜团,有待官方揭晓 [22]
还需付费卸载龙虾?这只龙虾能直接「杀死」OpenClaw
机器之心· 2026-03-12 19:00
OpenClaw本地智能体代理的安全风险与用户担忧 - 近期用户对OpenClaw的关注点已从安装配置转向其安全性问题,核心担忧在于其一旦深入本地系统后,能否被彻底移除[2] - OpenClaw作为本地Agent,工作时接触浏览器、终端、文件系统、本地账号、API Key、访问令牌和整套运行环境,潜在影响远超功能稳定性,可能危及电脑、数据及工作流本身[3] - 国家互联网应急中心于3月10日发布风险提示,指出在默认或不当配置下,OpenClaw可能导致系统密钥泄露、重要信息误删、恶意插件窃取数据,甚至因漏洞被利用导致系统被控、隐私和敏感数据泄露[3] - 工业和信息化部网络安全威胁和漏洞信息共享平台也提示,部分实例在默认或不当配置情况下存在较高安全风险[3] 卸载OpenClaw的复杂性与市场需求 - 官方卸载流程复杂,不仅需删除程序本体,还包括停止并移除Gateway服务、删除状态目录和配置文件、清理工作区,在Windows环境下甚至需手动处理计划任务和相关脚本[10] - 卸载不彻底可能导致后台任务、配置残留、工作目录及凭证信息留在机器中,若残留物被误调用或再次利用,风险将更难察觉[10] - 市场已出现针对OpenClaw的“上门/远程卸载”服务,价格从29.9元到299元不等,用户付费不仅为省事,更为了确保彻底清除、避免后患[7] - 用户购买卸载服务本质是购买一种确定性,即确认该程序已停止、残留已清理、电脑和账号环境恢复至可控状态[10] GenericAgent展现的深度系统理解与卸载能力 - GenericAgent不仅能安装复杂系统如OpenClaw,更能执行深度卸载,其过程考验对系统全局的理解,而非机械执行命令[13] - 卸载过程包括:定位安装位置、识别运行进程、清理配置/缓存/日志、移除系统依赖和服务,并进行最终检查以确保彻底清除[13] - 该能力表明GenericAgent能理解另一套系统(如OpenClaw)的运行方式,能梳理其与本地环境、依赖、配置、缓存、日志、任务、服务及权限体系的复杂关系[14] - 卸载演示比安装演示更能体现代理能力,因为卸载考验的是收尾能力和对系统的全局理解,确保在不搞乱系统的前提下完整移除复杂工具[15] 复杂智能系统“自毁”的悖论与第三方卸载的必要性 - 像OpenClaw这类深度集成于系统的“龙虾系统”,难以实现自我彻底卸载,因为它既是操作者也是被处理对象,缺乏外部视角来判断哪些部分该保留或清理[19][20] - 复杂智能系统的自毁需要一个站在外部的第三方观察者来确认其已成功退场,“让另一套系统来完成卸载”比自我结束更合理[21][22] - GenericAgent在卸载自身时,成功清空了本地代码仓库,仅保留了最后一次对话缓存,将是否抹除最终痕迹的决定权交给了人类[22][23] GenericAgent产品背景与价值主张 - GenericAgent由复旦大学知识工场实验室旗下A3实验室与深圳夸夸菁领科技有限公司合作研发,是一个极简自主Agent框架,定位为下一代自组织、自学习、自进化的通用智能体[25] - 该系统自2026年1月11日已开源,其价值主张包括:用户无需再花费299元请人卸载OpenClaw,可尝试使用GenericAgent自动完成卸载[25]
AI下半场的战场,从Agent记忆体正式打响
机器之心· 2026-03-12 17:30
AI发展阶段的转变 - AI发展正从上半场以模型参数和基准分数为核心的竞争,转向下半场以在真实世界持续执行复杂任务为核心的下半场[2][3] - 下半场的关键在于解决长时间、多轮次、以任务或用户为导向的现实交互场景,例如白领工作、医疗诊断和深度研究[3] - 这一转变的标志是智能体能力的进化,从最初的函数调用尝试,发展到开始真正影响各类白领行业[3] 智能体记忆成为核心驱动力 - 智能体记忆是当前AI发展的真正核心,其相关研究正在爆炸式增长,一篇系统性综述联合了超过20所高校与工业界研究单位[4] - 当智能体从短对话走向长周期任务时,爆炸性需求并非仅仅是模型智能,而是处理复杂上下文和环境的系统级记忆能力[8] - 现实环境中的信息会持续累积,复杂度远超token数量的增长,包括用户历史行为、多任务记录、工具调用结果等[9] - 真实任务具有时间跨度,要求智能体具备真正的记忆机制,能够存储、抽象、压缩、更新甚至遗忘信息,并在长期过程中持续演化[10][11] 对记忆机制的系统性重新定义 - 记忆不能简单等同于“RAG + 向量库”,这是一种表层理解[13][14] - 该综述从系统设计视角将智能体记忆拆解为三个相互作用维度:存储位置、认知功能、记忆主体[15] - 存储位置包括模型内部和外部,未来的智能体很可能是多层记忆协同的混合结构[15] - 认知功能借鉴认知科学,负责短期感知、支撑当前任务、记录具体事件、沉淀抽象知识及形成技能策略等不同功能[15] - 记忆主体可服务于用户个性化、任务领域专业能力或智能体自身改进,三者的优化目标和更新策略不同[15] - 展开后的记忆框架是一个系统级记忆体结构,未来智能体在真实应用中的能力上限,可能不再完全取决于模型参数规模,而是依赖于记忆如何与工具、环境和用户交互[16] 真实环境下的评估挑战与方向 - 在真实部署中,智能体面对的是动态环境,其核心挑战从“能存多少”转变为“如何管理环境状态”[18][19] - 随着交互时间变长和环境复杂度提升,单纯扩大上下文窗口无法解决结构混乱、信息污染和因果断裂的问题[19] - 未来的关键方向是让记忆策略本身可学习,使记忆控制器从规则工程演化为优化目标的一部分[19] - 评测体系将随之转向,未来基准测试的核心将不再是回答是否正确,而是任务是否真正完成、环境状态是否被正确维护、决策是否可追溯[19] - 真实世界环境的构建,将成为区分实验室模型与可部署智能体的分水岭[19] 行业影响与未来展望 - 智能体能力的进化已开始影响各类白领行业,Anthropic开放行业级插件生态导致一批SaaS公司股价剧烈波动[3] - 年初OpenClaw(小龙虾)开源项目的爆火,其GitHub star增长速度甚至超过Linux[3] - 从单轮智能到长期协作,从一次性回答到跨环境执行,AI的重心正在悄然转移[24] - 决定系统价值上限的,或许不再只是参数规模,而是记忆的系统级设计能力[25] - AI的下半场竞争,已经从系统级记忆体正式打响[26]
不用排长龙!JiuwenClaw助你一键养龙虾!
机器之心· 2026-03-12 17:30
文章核心观点 - 文章介绍了华为openJiuwen开源社区新推出的智能体框架“JiuwenClaw”,其设计理念是“懂你所想,自主演进”,旨在通过一键安装、任务自主管理、技能自演进、高效上下文管理等特性,为用户提供一个能够灵活执行任务、持续学习并深度融入用户工作流(如浏览器环境、小艺生态)的AI助手,推动AI从对话工具向“数字员工”转变 [1][7][25] 产品概述与安装 - JiuwenClaw是一款基于Python开发、由华为openJiuwen社区开源的智能体,支持与华为云MaaS服务和小艺开放平台无缝对接 [1] - 该产品安装部署极为简便,仅需一行命令即可完成,相比市场上其他同类产品需要复杂安装甚至付费服务,其在安装体验上具有显著优势 [1][4] - 具体安装和启动命令包括:`pip install jiuwenclaw`(安装)、`jiuwenclaw-init`(初始化)、`jiuwenclaw-start`(启动) [6] 核心功能特性 任务自主管理 - JiuwenClaw为AI配备了一个完全由AI掌控的待办事项列表,支持对任务进行动态打断、追加、修改和优先级管理 [8][9] - 在执行过程中,用户可以清晰地看到当前任务状态及AI动态调整任务计划的逻辑,提升了任务执行的可控性和透明度 [9] - 即使任务中途被用户打断或需求变更,AI也能灵活地重新规划任务,例如将查询北京天气的任务无缝替换为查询杭州天气,过程流畅 [9] - 对于简单任务,用户可选择智能执行模式,此时JiuwenClaw不会追踪任务列表,提供了灵活性 [10] Skills(技能)自主演进 - JiuwenClaw具备Skills自动演进功能,用户开启开关后,系统会在后台静默运行,观察任务执行过程和对话内容以进行学习 [13] - 演进触发信号包括工具调用失败、用户给出“不对”或“换个方式”等反馈,系统会将这些事件归因到当前使用的Skill并生成改进内容 [13] - 系统不会擅自修改Skill,而是会弹出审批窗口,让用户判断生成的改进内容是否合理并决定是否采纳,确保了用户对AI演进的控制权 [14] 上下文压缩和卸载 - JiuwenClaw具备实时显示上下文状态的能力,并内置了上下文压缩和卸载机制以高效管理长上下文任务 [17] - 在一个长上下文任务示例中,当上下文长度增长至22K时,系统自动触发压缩卸载机制,使其瞬间降至5.6K(约为原长的四分之一),并在整个任务过程中将长度控制在20K以下 [17] - 系统能按需自动加载被压缩和卸载的上下文原文,力求在节省token消耗的同时不损失关键任务信息 [17] 浏览器操控优化 - JiuwenClaw的浏览器操控能够继承用户真实的浏览器环境,包括登录状态、Cookie、浏览历史、用户偏好等,从而避免了因使用沙箱全新实例而导致的频繁人机验证、账号状态丢失等问题 [20] - 实现方式是通过前端配置用户浏览器路径来启动浏览器,从而无缝接管用户当前的浏览器环境 [20] - 自动化任务运行在独立的浏览器新进程中,不会干扰用户当前正在进行的网页浏览或其他工作,支持后台运行和必要的人机协同操作 [21] 生态集成 - JiuwenClaw可以轻松绑定华为的小艺开放平台,用户通过获取ak、sk、AgentId等信息进行绑定后,即可通过网页或移动终端的小艺app向JiuwenClaw服务下达任务,接入过程流畅 [23] - 当前产品主要接入了小艺、飞书、钉钉等国内软件,尚未接入国外软件 [25] 产品优势与行业意义 - JiuwenClaw在OpenClaw(泛指自主任务拆解与执行的智能体平台)优势基础上,进一步实现了一键安装和“科学喂养”(即自主演进与管理) [25] - OpenClaw平台的Skills可以在JiuwenClaw上无缝迁移复用,用户无需重复构建,降低了使用门槛 [25] - 该产品代表了AI从单纯对话答疑向能够“替用户做事”的“数字员工”演进的方向,通过深度融入用户真实工作环境与习惯,旨在提升工作效率 [20][25]
复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论
机器之心· 2026-03-12 17:30
行业背景与技术挑战 - 测试时扩展已成为提升模型推理能力的关键路径,块扩散语言模型因其独特的并行解码能力,被视为超越传统自回归模型推理效率的有力竞争者 [2] - 现有块扩散语言模型在长链推理中面临效率与效果的两难博弈:大块解码速度快但复杂推理易出错,小块解码准确但速度慢,同时固定置信度解码策略无法适应推理链中“难易交替”的动态特性 [2] 核心解决方案:TDAR框架 - 复旦大学NLP实验室、北京大学知识计算实验室与美团LongCat Team联合提出新框架TDAR,通过“粗思考,细求证”范式与有界自适应置信度解码,旨在打破速度与精度的零和博弈 [2] - 框架包含两大核心创新:有界自适应置信度解码算法,以及TCCF范式 [6] BACD解码算法详解 - BACD算法利用已生成token的平均置信度作为信号,动态调整当前去噪阈值,并设有上下限边界保护机制,上限在模型自信时激进加速,下限在模型不确定时强制保守,使模型能根据步骤难易调整速度 [9] - 与主流动态置信度解码相比,BACD在获得持续效率增益的同时,能维持更稳定的性能表现,有效避免了低阈值下的“模型崩溃”和“重复生成”问题 [19][20] TCCF范式详解 - TCCF范式根据推理阶段的功能分配不同计算粒度:在“粗思考”阶段使用大块进行快速探索性推理,在“细求证”阶段使用小块进行精细验证、纠错和总结 [11][15] - 该范式被证明具有普适性增益,在不同解码算法下引入TCCF都能带来一致且显著的性能提升,特别是在BACD算法中有效提升了不同阈值下的性能下限 [27] 实验性能结果 - 在Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench共6个主流推理基准上评估,TDAR-8B-Thinking在8B规模块扩散模型中取得最佳性能,平均性能超越前SOTA模型TraDo-8B达3.4个百分点,解码速度从1.27 TPF提升至2.97 TPF [13] - 结合BACD算法后,速度进一步提升至3.37 TPF且性能再涨1.6个百分点;叠加TCCF范式后,在AIME24复杂数学任务上准确率从36.3%提升至42.9%,同时维持3.04 TPF的高速度 [13][16] - 具体在AIME24基准上,TDAR-8B-Thinking的TPF达到4.47,平均性能为34.6 [14] 技术深度分析 - 块大小是影响模型性能与效率的关键变量,随着块增大,推理速度线性增长但生成质量会衰退,权衡分析确定B=16为8B模型的最佳平衡点,TDAR通过渐进式块大小扩展策略在此设置下兼顾速度与推理能力 [23] - BACD与动态置信度解码等方法在不同阈值下的效率-准确率对比显示,BACD在获得效率增益的同时能更好地维持性能 [24] 结论与行业影响 - TDAR的提出标志着块扩散语言模型在复杂推理任务上迈出重要一步,使大块大小不再是禁区,能够兼顾质量与速度 [31] - 该框架不仅为块扩散语言模型的测试时扩展提供了高效解决方案,也为未来并行推理模型的设计提供了新思路 [32] 研究团队与资源 - 研究团队成员来自美团LongCat后训练团队,包括复旦大学、北京大学的硕士生及美团的研究员 [33][34] - 相关论文、代码及模型已公开,论文发布于arXiv,代码开源在GitHub,模型发布于Hugging Face平台 [3]