机器之心
搜索文档
还需付费卸载龙虾?这只龙虾能直接「杀死」OpenClaw
机器之心· 2026-03-12 19:00
OpenClaw本地智能体代理的安全风险与用户担忧 - 近期用户对OpenClaw的关注点已从安装配置转向其安全性问题,核心担忧在于其一旦深入本地系统后,能否被彻底移除[2] - OpenClaw作为本地Agent,工作时接触浏览器、终端、文件系统、本地账号、API Key、访问令牌和整套运行环境,潜在影响远超功能稳定性,可能危及电脑、数据及工作流本身[3] - 国家互联网应急中心于3月10日发布风险提示,指出在默认或不当配置下,OpenClaw可能导致系统密钥泄露、重要信息误删、恶意插件窃取数据,甚至因漏洞被利用导致系统被控、隐私和敏感数据泄露[3] - 工业和信息化部网络安全威胁和漏洞信息共享平台也提示,部分实例在默认或不当配置情况下存在较高安全风险[3] 卸载OpenClaw的复杂性与市场需求 - 官方卸载流程复杂,不仅需删除程序本体,还包括停止并移除Gateway服务、删除状态目录和配置文件、清理工作区,在Windows环境下甚至需手动处理计划任务和相关脚本[10] - 卸载不彻底可能导致后台任务、配置残留、工作目录及凭证信息留在机器中,若残留物被误调用或再次利用,风险将更难察觉[10] - 市场已出现针对OpenClaw的“上门/远程卸载”服务,价格从29.9元到299元不等,用户付费不仅为省事,更为了确保彻底清除、避免后患[7] - 用户购买卸载服务本质是购买一种确定性,即确认该程序已停止、残留已清理、电脑和账号环境恢复至可控状态[10] GenericAgent展现的深度系统理解与卸载能力 - GenericAgent不仅能安装复杂系统如OpenClaw,更能执行深度卸载,其过程考验对系统全局的理解,而非机械执行命令[13] - 卸载过程包括:定位安装位置、识别运行进程、清理配置/缓存/日志、移除系统依赖和服务,并进行最终检查以确保彻底清除[13] - 该能力表明GenericAgent能理解另一套系统(如OpenClaw)的运行方式,能梳理其与本地环境、依赖、配置、缓存、日志、任务、服务及权限体系的复杂关系[14] - 卸载演示比安装演示更能体现代理能力,因为卸载考验的是收尾能力和对系统的全局理解,确保在不搞乱系统的前提下完整移除复杂工具[15] 复杂智能系统“自毁”的悖论与第三方卸载的必要性 - 像OpenClaw这类深度集成于系统的“龙虾系统”,难以实现自我彻底卸载,因为它既是操作者也是被处理对象,缺乏外部视角来判断哪些部分该保留或清理[19][20] - 复杂智能系统的自毁需要一个站在外部的第三方观察者来确认其已成功退场,“让另一套系统来完成卸载”比自我结束更合理[21][22] - GenericAgent在卸载自身时,成功清空了本地代码仓库,仅保留了最后一次对话缓存,将是否抹除最终痕迹的决定权交给了人类[22][23] GenericAgent产品背景与价值主张 - GenericAgent由复旦大学知识工场实验室旗下A3实验室与深圳夸夸菁领科技有限公司合作研发,是一个极简自主Agent框架,定位为下一代自组织、自学习、自进化的通用智能体[25] - 该系统自2026年1月11日已开源,其价值主张包括:用户无需再花费299元请人卸载OpenClaw,可尝试使用GenericAgent自动完成卸载[25]
AI下半场的战场,从Agent记忆体正式打响
机器之心· 2026-03-12 17:30
AI发展阶段的转变 - AI发展正从上半场以模型参数和基准分数为核心的竞争,转向下半场以在真实世界持续执行复杂任务为核心的下半场[2][3] - 下半场的关键在于解决长时间、多轮次、以任务或用户为导向的现实交互场景,例如白领工作、医疗诊断和深度研究[3] - 这一转变的标志是智能体能力的进化,从最初的函数调用尝试,发展到开始真正影响各类白领行业[3] 智能体记忆成为核心驱动力 - 智能体记忆是当前AI发展的真正核心,其相关研究正在爆炸式增长,一篇系统性综述联合了超过20所高校与工业界研究单位[4] - 当智能体从短对话走向长周期任务时,爆炸性需求并非仅仅是模型智能,而是处理复杂上下文和环境的系统级记忆能力[8] - 现实环境中的信息会持续累积,复杂度远超token数量的增长,包括用户历史行为、多任务记录、工具调用结果等[9] - 真实任务具有时间跨度,要求智能体具备真正的记忆机制,能够存储、抽象、压缩、更新甚至遗忘信息,并在长期过程中持续演化[10][11] 对记忆机制的系统性重新定义 - 记忆不能简单等同于“RAG + 向量库”,这是一种表层理解[13][14] - 该综述从系统设计视角将智能体记忆拆解为三个相互作用维度:存储位置、认知功能、记忆主体[15] - 存储位置包括模型内部和外部,未来的智能体很可能是多层记忆协同的混合结构[15] - 认知功能借鉴认知科学,负责短期感知、支撑当前任务、记录具体事件、沉淀抽象知识及形成技能策略等不同功能[15] - 记忆主体可服务于用户个性化、任务领域专业能力或智能体自身改进,三者的优化目标和更新策略不同[15] - 展开后的记忆框架是一个系统级记忆体结构,未来智能体在真实应用中的能力上限,可能不再完全取决于模型参数规模,而是依赖于记忆如何与工具、环境和用户交互[16] 真实环境下的评估挑战与方向 - 在真实部署中,智能体面对的是动态环境,其核心挑战从“能存多少”转变为“如何管理环境状态”[18][19] - 随着交互时间变长和环境复杂度提升,单纯扩大上下文窗口无法解决结构混乱、信息污染和因果断裂的问题[19] - 未来的关键方向是让记忆策略本身可学习,使记忆控制器从规则工程演化为优化目标的一部分[19] - 评测体系将随之转向,未来基准测试的核心将不再是回答是否正确,而是任务是否真正完成、环境状态是否被正确维护、决策是否可追溯[19] - 真实世界环境的构建,将成为区分实验室模型与可部署智能体的分水岭[19] 行业影响与未来展望 - 智能体能力的进化已开始影响各类白领行业,Anthropic开放行业级插件生态导致一批SaaS公司股价剧烈波动[3] - 年初OpenClaw(小龙虾)开源项目的爆火,其GitHub star增长速度甚至超过Linux[3] - 从单轮智能到长期协作,从一次性回答到跨环境执行,AI的重心正在悄然转移[24] - 决定系统价值上限的,或许不再只是参数规模,而是记忆的系统级设计能力[25] - AI的下半场竞争,已经从系统级记忆体正式打响[26]
不用排长龙!JiuwenClaw助你一键养龙虾!
机器之心· 2026-03-12 17:30
文章核心观点 - 文章介绍了华为openJiuwen开源社区新推出的智能体框架“JiuwenClaw”,其设计理念是“懂你所想,自主演进”,旨在通过一键安装、任务自主管理、技能自演进、高效上下文管理等特性,为用户提供一个能够灵活执行任务、持续学习并深度融入用户工作流(如浏览器环境、小艺生态)的AI助手,推动AI从对话工具向“数字员工”转变 [1][7][25] 产品概述与安装 - JiuwenClaw是一款基于Python开发、由华为openJiuwen社区开源的智能体,支持与华为云MaaS服务和小艺开放平台无缝对接 [1] - 该产品安装部署极为简便,仅需一行命令即可完成,相比市场上其他同类产品需要复杂安装甚至付费服务,其在安装体验上具有显著优势 [1][4] - 具体安装和启动命令包括:`pip install jiuwenclaw`(安装)、`jiuwenclaw-init`(初始化)、`jiuwenclaw-start`(启动) [6] 核心功能特性 任务自主管理 - JiuwenClaw为AI配备了一个完全由AI掌控的待办事项列表,支持对任务进行动态打断、追加、修改和优先级管理 [8][9] - 在执行过程中,用户可以清晰地看到当前任务状态及AI动态调整任务计划的逻辑,提升了任务执行的可控性和透明度 [9] - 即使任务中途被用户打断或需求变更,AI也能灵活地重新规划任务,例如将查询北京天气的任务无缝替换为查询杭州天气,过程流畅 [9] - 对于简单任务,用户可选择智能执行模式,此时JiuwenClaw不会追踪任务列表,提供了灵活性 [10] Skills(技能)自主演进 - JiuwenClaw具备Skills自动演进功能,用户开启开关后,系统会在后台静默运行,观察任务执行过程和对话内容以进行学习 [13] - 演进触发信号包括工具调用失败、用户给出“不对”或“换个方式”等反馈,系统会将这些事件归因到当前使用的Skill并生成改进内容 [13] - 系统不会擅自修改Skill,而是会弹出审批窗口,让用户判断生成的改进内容是否合理并决定是否采纳,确保了用户对AI演进的控制权 [14] 上下文压缩和卸载 - JiuwenClaw具备实时显示上下文状态的能力,并内置了上下文压缩和卸载机制以高效管理长上下文任务 [17] - 在一个长上下文任务示例中,当上下文长度增长至22K时,系统自动触发压缩卸载机制,使其瞬间降至5.6K(约为原长的四分之一),并在整个任务过程中将长度控制在20K以下 [17] - 系统能按需自动加载被压缩和卸载的上下文原文,力求在节省token消耗的同时不损失关键任务信息 [17] 浏览器操控优化 - JiuwenClaw的浏览器操控能够继承用户真实的浏览器环境,包括登录状态、Cookie、浏览历史、用户偏好等,从而避免了因使用沙箱全新实例而导致的频繁人机验证、账号状态丢失等问题 [20] - 实现方式是通过前端配置用户浏览器路径来启动浏览器,从而无缝接管用户当前的浏览器环境 [20] - 自动化任务运行在独立的浏览器新进程中,不会干扰用户当前正在进行的网页浏览或其他工作,支持后台运行和必要的人机协同操作 [21] 生态集成 - JiuwenClaw可以轻松绑定华为的小艺开放平台,用户通过获取ak、sk、AgentId等信息进行绑定后,即可通过网页或移动终端的小艺app向JiuwenClaw服务下达任务,接入过程流畅 [23] - 当前产品主要接入了小艺、飞书、钉钉等国内软件,尚未接入国外软件 [25] 产品优势与行业意义 - JiuwenClaw在OpenClaw(泛指自主任务拆解与执行的智能体平台)优势基础上,进一步实现了一键安装和“科学喂养”(即自主演进与管理) [25] - OpenClaw平台的Skills可以在JiuwenClaw上无缝迁移复用,用户无需重复构建,降低了使用门槛 [25] - 该产品代表了AI从单纯对话答疑向能够“替用户做事”的“数字员工”演进的方向,通过深度融入用户真实工作环境与习惯,旨在提升工作效率 [20][25]
复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论
机器之心· 2026-03-12 17:30
行业背景与技术挑战 - 测试时扩展已成为提升模型推理能力的关键路径,块扩散语言模型因其独特的并行解码能力,被视为超越传统自回归模型推理效率的有力竞争者 [2] - 现有块扩散语言模型在长链推理中面临效率与效果的两难博弈:大块解码速度快但复杂推理易出错,小块解码准确但速度慢,同时固定置信度解码策略无法适应推理链中“难易交替”的动态特性 [2] 核心解决方案:TDAR框架 - 复旦大学NLP实验室、北京大学知识计算实验室与美团LongCat Team联合提出新框架TDAR,通过“粗思考,细求证”范式与有界自适应置信度解码,旨在打破速度与精度的零和博弈 [2] - 框架包含两大核心创新:有界自适应置信度解码算法,以及TCCF范式 [6] BACD解码算法详解 - BACD算法利用已生成token的平均置信度作为信号,动态调整当前去噪阈值,并设有上下限边界保护机制,上限在模型自信时激进加速,下限在模型不确定时强制保守,使模型能根据步骤难易调整速度 [9] - 与主流动态置信度解码相比,BACD在获得持续效率增益的同时,能维持更稳定的性能表现,有效避免了低阈值下的“模型崩溃”和“重复生成”问题 [19][20] TCCF范式详解 - TCCF范式根据推理阶段的功能分配不同计算粒度:在“粗思考”阶段使用大块进行快速探索性推理,在“细求证”阶段使用小块进行精细验证、纠错和总结 [11][15] - 该范式被证明具有普适性增益,在不同解码算法下引入TCCF都能带来一致且显著的性能提升,特别是在BACD算法中有效提升了不同阈值下的性能下限 [27] 实验性能结果 - 在Math500、AIME24、AIME25、AMC23、GPQA、LiveCodeBench共6个主流推理基准上评估,TDAR-8B-Thinking在8B规模块扩散模型中取得最佳性能,平均性能超越前SOTA模型TraDo-8B达3.4个百分点,解码速度从1.27 TPF提升至2.97 TPF [13] - 结合BACD算法后,速度进一步提升至3.37 TPF且性能再涨1.6个百分点;叠加TCCF范式后,在AIME24复杂数学任务上准确率从36.3%提升至42.9%,同时维持3.04 TPF的高速度 [13][16] - 具体在AIME24基准上,TDAR-8B-Thinking的TPF达到4.47,平均性能为34.6 [14] 技术深度分析 - 块大小是影响模型性能与效率的关键变量,随着块增大,推理速度线性增长但生成质量会衰退,权衡分析确定B=16为8B模型的最佳平衡点,TDAR通过渐进式块大小扩展策略在此设置下兼顾速度与推理能力 [23] - BACD与动态置信度解码等方法在不同阈值下的效率-准确率对比显示,BACD在获得效率增益的同时能更好地维持性能 [24] 结论与行业影响 - TDAR的提出标志着块扩散语言模型在复杂推理任务上迈出重要一步,使大块大小不再是禁区,能够兼顾质量与速度 [31] - 该框架不仅为块扩散语言模型的测试时扩展提供了高效解决方案,也为未来并行推理模型的设计提供了新思路 [32] 研究团队与资源 - 研究团队成员来自美团LongCat后训练团队,包括复旦大学、北京大学的硕士生及美团的研究员 [33][34] - 相关论文、代码及模型已公开,论文发布于arXiv,代码开源在GitHub,模型发布于Hugging Face平台 [3]
2秒终结AI 3D不可能三角,我们和VAST首席科学家曹炎培聊了聊
机器之心· 2026-03-12 17:30
文章核心观点 - 国内初创公司VAST发布的Tripo P1.0模型,首次在AI 3D生成领域同时实现了速度、质量和管线可用性,打破了该领域长期存在的“不可能三角” [2][9][10] - 该模型通过“原生三维空间概率生成”的底层范式重构,能在约2秒内从单张图片或提示词生成拓扑规整、可直接用于生产管线(如游戏开发、实时渲染)的3D网格资产,效率较传统方案提升百倍以上 [2][4][6][9][32] - 这一突破标志着AI 3D生成从“视觉近似”跨越到了“工业资产可用”阶段,有望大幅降低3D内容创作门槛,并推动其在游戏、空间计算、具身智能等领域的应用普及 [33][40][44] 技术突破与产品性能 - **生成速度**:Tripo P1.0模型实测仅需约2秒即可生成结构化3D网格,而过去经验丰富的3D建模师完成一个游戏级别角色资产需要数天时间 [2][3][6] - **生成质量**:生成的网格拥有干净、智能的拓扑结构,布线规整,几何形体与输入高度一致,面数可在500到20000面之间灵活控制 [4][9] - **管线可用性**:生成后的资产可直接进入实时图形流程,适用于游戏开发、仿真模拟、实时渲染等场景,几乎无需复杂的后处理建模流程 [9] - **纹理生成**:模型能自动生成匹配的高质量纹理贴图,在材质精度、光影渲染及细节刻画上达到专业级水准 [16][17][19] 底层技术范式重构 - **问题根源**:传统AI 3D生成模型沿用了处理一维序列或二维矩阵的逻辑,将三维整体结构强行序列化,导致对称性丧失和误差级联,从而陷入速度慢、拓扑乱、后处理重的困境 [23][24][25][31] - **核心创新**:Tripo P1.0摒弃序列化方法,在原生三维空间中通过“概率生成”对整个形状的生成过程进行建模,顶点、边、面的关系在统一特征空间中共同演化 [26][27][28][29] - **带来的改变**: - **几何层面**:结构对称性、比例关系等作为全局生成的自然结果涌现,无需人工干预 [30] - **质量层面**:直接在约5000万条高质量工业标准3D数据上训练,生成结果具备规范拓扑,基本无需重拓扑等后处理 [30] - **效率层面**:将复杂拓扑关系映射为连续度量关系,计算契合GPU并行特性,使原本需数百秒的任务缩短至约2秒 [30][32] 公司产品战略与市场应用 - **“双旗舰”布局**:公司拥有两条技术路线,Tripo H3.1追求极致的视觉和几何保真度;Tripo P1.0解决时效性问题,在满足工业标准的前提下实现极快生成 [36][37] - **应用场景**: - **P1.0**:生成可直接用于各种引擎和3D编辑器的实时资产,适用于游戏、机器人仿真、XR/AR及具身智能(需要可动性和交互性)等场景 [37][39] - **H3.1**:适用于追求视觉天花板或精细表面细节的场景,如3D打印、3A游戏主角参考建模、工业设计等 [37] - **降低门槛与UGC**:该技术将模糊“3D建模”概念,用户将回归创造意图本身,使3D资产获取像生成图片一样简单,极大促进UGC内容普及和大众化 [40] - **行业影响**:当生成一个标准3D交互资产只需几秒,将彻底打破资产丰富性、建模成本等限制,释放创作者想象力 [41][42] 行业意义与未来展望 - **范式演进**:AI 3D网格生成从“算法1.0”(基于序列化的自回归生成)进入新阶段,以原生三维空间概率生成为核心,首次使速度、质量与管线可用性同时成立 [33] - **基础设施化**:3D模态正在成为整个AI基础设施中非常重要的一环,而不仅仅是建立在语言、图像、视频之上 [44] - **编辑与交互**:未来用户甚至无需使用Blender等复杂编辑工具,通过与模型交互或对话即可编辑或演化出最终想要的模型 [43] - **人才基础**:公司通过V・STAR人才计划吸纳和培养顶尖研究者,是其能持续取得技术突破(如H3.1、P1.0及世界模型进展)的关键 [45]
英伟达叫板DeepSeek?怒投260亿美元,要打造最强开源模型
机器之心· 2026-03-12 16:19
文章核心观点 - 英伟达正从人工智能算力供应商向全栈AI巨头战略转型,其目标直指前沿大模型领域 [14] - 公司通过巨额投资和发布顶级开源模型,积极进入其定义的AI基础设施“五层蛋糕”的每一层,特别是模型层 [4][6][14] - 这一“以模型带硬件”的策略旨在通过对芯片能力的极致优化,进一步巩固其在全球AI算力竞争中的主导地位 [15] 英伟达对AI基础设施的定位与战略 - 公司CEO黄仁勋认为,人工智能是塑造世界最强大的力量之一,是如同电力和互联网一般的关键基础设施,而非单一应用或模型 [2] - 公司将人工智能基础设施划分为“五层蛋糕”:能源 → 芯片 → 基础设施 → 模型 → 应用 [3] - 英伟达自身已成为AI时代基础设施的一部分,尤其在芯片和“AI工厂”类基础设施领域,但现在正尝试进入所有层级 [4] 英伟达在开源大模型领域的投入与进展 - 公司计划在未来五年内投入260亿美元用于构建开源人工智能模型 [6] - 近期发布了性能强大的开源模型Nemotron 3 Super,拥有1280亿个参数,体量相当于OpenAI的GPT-OSS,并在多项基准测试中表现更优 [9] - 公司应用深度学习研究副总裁表示,英伟达正以更严肃的态度对待开源模型开发并取得进步 [10] - 此前,公司已通过推出Nemotron系列模型(包括多种混合架构)正式尝试进入通用大模型领域,旨在将CUDA生态与自研模型深度结合 [4] 英伟达战略转型的驱动因素 - 开发AI模型能帮助公司改进芯片,并提升其构建的超算级数据中心能力,通过测试系统极限来指导硬件架构路线图 [13] - 当前前沿领先的开源模型几乎都集中在中国(如DeepSeek、Qwen等),全球许多开发者和研究者基于这些模型进行开发,这成为英伟达投入开放权重大模型研发的重要驱动力之一 [13][14] - 行业观察者认为,此举是公司对AI开放性抱有信念的空前信号,也标志着其从算力供应商向全栈AI巨头的转型 [14]
璞锐学者|全球顶尖博士生:自由立项、跨学科博士组队、超常规资源
机器之心· 2026-03-12 16:19
项目定位与目标 - 项目是面向海内外顶尖高校博士生打造的专项人才孵化项目[1] - 旨在为顶尖青年学者搭建探索前沿研究的平台[1] - 目标是在与学院博士生共研共创中共同突破、成长[1] - 欢迎全球范围内有志于投身AI行业发展的顶尖人才加入[2] - 目标是一起实现AI前沿探索及产业转化[2] - 计划主要面向2026/2027届毕业的博士生[3] 项目提供的资源与支持 - 提供与顶尖高校博士生共创的团队合作环境[4] - 鼓励以团队协作激发灵感并在多元背景交流中孕育学术突破[4] - 鼓励颠覆性、突破性研究并提供自由立项、自主选题的空间[4] - 立项项目经论证可提供上百万算力资源[4] - 提供顶级的薪资待遇[4] - 为海外/非沪学生提供免费住宿[4] - 立项周期一般不超过6个月评估优秀的可滚动支持[4] - 提供产业孵化及转化的广阔平台[6] - 项目拥有产业落地的可能性[5] - 旨在实现创新与价值创造同步以及市场、社会价值的转化[6] 申请要求与流程 - 申请者需带着想做的前沿idea来申请[6] - 立项不得与博士论文重叠[6] - 申请时间安排为全年分批开放评审首批截止至3月底[7] - 投递流程包括投递简历、简历筛选和学院评审[7] - 可通过扫描二维码或访问学院官网人才引进专区报名[8]
ICLR 2026 | LongHorizonUI:让 GUI 智能体不再"半途而废"——面向长链路任务的统一鲁棒自动化框架
机器之心· 2026-03-12 16:19
研究背景与问题 - 在移动端和桌面端的日常使用中,许多复杂任务需要十几步甚至几十步的连续交互,而基于多模态大语言模型的GUI智能体在自动化操作时,当任务步数超过10–15步,其成功率会出现断崖式下跌[2] - 研究团队在AndroidControl基准上的评估显示,当操作序列在5步以内时,各方法的平均成功率超过90%;一旦序列长度超过10步,成功率便跌破75%;到了15步以上,平均仅剩约60%[5] - 这种非线性的性能衰减说明,现有方法在长链路中无法有效捕捉跨步状态依赖,感知漂移、定位偏差和决策误差逐步叠加,最终导致整个流程崩溃[5] 解决方案:LongHorizonUI框架 - 为解决长链路任务自动化问题,来自中国科学院大学、佐治亚理工学院、南开大学与腾讯互娱Turing Lab的研究人员共同提出了LongHorizonUI,一个面向GUI智能体长链路任务的统一鲁棒自动化框架[2] - 该框架的核心设计理念是将“语义决策”到“物理执行”之间的不确定性做分层处理,由感知、决策、执行三大模块组成完整闭环[9] - 框架提出了增强感知、深度反思决策与补偿式执行三大核心模块,以解决长步骤操作中的误差累积问题[2][19] 评测基准:LongGUIBench - 为在长链路场景下开展系统性评测,研究团队构建了新的基准LongGUIBench,所有任务的操作步数均不低于15步,平均为22.1步[7] - 数据集包含两大类场景:通用应用场景涵盖了Gmail、YouTube等15款主流应用,共147条端到端任务链,平均步数19.5;游戏场景由专业测试人员在13款热门游戏APP中录制,共207条高复杂度链路,平均步数23.7,最长可达37步[7] - 每条任务同时提供High-Level指令描述宏观目标和Low-Level指令分解为原子操作序列,所有操作步骤均配有精细的UI语义标注,全部数据合计4508张截图[7] 核心方法详解 - **多模态增强感知模块**:并行运行控件检测器与OCR识别模块,为每个UI元素分配唯一的空间索引ID,并引入基于IoU的语义绑定机制解决复合控件歧义问题,同时设置模板匹配修复机制确保关键元素不漏检[12] - **深度反思决策模块**:通过严格定义的JSON Schema输出格式,强制模型进行三级闭环推理,包括历史验证、目标检查和动作可解释推理,并在执行前校验目标元素是否存在及动作语义是否匹配[12] - **补偿式执行器**:负责将动作指令映射到物理坐标,按优先级依次尝试三种定位策略,并在所有候选方案均失败时触发局部重规划或回滚到上一个成功快照[13] 实验结果与性能 - 在LongGUIBench上,LongHorizonUI在通用场景中,低级指令的步骤成功率达到85.3%,高级指令达到52.3%,分别较UI-TARS-1.5提升了6.1%和30.5%;在游戏场景中,低级指令成功率83.9%,高级指令52.1%,整体平均77.3%[15] - 在ScreenSpot跨平台UI元素定位基准上,LongHorizonUI以90.4%的平均准确率超越此前所有开源方法,在Mobile、Desktop、Web三个平台上均表现稳健[15] - 消融实验证实了各模块的必要性:移除控件检测器使步骤完成率下降6.1%,移除OCR模块导致2.3%的下降,仅使用索引定位的任务完成率为81.4%,叠加补偿策略后逐步提升至85.3%[15] - 在OSWorld的50步长链路设置中,LongHorizonUI达到29.4%的成功率,较UI-TARS-72B的24.6%提升了4.8个百分点[16] 研究意义与影响 - LongHorizonUI为长链路GUI自动化任务提供了一套完整的解决方案,通过索引化感知、结构化反思决策和多级补偿执行的协同设计,有效缓解了长步骤操作中的误差累积问题[19] - 该成果已被ICLR 2026接收,构建的LongGUIBench基准也为该领域后续研究提供了标准化的评测平台[2][19] - 研究团队来自学术界与产业界,包括中国科学院大学、佐治亚理工学院、南开大学与腾讯互娱Turing Lab,体现了产学研结合的特点[2][20]
最强多模态模型也拿不到30分?DeepImageSearch定义相册搜索新范式,开启个人视觉记忆的深度搜索时代
机器之心· 2026-03-11 18:59
图像检索范式变革 - 研究团队提出名为DeepImageSearch的图像检索新范式,将技术从“逐张语义匹配”推向“语料库级上下文推理”的全新范式 [2] - 新范式的核心是打破传统图像检索的底层假设,即每张图片被独立评估,目标仅凭自身视觉内容就能被识别 [7][8] - 新范式要求模型像侦探一样,在用户的视觉历史中规划搜索路径、串联散落线索、构建证据链,完成一次多步探索,而非单次检索 [7][10] 新范式定义与挑战 - 真正的相册搜索需要模型理解事件之间的时间脉络、空间关联和因果逻辑,在用户人生经历编织成的网络中循着蛛丝马迹找到答案 [10] - 新范式面临的核心挑战是设计高难度的评测基准,因为从用户数千张照片中挖掘隐藏的跨事件关联并设计多步推理题目成本极高 [12] - 研究团队通过人机协作流水线解决基准构建难题:先用模型自动挖掘线索与关联,组织成结构化记忆图谱,再由大语言模型沿推理路径生成候选查询,最后由人类专家核验改进 [13][14] 评测基准DISBench - 团队构建了名为DISBench的评测基准,包含两类查询:Intra-Event查询(占46.7%)和Inter-Event查询(占53.3%) [16] - 基准覆盖57位用户、近11万张照片,平均每位用户的视觉历史跨度3.4年,每条查询平均指向3.84张目标图片 [16] - 模型在评测时对“哪些照片属于同一事件”的内在结构完全不可见,必须从混沌中自主发现结构、串联线索 [16] 智能体框架ImageSeeker - 为探索完成视觉历史深度搜索所需的能力,团队设计了ImageSeeker框架,旨在系统性探索任务需求、工具设计和长程推理状态管理 [19] - 工具层面,模型需要灵活组合四种能力:语义检索、时空过滤、视觉确认及外部知识补充,并能通过命名子集协同这些能力,实现先缩小范围再精确定位的多步推理 [19][20] - 记忆层面,引入双层记忆机制解决长战线问题:显式状态记忆通过命名子集持久化保存中间发现;压缩上下文记忆在对话历史接近上限时自动提炼为“全局目标”和“当前行动计划”摘要 [20] 主流模型性能表现 - 在DISBench上测试的主流前沿模型表现全线受挫,表现最好的Claude-Opus-4.5一次尝试的完美率也只有约29% [22] - 开源最佳模型GLM-4.6V的综合得分不到最强闭源模型的四成 [22] - 传统Embedding模型(如Qwen3-VL-Embedding-2B/8B)在该任务上表现几乎等于盲猜,因为无法区分视觉高度相似但来自不同事件的图片,凸显了范式天花板 [22] 模型失败原因分析 - 系统性人工分析发现,模型失败的主要原因是规划和推理出错,该类型错误占所有错误的36%到50%,而非感知能力不足 [23][24] - 跨事件推理是核心瓶颈,强模型在单个事件内的搜索明显优于跨事件搜索,例如Claude-Opus-4.5的表现在跨事件查询上打了八折 [25] - 模型有做对的潜力,通过Best@k和多数投票等方式测试,总分随测试次数增加而提升,表明如何释放模型潜力是后续关键 [25]
一手实测!不用研究小龙虾了:腾讯搬出QClaw,直连微信,零门槛
机器之心· 2026-03-11 18:59
腾讯QClaw产品发布与核心功能 - 腾讯基于OpenClaw开源生态推出了一键安装版本QClaw,主打简单、零门槛部署,无需准备服务器、命令行或额外配置IM工具,下载即可使用[3] - QClaw允许用户通过对话聊天的方式操控电脑,可直连DeepSeek、Kimi、MiniMax等主流大语言模型,也支持自定义千问、混元、豆包等模型[6] - QClaw集成了微信,用户可在聊天窗口发送指令远程操控电脑,执行整理文件、自动化等任务[8] - 产品已开始内部测试,默认模型的token目前免费[9] - 马化腾在朋友圈预告,后续将有自研龙虾、本地虾、云端虾、企业虾、云桌面虾、安全隔离虾房、云保安、知识库等一系列产品[11] QClaw产品实测与易用性 - 实测安装过程简单,类似微信、QQ,但需要邀请码[14] - 目前支持苹果设备(M芯片和英特尔芯片),Windows版本将于本周上线[15] - 安装后关联微信,通过手机扫码确认,之后即可通过微信“客服消息”直接下发任务[17] - 用户可远程指挥QClaw完成文件整理、创建表格等任务,例如将桌面录屏文件整理至新文件夹,或将发票文件整理生成报销明细表[20][21][24][26][27] - 生成的表格条理清晰,但暂时无法直接传送到手机,只能在电脑端打开[30] QClaw的高级分析与技能(Skills)生态 - QClaw可分析多份文档并生成综合分析报告,例如综合6个文档输出包含十大核心趋势、热点事件概括及报道优先级建议的AI领域趋势分析报告[31][32] - OpenClaw的核心在于“Skills”插件系统,使其从聊天工具升级为能执行任务的AI Agent[34] - 针对Skills市场混乱、存在安全风险的现状,腾讯推出了本土化的SkillHub技能社区,已聚合来自官方生态的1.3万多个Skills,并进行安全扫描和过滤[37][39] - SkillHub提供认证、加速下载和安全审计,并精选出TOP 50 Skills,覆盖小红书自动化、GitHub管理、个人效率工具等多个场景[46][48] - Skills安装简单,例如从SkillHub官网复制提示词给QClaw即可完成[40] AI Agent的安全挑战与腾讯的应对方案 - 据OpenClaw专项安全监控站Declawed披露,全球已有超过23万台暴露实例,AI智能体可能成为黑客的“后门”[58] - 一旦主机环境被入侵,攻击者能以AI代理的高权限执行任意命令,导致密钥窃取、钱包洗劫、隐私泄露等风险[58] - 腾讯电脑管家18.0版本推出“AI安全沙箱”功能,以“隔离运行、全程防护、行为可溯”机制,将AI Agent的高权限操作纳入安全可控的隔离边界[58] - 该功能对高风险Skills下载、危险指令执行、越权访问等行为实现全流程实时检测与拦截,提供五重防护覆盖系统、skills、支付、Prompt和文件访问安全[60] - 为每个AI应用配置独立操作日志,确保操作轨迹全程可追溯[63] 产品局限性与行业影响 - 出于安全考虑,QClaw目前缺乏控制本地应用程序(如剪映、网易云音乐)的权限,导致相关任务执行失败[66] - 对于网页端应用,由于打开的是隔离的未登录浏览器,许多需要登录的操作也无法完成[68][70] - QClaw团队仍在打磨产品,当前体验的仅为初级版本,更多功能将陆续上线[72] - QClaw的出现借助微信、QQ等国民级应用生态,大幅降低了AI智能体的使用门槛,使普通人能从“看客”变为“玩家”[73] - 其本地电脑部署方式坚持了OpenClaw的分布式路线,可能让数以亿计的终端设备成为智能体节点,并逐渐成为智能体的新标准[74]