AI Operating System

搜索文档

全球首个AI Agent操作系统FlowithOS跑分超Atlas，网友：它「杀死」了比赛

机器之心· 2025-10-29 17:25

产品定位与核心功能 - 公司推出全球首款专为AI Agent打造的操作系统FlowithOS，旨在改写人类与网络、信息、服务的交互方式 [2] - FlowithOS是一款Agentic工作区和Web浏览器的混合体，以浏览器形态存在，但需下载到电脑上使用的独立应用，能自主跨网页搜索并通过“代码+视觉”理解屏幕画面进行思考和执行操作 [3][4] - 该系统能将网络范围的资源编排成按需流程，并以97.7%的成功率执行，高于任何AI Agent [3] 性能表现与竞争优势 - 在基准测试中，FlowithOS以平均准确率95.4%的成绩超越所有顶级竞争对手，并在最难的级别上以92.8%的成绩超越ChatGPT Atlas的75.7% [12] - 与仅支持macOS的ChatGPT Atlas不同，FlowithOS适用于macOS和Windows，并已进入公测阶段 [19] - 该系统具备强大的记忆能力，由专有的Agent内存管理框架支持，用户互动会建立相关记忆，使用次数越多则进化越快，提供更个性化服务 [14] 市场反响与公司背景 - 用户测试反馈认为FlowithOS像一个会自己“思考”的系统，可自动化内容创作等任务，并被形容为互联网上的全自动自动驾驶系统 [5][6] - 有观点认为FlowithOS不仅是一个竞争对手，更对OpenAI的Atlas构成严重威胁，是近期最有想象力的AI应用之一 [6][9] - 公司成立于2023年，由10名95后创业者成立，创始人Derek年仅28岁已有9年创业经历，公司此前已推出多款AI产品并获好评 [20][21][22]

手机AGI助手还有多远？移动智能体复合长程任务测试基准与调度系统发布

机器之心· 2025-07-26 17:32

端侧智能发展现状 - 多模态大模型驱动的OS智能体在单屏动作落实和短链操作任务上表现突出，但面对复合长程任务（如跨应用比价下单、多网页新闻摘要）仍存在显著能力缺口[4] - 当前训练方式（环境感知、动作落实微调）优化了原子任务表现，但复合任务需解决长链条进度管理、异源信息整合等新挑战[4] 复合任务分类与挑战 - 三类复合任务：独立组合型（无依赖子任务拼接）、语境传递型（需跨应用信息继承）、深度分析型（需结合通用推理与设备操作）[11] - 主流移动端GUI智能体（OS-Atlas、UI-TARS等）在复合任务中普遍存在注意力涣散、信息传递失败、进度管理混乱等典型缺陷[14][16] UI-NEXUS测试基准 - 覆盖50款中英文应用（20本地+30在线），设计100个任务模板，平均最优完成步数14.05步，难度显著高于同类基准[7][21] - 包含动态测评平台UI-NEXUS-Anchor子集，支持可控环境下的可扩展测试开发[21] - 细粒度指标涵盖任务成功率、推理时延、Token成本等维度[21] 智能体技术方案对比 - Agent-as-a-Model方案（如UI-TARS-7B-SFT）在原子任务执行效率高，但复合任务完成率仅11%[25][29] - Agentic Workflow方案（如M3A）鲁棒性更强，但依赖GPT-4o导致高推理成本（时延长、费用高）[27][31] - 记忆机制差异显著影响表现：主动记忆型（Mobile-Agent-V2）优于部分记忆型，但计算冗余大[32] AGENT-NEXUS调度系统 - 采用分层架构（调度/执行/进程内存模块），将复合任务拆解为原子指令，任务完成率提升24%-40%[19][27][30] - 支持第三方智能体插件化接入（如UI-TARS-7B-SFT），推理开销仅增加8%[23][27] - 通过显式调度解决信息传递问题，逼近人工拆解指令的60%强上限表现[29][30] 未来技术方向 - 需融合领域微调模型的高效执行与工作流系统的复杂调度能力[31][32] - 系统级设计将成为突破复合任务瓶颈的关键，推动端侧智能向AI操作系统演进[35][36]

Mobile Agents

AI Operating System

Artificial Intelligence

Artificial Intelligence

UI-NEXUS

Agent-NEXUS