AI Operating System
搜索文档
全球首个AI Agent操作系统FlowithOS跑分超Atlas,网友:它「杀死」了比赛
机器之心· 2025-10-29 17:25
产品定位与核心功能 - 公司推出全球首款专为AI Agent打造的操作系统FlowithOS,旨在改写人类与网络、信息、服务的交互方式 [2] - FlowithOS是一款Agentic工作区和Web浏览器的混合体,以浏览器形态存在,但需下载到电脑上使用的独立应用,能自主跨网页搜索并通过“代码+视觉”理解屏幕画面进行思考和执行操作 [3][4] - 该系统能将网络范围的资源编排成按需流程,并以97.7%的成功率执行,高于任何AI Agent [3] 性能表现与竞争优势 - 在基准测试中,FlowithOS以平均准确率95.4%的成绩超越所有顶级竞争对手,并在最难的级别上以92.8%的成绩超越ChatGPT Atlas的75.7% [12] - 与仅支持macOS的ChatGPT Atlas不同,FlowithOS适用于macOS和Windows,并已进入公测阶段 [19] - 该系统具备强大的记忆能力,由专有的Agent内存管理框架支持,用户互动会建立相关记忆,使用次数越多则进化越快,提供更个性化服务 [14] 市场反响与公司背景 - 用户测试反馈认为FlowithOS像一个会自己“思考”的系统,可自动化内容创作等任务,并被形容为互联网上的全自动自动驾驶系统 [5][6] - 有观点认为FlowithOS不仅是一个竞争对手,更对OpenAI的Atlas构成严重威胁,是近期最有想象力的AI应用之一 [6][9] - 公司成立于2023年,由10名95后创业者成立,创始人Derek年仅28岁已有9年创业经历,公司此前已推出多款AI产品并获好评 [20][21][22]
手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布
机器之心· 2025-07-26 17:32
端侧智能发展现状 - 多模态大模型驱动的OS智能体在单屏动作落实和短链操作任务上表现突出,但面对复合长程任务(如跨应用比价下单、多网页新闻摘要)仍存在显著能力缺口[4] - 当前训练方式(环境感知、动作落实微调)优化了原子任务表现,但复合任务需解决长链条进度管理、异源信息整合等新挑战[4] 复合任务分类与挑战 - 三类复合任务:独立组合型(无依赖子任务拼接)、语境传递型(需跨应用信息继承)、深度分析型(需结合通用推理与设备操作)[11] - 主流移动端GUI智能体(OS-Atlas、UI-TARS等)在复合任务中普遍存在注意力涣散、信息传递失败、进度管理混乱等典型缺陷[14][16] UI-NEXUS测试基准 - 覆盖50款中英文应用(20本地+30在线),设计100个任务模板,平均最优完成步数14.05步,难度显著高于同类基准[7][21] - 包含动态测评平台UI-NEXUS-Anchor子集,支持可控环境下的可扩展测试开发[21] - 细粒度指标涵盖任务成功率、推理时延、Token成本等维度[21] 智能体技术方案对比 - Agent-as-a-Model方案(如UI-TARS-7B-SFT)在原子任务执行效率高,但复合任务完成率仅11%[25][29] - Agentic Workflow方案(如M3A)鲁棒性更强,但依赖GPT-4o导致高推理成本(时延长、费用高)[27][31] - 记忆机制差异显著影响表现:主动记忆型(Mobile-Agent-V2)优于部分记忆型,但计算冗余大[32] AGENT-NEXUS调度系统 - 采用分层架构(调度/执行/进程内存模块),将复合任务拆解为原子指令,任务完成率提升24%-40%[19][27][30] - 支持第三方智能体插件化接入(如UI-TARS-7B-SFT),推理开销仅增加8%[23][27] - 通过显式调度解决信息传递问题,逼近人工拆解指令的60%强上限表现[29][30] 未来技术方向 - 需融合领域微调模型的高效执行与工作流系统的复杂调度能力[31][32] - 系统级设计将成为突破复合任务瓶颈的关键,推动端侧智能向AI操作系统演进[35][36]