2025年Perplexity Comet电商选购类任务测试报告

测试概况 - 该报告于2025年8月12日由郎瀚威、猫猫头及团队完成评估四款AI工具在电商选购场景的表现测试五项任务包括亚马逊商品购买及复购查找最快发货自行车购买聚会用系列杂物给定预算选购风衣指定条件购买冰箱 [1] - 参与测试的四款AI工具为OpenAI Agent Perp Comet Manus Genspark [1] - 报告共计51页包含流量分析及更新时间线等内容 [3] 性能表现对比 - 平均耗时方面 Perp Comet以318秒最短 OpenAI Agent耗时1193秒最长 Manus耗时408秒 Genspark耗时52秒 [8] - 正确错误比例方面 Perp Comet和Genspark均为5/0全正确 OpenAI Agent和Manus均为4/1 [8] - 亚马逊复购任务中 Perp Comet和Genspark成功完成 OpenAI Agent和Manus失败 [2] - 查找最快发货自行车任务中仅OpenAI Agent部分成功其余均成功 Perp Comet耗时仅20秒 [2] - 购买聚会杂物任务中除Manus部分成功外均成功 [2] - 给定预算选风衣任务中四款工具均成功 [2] - 指定条件买冰箱任务中仅Genspark成功其余部分成功 [2] 能力梯度分析 - 四款工具在1-7级能力均达标包括意图解析搜索执行结果获取智能筛选精准匹配方案整合实时交互 [9] - 8-9级购物车操作和订单预处理中 Manus表现欠缺 OpenAI Agent Perp Comet Genspark达标 [9] - 10级支付完成中仅Perp Comet大概率能完成支付操作 [9] 团队测试感受 - 团队成员普遍认为Perp Comet能力最优其次是Genspark OpenAI Agent Manus相对较弱 [2] - Perp Comet在效率和全流程操作上表现突出 [2] - Genspark在信息整合和执行细节上有优势 [2] - OpenAI Agent虽能完成部分操作但耗时较长 [2] - Manus多停留在方案提供阶段缺乏实际购买操作能力 [2] - 具体表现为Manus只能给出选购清单报告没有后续加购物车操作 [12] - OpenAI Agent能进入亚马逊但无法进行后续操作页面显示错误 [12] - Genspark可实现加购物车和填写收货地址但需要手动勾选工具 [13] - Perp Comet在绑定账户后可完成付款操作 [13] 电商场景价值 - 电商购物是AI能力的"展示舞台" 最能体现AI对个性化context的理解能力 [14] - 购物场景需要AI记住用户喜好预算购买历史生活习惯和审美品味 [14] - 执行过程复杂涉及10个层次能力节点的集中展示 [14] - 反馈机制直观验收标准明确没有模糊地带 [14] 测试执行详情 - 亚马逊复购任务来源自Alvaro Cintas 要求查找最后购买的肌酸并重新购买 [15] - Perp Comet执行亚马逊复购任务耗时360秒成功完成 [16] - OpenAI Agent执行亚马逊复购任务耗时83秒失败 [16] - Manus执行亚马逊复购任务耗时120秒失败 [16] - Genspark执行亚马逊复购任务耗时612秒成功完成 [16]