Workflow
2025年Perplexity Comet电商选购类任务测试报告
搜狐财经·2025-08-15 12:06

测试概况 - 该报告于2025年8月12日由郎瀚威、猫猫头及团队完成 评估四款AI工具在电商选购场景的表现 测试五项任务包括亚马逊商品购买及复购 查找最快发货自行车 购买聚会用系列杂物 给定预算选购风衣 指定条件购买冰箱 [1] - 参与测试的四款AI工具为OpenAI Agent Perp Comet Manus Genspark [1] - 报告共计51页 包含流量分析及更新时间线等内容 [3] 性能表现对比 - 平均耗时方面 Perp Comet以318秒最短 OpenAI Agent耗时1193秒最长 Manus耗时408秒 Genspark耗时52秒 [8] - 正确错误比例方面 Perp Comet和Genspark均为5/0全正确 OpenAI Agent和Manus均为4/1 [8] - 亚马逊复购任务中 Perp Comet和Genspark成功完成 OpenAI Agent和Manus失败 [2] - 查找最快发货自行车任务中 仅OpenAI Agent部分成功 其余均成功 Perp Comet耗时仅20秒 [2] - 购买聚会杂物任务中 除Manus部分成功外均成功 [2] - 给定预算选风衣任务中 四款工具均成功 [2] - 指定条件买冰箱任务中 仅Genspark成功 其余部分成功 [2] 能力梯度分析 - 四款工具在1-7级能力均达标 包括意图解析 搜索执行 结果获取 智能筛选 精准匹配 方案整合 实时交互 [9] - 8-9级购物车操作和订单预处理中 Manus表现欠缺 OpenAI Agent Perp Comet Genspark达标 [9] - 10级支付完成中 仅Perp Comet大概率能完成支付操作 [9] 团队测试感受 - 团队成员普遍认为Perp Comet能力最优 其次是Genspark OpenAI Agent Manus相对较弱 [2] - Perp Comet在效率和全流程操作上表现突出 [2] - Genspark在信息整合和执行细节上有优势 [2] - OpenAI Agent虽能完成部分操作但耗时较长 [2] - Manus多停留在方案提供阶段 缺乏实际购买操作能力 [2] - 具体表现为Manus只能给出选购清单报告 没有后续加购物车操作 [12] - OpenAI Agent能进入亚马逊但无法进行后续操作 页面显示错误 [12] - Genspark可实现加购物车和填写收货地址 但需要手动勾选工具 [13] - Perp Comet在绑定账户后可完成付款操作 [13] 电商场景价值 - 电商购物是AI能力的"展示舞台" 最能体现AI对个性化context的理解能力 [14] - 购物场景需要AI记住用户喜好 预算 购买历史 生活习惯和审美品味 [14] - 执行过程复杂 涉及10个层次能力节点的集中展示 [14] - 反馈机制直观 验收标准明确 没有模糊地带 [14] 测试执行详情 - 亚马逊复购任务来源自Alvaro Cintas 要求查找最后购买的肌酸并重新购买 [15] - Perp Comet执行亚马逊复购任务耗时360秒成功完成 [16] - OpenAI Agent执行亚马逊复购任务耗时83秒失败 [16] - Manus执行亚马逊复购任务耗时120秒失败 [16] - Genspark执行亚马逊复购任务耗时612秒成功完成 [16]