号称“AI打工人”的OpenClaw值得用吗？

OpenClaw AI Agent工具实测表现 - 工具本身并非大模型，而是一个负责接收指令、调用工具和组织流程的“指挥官”，其任务成败取决于所接入外部大模型的能力、稳定性与表达方式[1][2] - 为模拟真实工作场景，测试设定了包含本地文件检索、网络搜索、信息整合撰写及发送邮件的综合任务，以评估各模型组合的表现[4] - 在首轮测试中，各模型表现分化显著：GPT-5-mini、MiniMax-M2.5表现稳定，可近乎全自动完成任务；MiniMax-M2.1需人工辅助发送邮件且内容不完整；智谱GLM-4.7会输入错误邮箱网址；Kimi-K2.5网络搜索失败；千问Qwen3-Max本地文件检索失败且邮件发送失败[5][10][15][19][23][27][29] - 经过多轮复测，GPT-5-mini、MiniMax-M2.1/M2.5及智谱GLM-4.7最终均能完成全部任务流程，而千问Qwen3-Max与Kimi-K2.5在邮件发送等浏览器操控环节持续失败[33][34][35] - 根据测试结果汇总，OpenClaw与GPT-5-mini、MiniMax-M2.5、GLM-4.7组合能稳定完成全流程任务，而与Qwen3-Max、Kimi-K2.5组合则在关键环节存在短板[36] 行业对OpenClaw的评估与定位 - 业内普遍认为，OpenClaw更像一个“任务框架”，其最终表现高度依赖所接入大模型的能力，模型强弱直接决定任务执行效果[37] - 有观点指出，国际头部大模型（如OpenAI的Codex-5.3和Gemini 3 Pro）在执行效果上优于多数国产大模型，但国内模型如智谱GLM-4.7、Kimi-K2.5在普通任务上表现不错且成本更低[37] - 专家认为当前版本的OpenClaw尚不是合格的生产力工具，其核心能力被指未显著超越已有的同类工具（如Claude Code），其进步与普及本质上在等待底层大模型技术的突破[38] - 若要真正用于生产环境，目前的OpenClaw还需要进行二次开发和微调，以解决其存在的卡顿等问题，提升成熟度[38] OpenClaw当前面临的主要挑战 - 部署与使用门槛高：工具未提供简化部署方案，需通过命令行进行本地配置、依赖管理和权限设置，要求使用者具备基本开发经验，这阻碍了非技术用户的使用[39] - 使用成本高昂：工具在执行任务时需频繁调用大模型，token消耗量巨大，堪称“token燃烧器”，有用户使用GLM-4.7模型交互20多次即花费200元人民币，使用DeepSeek模型一天可消耗几十元，若用更强模型成本可达每天数百元[39] - 高成本迫使部分用户选择免费或廉价模型，但这会严重影响工具的实际表现，例如有用户选择Qwen-8B模型后，工具仅会回答问题而无法执行操作[39] - 存在显著安全风险：工具为执行操作需获得很高的系统权限，可在计算机上任意运行命令、读写文件和执行脚本，安全专家直言其是“一场噩梦”[40] - 已发现工具存在安全漏洞，攻击者可借此获取用户私人消息、账户凭证、API密钥等敏感信息，用户为方便存储的银行账户等明文信息也存在被窃风险[40] - 开发者亦承认这是一个开源业余项目，需仔细配置以确保安全，并不适合非技术用户[41]