SuperGrok - 财报，业绩电话会，研报，新闻

SuperGrok

搜索文档

红杉汇· 2025-10-27 08:04

评测概览 - xbench对DeepSearch评测集进行了更新升级，构建了全新的100道题目，发布DeepSearch-2510版本 [1][2][8] - 评测结果显示，ChatGPT-5 Pro优势显著，评测分数断档式领先，准确率达到75+；SuperGrok位列第二档，准确率为40+；其他公司的Agent产品多在30-40分档位，无明显差距 [1][3] - DeepSearch-2510题库已经开源，并采用长青评估机制，每月持续汇报最新模型的能力表现 [1] 产品性能与成本分析 - 在准确率方面，ChatGPT-5 Pro以75+的分数领先，SuperGrok Expert为40+，而包括Minimax Agent、StepFun Research等在内的多家产品准确率在35+，Genspark Super Agent为30+ [3] - 在成本方面，完成每个任务的平均花费从免费到约2美元不等，其中StepFun Research、Doubao (Deep Research)和Coze Space为免费，ChatGPT-5 Pro约为0.085美元，而Fellou成本最高，约为2美元 [3] - 在时间效率方面，每个任务的耗时从2-3分钟到8-15分钟不等，Coze Space响应最快（2-3分钟），而Minimax Agent、StepFun Research等耗时较长（8-15分钟）[3] - 用户体验甜区定义为每道搜索题目成本在0.25美元以下且响应时间在8分钟以内，目前ChatGPT-5 Pro、SuperGrok Expert、Doubao等产品位于该重叠区域 [6] 评测集更新细节 - 新题库全面增加难度，原因是旧版本中多家公司产品分数已达70+，ChatGPT-5 Pro更达80+，已无法有效检测模型能力提升，新版本主流厂商（除ChatGPT外）分数在40分左右，为迭代预留空间 [9] - 新题库增加10道多模态题目，要求Agents识别图片或视频内容进行推理 [9] - 新题库增加20多道需要动态交互获取信息的工具使用题目，以适配工具使用能力的进展，例如输入筛选条件、使用地图服务等 [9] 领先产品优势分析 - ChatGPT-5 Pro在评测分数上断档式领先，主要优势体现在幻觉率大幅降低和工具使用能力极强 [12][13] - 在降低幻觉方面，ChatGPT-5 Pro规划能力极强，能快速定位并召回核心信源，对冲突信源进行交叉验证，并列出问题不同理解下的相应回答 [13] - 在工具使用方面，其能够灵活同网页进行动态交互，如动态加载、输入筛选条件等，从而获取更丰富精确的信源 [12] - SuperGrok基于Grok-4，独列第二档，猜测主要原因是Grok-4本身模型推理能力的优势 [14] 行业动态与产品演进 - 对比2505题库的评测结果，大部分公司的产品在几个月内搜索能力有较大幅度提升 [16] - ChatGPT从2505题库5月的“未提供分数”提升至9月的80+，提升来自于模型更新，ChatGPT-5 Pro相比前代在幻觉上大幅降低 [17] - SuperGrok从50+提升至70+，提升来自于模型更新，Grok-4相比Grok-3在推理能力上大幅提升 [17] - Doubao从50+提升至60+，提升来自于深度研究功能上线 [17] - 国内开发的Agents多在30-40分档位，无明显差距，原因在于基模能力差距或无法同基座模型协同优化 [19] - 部分产品如Doubao和Gemini更追求响应效率，在推理资源上投入保守，导致评测分数不及竞品但时间优势明显 [19] - Gemini在中文信源上有明显短板，基本定位不到正确信源，是分数偏低的核心原因 [19]

Artificial Intelligence

Model Evaluation

Artificial Intelligence

ChatGPT-5 Pro

SuperGrok

Gemini 2.5 Pro

Artificial Intelligence

Model Evaluation

Artificial Intelligence

ChatGPT-5 Pro

SuperGrok

Gemini 2.5 Pro

双“雷”暴击！Trae 被曝资源黑洞、Claude背刺超级付费党，开发者们被“刀”惨了

AI前线· 2025-07-29 14:33

AI编程工具资源消耗问题 - Trae在测试中显示资源消耗显著高于同类产品初始版本进程数达33个(比VS Code多3.7倍) 内存占用5.7GB(是VS Code的6.3倍) [2][3] - 更新至v2.0.2版本后进程数降至13个内存占用降至2.5GB 但仍高于VS Code的0.9GB和Cursor的1.9GB [2] - 开发者发现Trae存在异常网络连接 7分钟内向字节跳动服务器传输26MB数据单个批次数据量高达53,606字节 [4][5] 行业成本管控趋势 - Anthropic宣布对Claude Code实施每周调用限制 Pro用户每周可用40-80小时 Sonnet Max用户可用240-480小时 [16][20] - 限制措施主要影响5%的重度用户 Max订阅用户超出限额后需按API标准价格购买额外额度 [19][20] - 行业普遍采用分层定价策略高端套餐价格集中在200-300美元/月如Claude Max(200美元)和Gemini AI Ultra(250美元) [23] 用户使用模式分析 - 高价订阅用户可分为两类：追求身份象征的尝鲜者和期望通过效率提升获得回报的专业人士 [21] - 典型重度使用案例显示用户可能同时运行10-15个智能体进行代码迁移频繁触及5小时使用上限 [22] - 行业认为当前定价远未触及成本上限未来价格可能继续上涨企业市场定价空间更大 [24] 产品性能优化措施 - Trae通过设置Tab-Cue延迟提醒使响应时间减少300毫秒同时降低CPU和内存占用 [15] - 行业普遍面临AI工具运行卡顿、资源消耗大的共性问题厂商通过限制调用频率和优化算法来平衡成本与体验 [1][16]