Workflow
“新版DeepSeek-R1”的深度测评
SKLTYSeek .(SKLTY)2025-05-29 23:25

纪要涉及的公司和行业 涉及大模型行业,具体公司模型包括 Deepseeker R1、Claude 3.7、Claude 4、CosmoFlow、Readcloud 3.7、Readcloud 4、Grok 3、Gemini 2.5 Pro、Cloud 3.7、Cloud 4、GPT、Devsec、谷歌 Jennifer 2.5 Pro、OpenAI [1][3][4][7][8][12][15][18] 纪要提到的核心观点和论据 - Deepseeker R1 新版本表现:最新版本 0.528 在 CLion 中正确率从 4/8 提升至 6/8 有进步,但低于 Claude 3.7(7/8)和 CosmoFlow 加 Claude 4(8/8);agent 能力提升,包括调用工具正确率、上下文长度和规划思考长度增加;代码生成对指令遵从更明显,但质量有瑕疵,与 Claude 系列有差距 [1][3][4][17][19] - Deepseeker R1 问题解决情况:0.528 版通过更精准查找资料和增加上下文长度(客户端最长 128K)解决老版本爬取过多网页内容致上下文超出限制问题 [1][5] - 特定任务处理挑战:最新版 R1 使用 fetch 工具查找过去十年中国 GDP 数据受阻,fetch 成功率低且世界银行无 API 支持,编写 Python 代码效果不佳,表明 MCP 工具与大模型存在适配性问题;Readcloud 3.7、Readcloud 4、Grok 3 和 Gemini 2.5 Pro 能完成该任务,调用 MCP 工具和参数设置更成熟,适配性更强 [1][6][7] - FetchAPI 使用问题及解决方案:使用 FetchAPI 失败率高,可能与 RPC 机制有关,多次修改代码问题仍存在;Fair Crawl 工具无此问题,FirePro 和 BRAVE search 稳定性更好可替代 [8] - 上下文长度影响:上下文长度增加显著提升任务完成质量,新版 R1 长时间运行和修改尝试后解决复杂问题且质量提升 [1][9] - Cloud 4 与 Cloud 3.7 对比:Cloud 4 在处理非规范化网站数据爬取和整理、生成旅游规划网页等方面优于 Cloud 3.7,速度更快、准确率更高,能成功部署网页且排版精美 [4][10] - 第二道题目挑战及解决:需调用多个 MCP 工具协同工作,通过选择合适工具和细致规划完成任务,显示更新后模型推理和执行效率增强 [11] - R1 与 Claude 模型性能差异:R1 有调用 function card 能力但生成质量不完美,工具调用可能失败仍能给出完整答案;Claude 尤其是 Claude 4 在速度和准确性上优于 R1,能避免调用易出错 MCP 工具,表现更稳定高效 [12] - MCP 工具问题及解决:MCP 工具出错时替代方案选择不理想,Readcloud 熟悉小函数能快速找到替代方案,如用百度地图获取天气功能替代 [13][14] - Devsec 处理错误特点及改进:Devsec 初始选择正确后续一般没问题,初始错误找备选 MCP 易出错,需提高备选方案识别和调用能力 [15] - Claude 4 优势:Claude 4 追平谷歌 Jennifer 2.5 Pro 以及 OpenAI,编程量较大时速度快且能直接运行代码,Claude 系列代码生成表现优异 [18] 其他重要但是可能被忽略的内容 - 测试框架:包括测试调用 MCP 类 agent 工具准确率和评估代码生成质量与效率,此次更新提升推理、深度思考文本生成质量和代码生成优化,agent 方面代码能力重要 [2] - 老版本 R1 问题:老版本使用工具易出错,选备用 CSP 也易出错,整体表现不稳定 [16]