Workflow
四大顶尖模型对决!6000 字测评带你看Deepseek R1有多强
歸藏的AI工具箱·2025-05-29 22:54

昨天 Deepseek-R1 0528 正式开源。 在 LiveCodeBench 上,它的表现几乎与 OpenAI 的 o3 (high) 相当;在 Aider 的多语言基准测试中,与 Cla ude Opus 不相上下。 在官网上线的时候藏师傅快速测试了一下前端能力,发现强的离谱,于是就想整个大活。 Deepseek-R1-0528 在前端能力上稍逊于 Opus4,彻底超过了 Sonnet 4 以及 Gemini 2.5 Pro。 基本上 Opus 可以完成的任务 R1 都能完成,,甚至 Opus 4 不能完成的 R1 也可以完成,只是完成度 和结果质量上稍微差一些。 考虑到 R1 跟这三者的价格差异,这个成绩已经非常邪门了,tmd 无法想象 R2 的质量。 这个测试真的是又费钱又费人, 直接把 POE 额度 Claude 额度还有API 都烧没了,希望各位可以给点个赞或 者喜欢,我们开始看案例。 测试 1:仓库管理系统 先来一个昨天跑的比较复杂的效果,我会让这四个模型分别生成一个完整的仓库管理系统,支持商品管理、商 品的出库、入库、还有对应的看板。 提示词:请帮我创建一个完整的网页版商品管理工具,具体要 ...