Workflow
DeepSeek R1 0528
icon
搜索文档
现在“最强”的AI模型,能不能替代医生门诊?一个AI产品经理的实际测试
36氪· 2025-07-27 08:46
2025年,我带着我的团队在做AI与空间计算产品研发,同时自己也是AI模型的重度使用者。因为博士研究的科研需求,我付费了Gemini、X、GPT这类模 型主流国际模型,将日常的博士研究工作、个人的产品研发工作,以及生活健康诊断都放在AI大模型上。 如下是7月份的模型排行分数,可以看到Grok4领先,随后就是国际模型,国内模型中,开源模型DEEPSEEK得到最高分。 | MODEL TJ | CREATOR 14 | CONTEXT | ARTIFICIAL ANALYSIS | BLENDED | MEDIAN | MEDIAN 11 | | --- | --- | --- | --- | --- | --- | --- | | | | WINDOW | INTELLIGENCE INDEX | USD/1M Tokens | Tokens/s | First Chunk (s) | | Grok 4 | ×1 | 256k | 73 | $6.00 | 74.5 | 12.12 | | o3-pro | OpenAl | 200k | 71 | $35.00 | | | | Gemini 2.5 Pro | ...
马斯克新发布的“全球最强模型”含金量如何?
第一财经· 2025-07-10 23:07
Grok 4发布 - 埃隆·马斯克在Grok 4发布会上宣布该模型为"全球最强大的AI模型",并称其"几乎在所有学科上都比人类研究生更聪明"[1] - Grok 4将在下周应用于特斯拉车辆[1] - Grok 4在AIME25数学竞赛中取得满分,在"人类最后的考试"(HLE)测试中获得26.9%的高分[1] Grok 4性能表现 - 测评机构Artificial Analysis给出Grok 4人工智能分析指数73分,领先OpenAI o3(70)、谷歌Gemini 2.5 Pro(70)、Claude 4 Opus(64)和DeepSeek R1 0528(68)[2] - 在HLE测试中Grok 4取得24%的历史最高分,超过谷歌Gemini 2.5 Pro之前21%的记录[5] - Grok 4训练量是Grok 2的100倍,强化学习阶段投入算力是其他模型的10倍以上[5] 产品定价与发布情况 - Grok 4订阅费30美元/月,Grok 4 Heavy版本300美元/月,Grok 3维持免费[5] - 发布会比原定时间推迟一小时,此前Grok 3.5模型曾跳票[5][6] - 团队选择跳过Grok 3.5直接发布Grok 4,xAI办公室显示核心员工近期可能都睡在办公室[6] 公司资源与融资 - xAI在美国田纳西州建立"Colossus"超级计算中心,2024年7月启动时配备10万块H100 GPU,2025年2月增至20万块,计划扩展到100万块[10] - xAI完成100亿美元新一轮融资(50亿美元债务+50亿美元股权),2024年公开总融资额达220亿美元(约1579亿元人民币)[10] - xAI与X合并后估值1130亿美元(xAI 800亿+X 330亿)[10] 财务状况与行业竞争 - xAI目前每月消耗10亿美元,截至2025年3月底账面现金40亿美元[11] - 预计2025年营收5亿美元,2026年20亿美元,远低于OpenAI预计的127亿美元[11] - 微软、亚马逊、谷歌和Meta四大巨头2025年AI投资计划高达3200亿美元[11] 未来发展计划 - xAI计划利用X平台数据训练模型以降低数据成本,预计2027年实现盈利[12] - 计划8月发布编程模型,9月发布多智能体,10月发布视频生成模型[12] - OpenAI将在今年夏天发布GPT-5,行业竞争将持续加剧[11]
DeepSeek开源新版R1,媲美OpenAI最高o3模型
快讯· 2025-05-29 05:41
开源大模型性能比较 - DeepSeek开源了R1最新0528版本,未提供详细说明但已开放模型 [1] - 在Live CodeBench测试中,DeepSeek-R1-0528的Pass@1得分为73.1,接近OpenAI的o3高版本(75.8)[1] - DeepSeek-R1-0528在Easy-Pass@1测试中得分为98.7,略低于04-Mini高版本的99.1 [1] 模型性能排名 - 04-Mini高版本以80.2的Pass@1得分排名第一,03高版本以75.8排名第二 [1] - DeepSeek-R1-0528以73.1的Pass@1得分排名第四,高于Grok-3-Mini高版本(66.7)[1] - Qwen3-235B-A22B和Gemini-2.5-Flash-Preview分别以65.9和60.6的Pass@1得分排名第八和第十 [1]