Workflow
GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭
量子位·2025-03-04 12:51

基础模型竞争动态 - GPT-4.5刚登顶竞技场全任务分类第一名,6小时后被马斯克的新版Grok-3以1412:1411的微弱优势反超[1][2] - Grok-3总分第一,但在总体带风格控制、困难提示词带风格控制两项略逊于GPT-4.5[3] - DeepSeek-R1总分排名第6,数学和困难提示词带风格控制分项与GPT-4.5并列第一[4] 模型性能对比 - Grok-3在Overall Hard、Coding、Math、Writing等任务中均排名第一,但在Style Control相关任务中稍弱[5] - GPT-4.5在GPQA科学测试(71.4%)、AIME数学测试(36.7%)、MMMLU多语言测试(85.1%)等专业领域显著领先GPT-4o[9] - GPT-4.5在SWE-Lancer Diamond编码测试中得分32.6%,高于GPT-4o的23.3%但低于OpenAl o3-mini的87.3%[9] 用户反馈与市场反应 - GPT-4.5初期因"又大又贵"受质疑,但后期因情商表现获得用户口碑翻转[7][8] - OpenAI CEO奥特曼透露收到用户请求"承诺不下架GPT-4.5",并公开模型对其"奇点理论"的深度解读[11][12][13][14] - GPT-4.5在AI模型狼人杀比赛中展现策略能力,在结盟、欺骗等行为上表现优于人类[15][16] 行业数据 - 大模型竞技场共收录211个模型,累计获得2,736,442次投票[5] - Grok-3与GPT-4.5均以3000+票数达到榜单门槛,竞争结果受投票机制影响[6]