AI技术发展现状 - 马斯克发布的Grok-4大模型在多项高难度考试中表现卓越,SAT和GRE接近满分,GPQA准确率88.9%,AIME25准确率100%,USAMO25准确率61.9% [8] - "人类最后的考试"(HLM)包含3000个高难度问题,覆盖100+学科,简答题占比80%,数学题占比42%,普通人类仅能答对5%,此前大模型最高得分不超过10% [10][12][15] - 上海交大联合深势科技团队使用DeepSeek-R1-0528模型在HLM考试中取得32.1%的准确率,创国内大模型新纪录 [17] 大模型在高考场景的表现 - 字节跳动Seed1.6模型在模拟山东高考中理科648分(全省4005名)、文科683分(全省211名),理科可冲击武汉大学,文科有把握冲击清北 [20] - 腾讯元宝(混元T1)在辽宁高考模拟测试中文科总分667.5分(全省第11名),理科632.5分,文科成绩达到清北录取线 [21][22] - DeepSeek-R1-0528模型高考模拟成绩615分(理科)和631分(文科),处于985/211院校录取区间 [20][22] 行业竞争格局 - 国际大模型Grok-4在HLM考试中领先国内DeepSeek模型近40个百分点,显示技术代际差距 [22] - 国内大模型呈现分层竞争:Seed1.6和混元T1处于第一梯队(清北水平),DeepSeek处于第二梯队(985水平),文心一言、通义千问等处于第三梯队 [21][22] 技术演进趋势 - AI在围棋领域的绝对优势已使人类失去对比兴趣,预计高考等考试将很快呈现AI的全面碾压 [23] - 未来评估重点可能转向AI间横向对比或实际应用价值创造,而非与人类能力对标 [24] - 数学能力成为大模型核心差异点,Grok-4在数学竞赛题(AIME25)实现100%准确率,国内模型数学单科最高分149分(腾讯混元T1) [8][21]
人类的考试,考验不了AI了
创业邦·2025-07-21 11:34