Workflow
Kimi1.5
icon
搜索文档
我让10个大模型又参加了完整版数学高考,第一名居然是它。。。
数字生命卡兹克· 2025-06-10 05:20
大模型数学能力测试 核心观点 - 对多个大模型进行完整版数学高考测试(满分150分),结果显示讯飞星火和豆包以145分并列第一,Qwen3以143.3分位列第三,Gemini 2.5 pro、混元T1和文心x1分别以139.7分和137分位居第四、第五 [15][16][17][18] - 测试发现大模型在解答题表现优异(大部分正确),但单选题第6题成为所有模型的共同难点 [9] - 多模态大模型在涉及图片理解的题目中表现不佳,仅OpenAI o3在三次测试中答对两次 [10] 测试规则 - 补充测试智谱Z1、Kimi1.5、文心X1等模型,排除Claude 4 [3] - 大题按小问赋分,由高中教师估分并取严格标准(仅按结果正确性评分) [3][5] - 每道题运行模型3次,按正确比例给分 [5] - 文本题转换为LaTeX格式输入,图片题直接截图测试(无多模态能力的模型取其他多模态模型平均分) [6][7] 模型表现细节 - **讯飞星火/豆包**:除第6题外全对,展现超高稳定性 [15] - **Qwen3**:解答题全对但填空题因1次失误丢1.7分 [16] - **Gemini 2.5 pro**:解答题表现较弱,总分139.7分 [17] - **DeepSeek-R1-0528**:因推理链过长导致答案偏离,适合复杂度更高的题目 [11] 行业趋势观察 - 相比2023年测试时大模型"不识一二三四五"的窘境,当前模型已能达到优秀学生水平,体现AI技术快速迭代能力 [19][20][21] - 测试结果超出预期,反映头部模型在结构化问题解决上的显著进步 [9][15][21]
无人再谈AI六小龙
凤凰网财经· 2025-06-02 21:49
核心观点 - AI六小龙(智谱AI、MiniMax、月之暗面、阶跃星辰、百川智能、零一万物)已缩减为"AI四小强",部分玩家因技术迭代停滞、团队动荡和商业化困境掉队 [1][2][6] - 大厂(阿里、字节、腾讯)凭借资金和资源优势加速布局,创业公司先发优势丧失,商业化进展远落后于OpenAI(2025年收入预计127亿美元,同比+200%)[10][11][16] - DeepSeek开源模型冲击闭源生态,六小龙技术壁垒被削弱,OpenAI却逆势实现3000亿美元估值(较2023年10月增长249%)[14][16][17] - 高管大规模流失(智谱AI视频模型负责人加入字节、零一万物核心成员创业),反映创业公司人才吸引力下降 [18][19][22] 从六小龙到四小强 - **掉队玩家**:零一万物转向阿里合作放弃AGI研发,百川智能基础模型进入静默期,两者均出现核心高管离职 [1][5][6] - **剩余四强**:智谱AI、MiniMax、月之暗面、阶跃星辰模型更新频率显著放缓,最新迭代多为垂类场景(如MiniMax文本转语音模型)[7][24] - **融资停滞**:2024年下半年起除智谱AI外几乎无新融资,对比OpenAI 2025年完成400亿美元融资 [8][16] 商业化困境 - **收入对比**:OpenAI付费用户达100万,六小龙未披露具体营收数据,商业化进程明显滞后 [10] - **大厂挤压**:字节、阿里、腾讯投入百亿资金扶持AI应用,美团/小红书自建模型团队,创业公司市场份额被蚕食 [11][12] - **成本压力**:月之暗面2024年单月投流过亿,2025年2月停止投流后月活跌至百万级 [6] 技术竞争力削弱 - **开源冲击**:DeepSeek免费开源模型性能超越闭源产品,颠覆六小龙"闭源优势"逻辑 [14][15] - **迭代乏力**:月之暗面Kimi1.5热度被DeepSeek R1压制,智谱AI基础模型停更超5个月 [7][17] - **赛道转移**:行业热点转向具身智能和Agent领域,四小强多数未及时跟进(除智谱AI布局通用Agent)[23][24] 人才流失危机 - **高管去向**: - 零一万物:模型预训练负责人谷雪梅离职创业,算法负责人黄文灏加入字节 [5][22] - 百川智能:联创陈炜鹏、焦可离职转向AI创业 [6][22] - 智谱AI:视频模型负责人丁铭加入字节,3名副总裁级高管离职 [20][22] - **影响评估**:技术骨干流失直接影响模型研发进度,削弱投资人信心 [19] 历史参照 - **AI四小龙教训**:商汤、旷视等因高研发投入和商业化失败陷入困境,六小龙面临类似风险 [8][25] - **市场预判**:李开复认为中国最终仅DeepSeek、阿里、字节能存活,创业公司生存空间受挤压 [25]