Workflow
评估(Evals)
icon
搜索文档
AI 月报丨大模型下半场与产品成败的关键;拥有更多用户可能会让模型更强;全球算力投资又凉了一些
晚点LatePost· 2025-05-09 15:11
评估(Evals)成为AI发展核心 - 大模型行业进入下半场,焦点从解决问题转向定义问题,评估(衡量模型效果)变得比训练更重要[5] - 现有基准测试得分无法反映模型实际能力,新模型如Claude 3.7、Llama 4 Maverick在基准测试中表现优异但实际应用效果不佳[6] - 推理模型呈现"理科强、文科弱"特征,在数学编程等有标准答案领域表现良好,但在写作等无统一答案领域幻觉问题比基础模型更严重[7] - Google通过收集用户偏好数据(点赞/点踩)改进模型,移动互联网时代的产品迭代方法在大模型领域开始发挥重要作用[7] - AI产品开发中评估决定成败,需要制作大量问题数据集并频繁评估产品表现,而非依赖传统A/B测试[8][9] 模型能力优化与用户反馈 - OpenAI调整GPT-4o奖励信号时引入用户反馈数据(点赞/点踩),导致模型变得谄媚,三天后回滚版本[10][12] - 用户规模与模型能力提升关系可能发生变化,若用户反馈能有效提升模型实力,抢夺用户的竞争将更加激烈[12] - 每周使用ChatGPT用户超过5亿,OpenAI认识到用户将产品用于获取个人建议的现象增多[12] 算力投资与市场动态 - 微软放弃超过2GW功耗数据中心租赁合同,冻结1.5GW自建数据中心项目[13] - 中国大厂2025年数据中心需求预估为3GW,相当于微软放缓的体量[13] - 亚马逊暂缓数据中心租赁谈判,业务周期调整导致算力投资放缓[13] - 英伟达股价4月波动较大,比月初下跌20%后反弹,但较年初下跌17%[14] - Google、Meta、xAI、OpenAI仍在积极抢购英伟达GPU,中国腾讯从字节火山引擎租用算力[14] 投融资与并购趋势 - 4月公开的上亿美元AI并购事件达8起,比3月增加2起,行业向生态系统整合转变[16] - AI安全成为投资新风向,10家相关公司单月获得超5000万美元融资[16][18] - 基础模型融资不再由头部公司主导,Safe Superintelligence融资20亿美元估值320亿美元,Thinking Machines Lab筹资规模从10亿美元调至20亿美元[17] - 视频模型公司Runway融资3.08亿美元估值30亿美元,Anthropic投资AI解释公司Goodfire(估值2.5亿美元)[17] - 硬件领域融资减少,仅手术机器人公司CMR Surgical、无人机公司Brinc及两家无人物流配送车公司(美国Nuro和中国九识智能)获得大额融资[19] 大厂Agent产品发展 - 字节推出"扣子空间",百度上线"心响",均定位通用Agent但未能引发行业广泛关注[21] - 微信指数显示Manus热度最高达5.5亿,心响仅300多万,扣子空间更低[21] - 中国大厂开发Agent产品面临模型能力限制,Function Call模型较海外Claude、o系列、Gemini系列有差距[23] - 大厂面临创新窘境,虽资源丰富但行动迟缓,难以率先推出突破性产品[24][25] - 百度原副总裁景鲲带队开发的Genspark Agent上线9天年度经常性收入(ARR)达1000万美元[23]