评估（Evals） - 财报，业绩电话会，研报，新闻

评估（Evals）

搜索文档

AI 月报丨大模型下半场与产品成败的关键；拥有更多用户可能会让模型更强；全球算力投资又凉了一些

晚点LatePost· 2025-05-09 15:11

评估（Evals）成为AI发展核心 - 大模型行业进入下半场，焦点从解决问题转向定义问题，评估（衡量模型效果）变得比训练更重要[5] - 现有基准测试得分无法反映模型实际能力，新模型如Claude 3.7、Llama 4 Maverick在基准测试中表现优异但实际应用效果不佳[6] - 推理模型呈现"理科强、文科弱"特征，在数学编程等有标准答案领域表现良好，但在写作等无统一答案领域幻觉问题比基础模型更严重[7] - Google通过收集用户偏好数据（点赞/点踩）改进模型，移动互联网时代的产品迭代方法在大模型领域开始发挥重要作用[7] - AI产品开发中评估决定成败，需要制作大量问题数据集并频繁评估产品表现，而非依赖传统A/B测试[8][9] 模型能力优化与用户反馈 - OpenAI调整GPT-4o奖励信号时引入用户反馈数据（点赞/点踩），导致模型变得谄媚，三天后回滚版本[10][12] - 用户规模与模型能力提升关系可能发生变化，若用户反馈能有效提升模型实力，抢夺用户的竞争将更加激烈[12] - 每周使用ChatGPT用户超过5亿，OpenAI认识到用户将产品用于获取个人建议的现象增多[12] 算力投资与市场动态 - 微软放弃超过2GW功耗数据中心租赁合同，冻结1.5GW自建数据中心项目[13] - 中国大厂2025年数据中心需求预估为3GW，相当于微软放缓的体量[13] - 亚马逊暂缓数据中心租赁谈判，业务周期调整导致算力投资放缓[13] - 英伟达股价4月波动较大，比月初下跌20%后反弹，但较年初下跌17%[14] - Google、Meta、xAI、OpenAI仍在积极抢购英伟达GPU，中国腾讯从字节火山引擎租用算力[14] 投融资与并购趋势 - 4月公开的上亿美元AI并购事件达8起，比3月增加2起，行业向生态系统整合转变[16] - AI安全成为投资新风向，10家相关公司单月获得超5000万美元融资[16][18] - 基础模型融资不再由头部公司主导，Safe Superintelligence融资20亿美元估值320亿美元，Thinking Machines Lab筹资规模从10亿美元调至20亿美元[17] - 视频模型公司Runway融资3.08亿美元估值30亿美元，Anthropic投资AI解释公司Goodfire（估值2.5亿美元）[17] - 硬件领域融资减少，仅手术机器人公司CMR Surgical、无人机公司Brinc及两家无人物流配送车公司（美国Nuro和中国九识智能）获得大额融资[19] 大厂Agent产品发展 - 字节推出"扣子空间"，百度上线"心响"，均定位通用Agent但未能引发行业广泛关注[21] - 微信指数显示Manus热度最高达5.5亿，心响仅300多万，扣子空间更低[21] - 中国大厂开发Agent产品面临模型能力限制，Function Call模型较海外Claude、o系列、Gemini系列有差距[23] - 大厂面临创新窘境，虽资源丰富但行动迟缓，难以率先推出突破性产品[24][25] - 百度原副总裁景鲲带队开发的Genspark Agent上线9天年度经常性收入（ARR）达1000万美元[23]

Artificial Intelligence

评估（Evals）

创新者的窘境

Artificial Intelligence

Gemini

GPT - 4o

Artificial Intelligence

评估（Evals）

创新者的窘境

Artificial Intelligence

Gemini

GPT - 4o