Workflow
TMF
icon
搜索文档
红杉公元:如何在AI下半场,定义“好问题”?丨WAVES新浪潮2025
36氪· 2025-06-20 15:00
中国创投新纪元 - 中国创投市场处于周期筑底转折点与结构性转型深化期 政策主导与国资资本集中形成新生态 行业需顺应趋势捕捉确定性机遇 [1] - 36氪WAVES大会聚焦AI技术革新 全球化浪潮与价值重估等前沿议题 汇聚顶级投资人 新锐创始人及跨领域专家探讨商业未来 [1] AI投资方法论演进 - 红杉中国推出首个投资机构主导的大模型基准测试xbench 旨在解决AI上半场"基准测试被快速刷爆"的评估困境 [3][5] - AI上半场存在"模型刷分竞赛"问题 新基准测试推出后大模型平均6-12个月即可达到SOTA水平 形成无限循环 [5][8] - 第三次迭代突破"难度至上"思维 提出双轨评估体系:AGI Track评估技术能力 Profession-aligned Track量化经济效用 [9][17][18] 评估体系创新 - 引入IRT数学建模构建长青评估标准 将离散分数转化为单调递增曲线 首次实现跨周期模型能力量化对比 [21][22] - 提出TMF(技术市场契合度)新指标 划分Agent发展三阶段:未达人力水平 替代重复劳动 专业化分工 [26] - 首期评估显示模型能力分化明显 部分擅长解题(AGI Track) 部分擅长实际应用(Profession-aligned Track) [30] 技术应用映射 - Search能力示例显示 AI从学术训练到商业应用的转化逻辑:HR简历筛选替代需200-300次/日的重复劳动 [16] - 多模态能力将开启视频生成 编辑类高价值场景 博弈能力可拓展至金融交易等复杂交互领域 [17] - 每项AGI能力突破对应特定应用场景台阶 如Search能力对应HR/Marketing 多模态对应内容生产 [18]