TMF - 财报，业绩电话会，研报，新闻

TMF

搜索文档

红杉公元：如何在AI下半场，定义“好问题”？丨WAVES新浪潮2025

36氪· 2025-06-20 15:00

WAVES新浪潮2025邀你一起走向中国创投的「新纪元」。这是属于中国创投的新纪元。当下的中国创投市场，既是周期筑底的转折点，也是结构性转型的深化期。在政策主导、国资与资本高度集中的新生态下，唯有顺应趋势、灵活调整，方能在不确定性中捕捉确定性机遇。 6月11-12日，杭州良渚文化艺术中心，36氪WAVES新浪潮2025大会以「新纪元」为主题，汇聚创投领域顶级投资人、新锐企业创始人，以及深耕科技、创新、商业的科学家、创作者与学者，共同探讨AI技术革新、全球化浪潮与价值重估等前沿议题，拆解他们眼中的商业理想和未来世界，一起讨论、寻找、走向中国创投「新纪元」。 6月12日上午，在创业者会场上红杉中国投资人公元，进行了一场独立演讲，主题为「如何在AI下半场，定义"好问题"？」。以下为演讲全文：大家好！我是红杉中国的公元。很高兴受到36氪、暗涌waves的邀请，今天能和大家做一场分享。今天我想和大家讲的主题，和我们最近刚刚推出的xbench 相关。xbench是首个由投资机构推出的面向大模型和AI Agent的基准测试。我们为什么要推出这个基准测试，今天想和大家一起分享一下背后的故事。 · · 这两张图，左边 ...

人工智能

TMF

AGI track

Profession - aligned track

Profession - aligned track

投资

xbench

红杉中国大动作！发布全新AI基准测试工具xbench，意义几何

证券时报网· 2025-05-26 20:50

红杉中国推出AI基准测试工具xbench - 红杉中国推出全新AI基准测试工具xbench并发布相关论文标志着投资机构首次主导发布基准测试为AI投资领域带来新突破 [1] - xbench采用双轨评估体系同时追踪模型理论能力上限与Agent实际落地价值创新性地将评测分为能力上限评估和实际效用价值量化两条主线 [2] - xbench采用长青评估机制持续更新测试内容确保时效性定期测评主流Agent产品跟踪模型演进预测技术-市场契合点 [2] xbench的技术特点与功能 - xbench首期包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch) 并对主要产品进行综合排名 [3] - 提出了垂直领域智能体评测方法论构建了招聘和营销领域的垂类Agent评测框架评测结果可通过xbench.org实时查看 [3] - 支持社区共建基础模型开发者可用xbench验证产品效果垂类开发者可共建行业标准研究者可利用xbench实现评估研究想法 [3] 行业影响与投资趋势 - 红杉中国将内部使用的AI评估工具开源推动AI技术上限探索和商业化落地为行业带来变革 [4] - 美国一级市场AI应用侧投资占主导中国市场硬件和软件投资较平衡算力生态、自动驾驶和具身智能等硬件领域受关注 [4] - AI智能体受国内机构关注大模型向产业模型转变算法算力向应用迈进 AI编程、AI智能体和AI硬件将成为三大爆发点 [4] 厂商动态与市场展望 - 微软构建Agent网络谷歌打造2C Agent3P战略 Anthropic发布Claude4模型国内金蝶国际推出苍穹Agent平台2.0 昆仑万维推出天工超级智能体 [5] - Agent产品加速落地推动AI产业向上利好有数据、客户和场景的软件企业模型私有化需求增加利好一体机、超融合和B端服务外包企业 [5]

红杉中国推出 Agent 基准测试「xbench」，双轨评估体系，关注 AI 真实场景的效用

Founder Park· 2025-05-26 14:44

核心观点 - 红杉中国推出AI评估工具xbench，采用双轨评估体系（AGI Tracking与Profession Aligned）追踪模型能力上限与商业落地价值 [1][5][19] - 传统评估体系存在局限性：模型能力与实际效用脱节、题库更新导致历史数据不可比 [10][12] - 提出长青评估机制（Evergreen Evaluation），通过动态更新题库和IRT模型量化能力增长 [17][38][39] - 首次发布ScienceQA（知识测试）和DeepSearch（工具使用）两大评估集，并构建招聘/营销领域专业评估框架 [23][25][26][32] 评估体系创新双轨架构 - **AGI Tracking**：测试基础能力边界（如ScienceQA得分60 8 vs Gemini 57 2），包含知识/多模态/推理等维度 [4][24][25] - **Profession Aligned**：量化商业价值（如招聘任务经济价值$200/position），已覆盖招聘（03模型得分78 5）和营销（50 8）领域 [4][20][35] 方法论突破 - 从"研究视角"转向"业务视角"，设计真实场景任务（如中东市场KOL搜索价值$6,000） [14] - 采用IRT理论解决题库迭代导致的数据断层问题，追踪模型能力斜率（如DeepSeek V2 5显著提升） [39][40] - 引入TMF（技术-市场契合度）分析框架，划分未达标/人机协同/专业化Agent三阶段 [44][45][46] 关键评估集 ScienceQA - 聚焦研究生水平学科知识，季度更新题库，03模型当前领先（60 8分） [4][25] - 题目示例："奇函数与偶函数嵌套组合的性质判断" [9] DeepSearch - 测试中文互联网环境下的多步推理搜索（03模型65+分），需完成规划→收集→推理→归纳全流程 [4][26] - 典型任务：跨平台合并`result_*.txt`文件并排序 [9] 专业评估 - **招聘领域**：拆解JD分析（$20/JD）、人才画像（$200/position）等7类可测评任务 [35] - **营销领域**：KOL匹配度预测（03模型50 8分 vs Claude 47 6分） [4][14] 行业影响 - 揭示模型进化速度：18个月内Chatbot能力从20-30分提升至90-100分 [9] - 预测多模态理解、长期记忆、博弈决策将成为下一阶段突破方向 [21] - 推动评估标准从"解题难度"转向"经济价值"（如营销任务节省$6,000人力成本） [14][31]

投资界· 2025-05-26 11:09

红杉中国推出AI基准测试工具xbench - 红杉中国推出全新AI基准测试工具xbench，并发布相关技术论文，成为首家由投资机构主导发布的基准测试工具[1] - xbench最初是红杉中国在2022年ChatGPT推出后对AGI进程和主流模型进行的内部月评与汇报[3] - 该工具旨在解决当前AI基准测试中模型快速"刷爆"题目、测试有效性时间急剧缩短的问题[3][4] xbench的核心特点 - 采用双轨评估体系：评估AI系统的能力上限与技术边界，同时量化AI系统在真实场景的效用价值[5] - 创新性引入长青评估机制，通过持续维护并动态更新测试内容以确保时效性和相关性[5] - 重点量化AI系统在真实场景的效用价值，采用长青评估机制捕捉Agent产品的关键突破[4][5] xbench的技术创新 - 构建多维度测评数据集，同时追踪模型的理论能力上限与Agent的实际落地价值[5] - 实用性和长青性成为最大亮点：脱离单纯"智力测验"，形成对AI能力的连续性评估[6] - 动态对齐现实世界应用需求，为各垂直领域构建具有明确业务价值的测评标准[5] xbench的行业价值 - 切中AI基准测试痛点：构建更科学、长效和如实反映AI客观能力的评价体系[4] - 有望成为AGI时代价值转移之路上的"瞭望塔"，第一时间发现AI技术与产品的突破[12] - 重点关注技术-市场契合点(TMF)，为AGI创业提供新范式[10][12] 红杉中国的战略布局 - 通过xbench打造高人才密度社区，推动AI技术上限探索和商业化落地机会[15] - 号召基础模型与Agent开发者、垂类专家共同参与社区共建[14][15] - 创新投资机构角色，从商业化评估转向技术标准制定[14][15] AGI时代发展趋势 - 大模型成为AGI时代基础设施，AI应用呈现雨后春笋般发展态势[10] - 创新成本大幅降低，划时代AI Agent可能来自非传统渠道[10] - 移动互联网时代的一切都有望被AGI重构，TMF成为创业新范式[10][12]

IDEA研究院沈向洋：从PMF到TMF， AI For Science是今天一定要做的事

IPO早知道· 2024-11-23 09:04

人工智能向前发展要造数据、合成数据，有可能带来大模型创业下新的百亿美金的问题。本文为IPO早知道原创作者｜苏打微信公众号｜ipozaozhidao "如果说今天有什么事是我们一定要做的，那就是AI For Science。难以想象今天还有什么事情比它更重要，今年诺贝尔奖的颁布便是最好证明。" 11月22日召开的2024年IDEA大会上，IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在题为《从技术突破到产业融合》的主题演讲中指出，在技术大爆发时期开展创新，对技术的深度理解尤为重要。沈向洋表示，从长远的人类社会发展角度来看，巨大跃迁都是由技术创新带来的。工业时代的全球 GDP年均增速约为1%-2%，信息时代在3%-4%，人工智能时代，这个数字会是多少？与此同时，他强调，随着AI的各项能力逼近、甚至超越人类，AI治理已成亟待全球共同面对的议题。深圳或将成全球算力中心之一 "过去这几年人工智能的蓬勃发展，令大家对整个行业充满着期待。其中，算力、算法、数据是绕不开的'三件套'。"现场，沈向洋分享了对上述三要素的新理解。首先，算力是关键生产力。过去四五十年间，计算行业的发展中，最重要的一件事 ...