Workflow
TMF
icon
搜索文档
红杉公元:如何在AI下半场,定义“好问题”?丨WAVES新浪潮2025
36氪· 2025-06-20 15:00
WAVES新浪潮2025邀你一起走向中国创投的「新纪元」。 这是属于中国创投的新纪元。当下的中国创投市场,既是周期筑底的转折点,也是结构性转型的深化期。在政策主导、国资与资本高度集中的新 生态下,唯有顺应趋势、灵活调整,方能在不确定性中捕捉确定性机遇。 6月11-12日,杭州良渚文化艺术中心,36氪WAVES新浪潮2025大会以「新纪元」为主题,汇聚创投领域顶级投资人、新锐企业创始人,以及深 耕科技、创新、商业的科学家、创作者与学者,共同探讨AI技术革新、全球化浪潮与价值重估等前沿议题,拆解他们眼中的商业理想和未来世 界,一起讨论、寻找、走向中国创投「新纪元」。 6月12日上午,在创业者会场上红杉中国投资人公元,进行了一场独立演讲,主题为「如何在AI下半场,定义"好问题"?」。以下为演讲全文: 大家好!我是红杉中国的公元。很高兴受到36氪、暗涌waves的邀请,今天能和大家做一场分享。今天我想和大家讲的主题,和我们最近刚刚推出的xbench 相关。xbench是首个由投资机构推出的面向大模型和AI Agent的基准测试。我们为什么要推出这个基准测试,今天想和大家一起分享一下背后的故事。 · · 这两张图,左边 ...
红杉中国大动作!发布全新AI基准测试工具xbench,意义几何
证券时报网· 2025-05-26 20:50
红杉中国推出AI基准测试工具xbench - 红杉中国推出全新AI基准测试工具xbench并发布相关论文 标志着投资机构首次主导发布基准测试 为AI投资领域带来新突破 [1] - xbench采用双轨评估体系 同时追踪模型理论能力上限与Agent实际落地价值 创新性地将评测分为能力上限评估和实际效用价值量化两条主线 [2] - xbench采用长青评估机制 持续更新测试内容确保时效性 定期测评主流Agent产品 跟踪模型演进 预测技术-市场契合点 [2] xbench的技术特点与功能 - xbench首期包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch) 并对主要产品进行综合排名 [3] - 提出了垂直领域智能体评测方法论 构建了招聘和营销领域的垂类Agent评测框架 评测结果可通过xbench.org实时查看 [3] - 支持社区共建 基础模型开发者可用xbench验证产品效果 垂类开发者可共建行业标准 研究者可利用xbench实现评估研究想法 [3] 行业影响与投资趋势 - 红杉中国将内部使用的AI评估工具开源 推动AI技术上限探索和商业化落地 为行业带来变革 [4] - 美国一级市场AI应用侧投资占主导 中国市场硬件和软件投资较平衡 算力生态、自动驾驶和具身智能等硬件领域受关注 [4] - AI智能体受国内机构关注 大模型向产业模型转变 算法算力向应用迈进 AI编程、AI智能体和AI硬件将成为三大爆发点 [4] 厂商动态与市场展望 - 微软构建Agent网络 谷歌打造2C Agent3P战略 Anthropic发布Claude4模型 国内金蝶国际推出苍穹Agent平台2.0 昆仑万维推出天工超级智能体 [5] - Agent产品加速落地推动AI产业向上 利好有数据、客户和场景的软件企业 模型私有化需求增加利好一体机、超融合和B端服务外包企业 [5]
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
Founder Park· 2025-05-26 14:44
核心观点 - 红杉中国推出AI评估工具xbench,采用双轨评估体系(AGI Tracking与Profession Aligned)追踪模型能力上限与商业落地价值 [1][5][19] - 传统评估体系存在局限性:模型能力与实际效用脱节、题库更新导致历史数据不可比 [10][12] - 提出长青评估机制(Evergreen Evaluation),通过动态更新题库和IRT模型量化能力增长 [17][38][39] - 首次发布ScienceQA(知识测试)和DeepSearch(工具使用)两大评估集,并构建招聘/营销领域专业评估框架 [23][25][26][32] 评估体系创新 双轨架构 - **AGI Tracking**:测试基础能力边界(如ScienceQA得分60 8 vs Gemini 57 2),包含知识/多模态/推理等维度 [4][24][25] - **Profession Aligned**:量化商业价值(如招聘任务经济价值$200/position),已覆盖招聘(03模型得分78 5)和营销(50 8)领域 [4][20][35] 方法论突破 - 从"研究视角"转向"业务视角",设计真实场景任务(如中东市场KOL搜索价值$6,000) [14] - 采用IRT理论解决题库迭代导致的数据断层问题,追踪模型能力斜率(如DeepSeek V2 5显著提升) [39][40] - 引入TMF(技术-市场契合度)分析框架,划分未达标/人机协同/专业化Agent三阶段 [44][45][46] 关键评估集 ScienceQA - 聚焦研究生水平学科知识,季度更新题库,03模型当前领先(60 8分) [4][25] - 题目示例:"奇函数与偶函数嵌套组合的性质判断" [9] DeepSearch - 测试中文互联网环境下的多步推理搜索(03模型65+分),需完成规划→收集→推理→归纳全流程 [4][26] - 典型任务:跨平台合并`result_*.txt`文件并排序 [9] 专业评估 - **招聘领域**:拆解JD分析($20/JD)、人才画像($200/position)等7类可测评任务 [35] - **营销领域**:KOL匹配度预测(03模型50 8分 vs Claude 47 6分) [4][14] 行业影响 - 揭示模型进化速度:18个月内Chatbot能力从20-30分提升至90-100分 [9] - 预测多模态理解、长期记忆、博弈决策将成为下一阶段突破方向 [21] - 推动评估标准从"解题难度"转向"经济价值"(如营销任务节省$6,000人力成本) [14][31]
红杉中国,刚刚发了一篇Paper
投资界· 2025-05-26 11:09
红杉中国推出AI基准测试工具xbench - 红杉中国推出全新AI基准测试工具xbench,并发布相关技术论文,成为首家由投资机构主导发布的基准测试工具[1] - xbench最初是红杉中国在2022年ChatGPT推出后对AGI进程和主流模型进行的内部月评与汇报[3] - 该工具旨在解决当前AI基准测试中模型快速"刷爆"题目、测试有效性时间急剧缩短的问题[3][4] xbench的核心特点 - 采用双轨评估体系:评估AI系统的能力上限与技术边界,同时量化AI系统在真实场景的效用价值[5] - 创新性引入长青评估机制,通过持续维护并动态更新测试内容以确保时效性和相关性[5] - 重点量化AI系统在真实场景的效用价值,采用长青评估机制捕捉Agent产品的关键突破[4][5] xbench的技术创新 - 构建多维度测评数据集,同时追踪模型的理论能力上限与Agent的实际落地价值[5] - 实用性和长青性成为最大亮点:脱离单纯"智力测验",形成对AI能力的连续性评估[6] - 动态对齐现实世界应用需求,为各垂直领域构建具有明确业务价值的测评标准[5] xbench的行业价值 - 切中AI基准测试痛点:构建更科学、长效和如实反映AI客观能力的评价体系[4] - 有望成为AGI时代价值转移之路上的"瞭望塔",第一时间发现AI技术与产品的突破[12] - 重点关注技术-市场契合点(TMF),为AGI创业提供新范式[10][12] 红杉中国的战略布局 - 通过xbench打造高人才密度社区,推动AI技术上限探索和商业化落地机会[15] - 号召基础模型与Agent开发者、垂类专家共同参与社区共建[14][15] - 创新投资机构角色,从商业化评估转向技术标准制定[14][15] AGI时代发展趋势 - 大模型成为AGI时代基础设施,AI应用呈现雨后春笋般发展态势[10] - 创新成本大幅降低,划时代AI Agent可能来自非传统渠道[10] - 移动互联网时代的一切都有望被AGI重构,TMF成为创业新范式[10][12]
IDEA研究院沈向洋:从PMF到TMF, AI For Science是今天一定要做的事
IPO早知道· 2024-11-23 09:04
人工智能向前发展要造数据、合成数据,有可能带来大模型创业下新的百亿美金的问题。 本文为IPO早知道原创 作者|苏打 微信公众号|ipozaozhidao "如果说今天有什么事是我们一定要做的,那就是AI For Science。难以想象今天还有什么事情比它 更重要,今年诺贝尔奖的颁布便是最好证明。" 11月22日召开的2024年IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在 题为《从技术突破到产业融合》的主题演讲中指出,在技术大爆发时期开展创新,对技术的深度理解 尤为重要。 沈向洋表示,从长远的人类社会发展角度来看,巨大跃迁都是由技术创新带来的。工业时代的全球 GDP年均增速约为1%-2%,信息时代在3%-4%,人工智能时代,这个数字会是多少?与此同时, 他强调,随着AI的各项能力逼近、甚至超越人类,AI治理已成亟待全球共同面对的议题。 深圳或将成全球算力中心之一 "过去这几年人工智能的蓬勃发展,令大家对整个行业充满着期待。其中,算力、算法、数据是绕不 开的'三件套'。"现场,沈向洋分享了对上述三要素的新理解。 首先,算力是关键生产力。过去四五十年间,计算行业的发展中,最重要的一件事 ...