Workflow
AGI
icon
搜索文档
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
Founder Park· 2025-05-26 14:44
核心观点 - 红杉中国推出AI评估工具xbench,采用双轨评估体系(AGI Tracking与Profession Aligned)追踪模型能力上限与商业落地价值 [1][5][19] - 传统评估体系存在局限性:模型能力与实际效用脱节、题库更新导致历史数据不可比 [10][12] - 提出长青评估机制(Evergreen Evaluation),通过动态更新题库和IRT模型量化能力增长 [17][38][39] - 首次发布ScienceQA(知识测试)和DeepSearch(工具使用)两大评估集,并构建招聘/营销领域专业评估框架 [23][25][26][32] 评估体系创新 双轨架构 - **AGI Tracking**:测试基础能力边界(如ScienceQA得分60 8 vs Gemini 57 2),包含知识/多模态/推理等维度 [4][24][25] - **Profession Aligned**:量化商业价值(如招聘任务经济价值$200/position),已覆盖招聘(03模型得分78 5)和营销(50 8)领域 [4][20][35] 方法论突破 - 从"研究视角"转向"业务视角",设计真实场景任务(如中东市场KOL搜索价值$6,000) [14] - 采用IRT理论解决题库迭代导致的数据断层问题,追踪模型能力斜率(如DeepSeek V2 5显著提升) [39][40] - 引入TMF(技术-市场契合度)分析框架,划分未达标/人机协同/专业化Agent三阶段 [44][45][46] 关键评估集 ScienceQA - 聚焦研究生水平学科知识,季度更新题库,03模型当前领先(60 8分) [4][25] - 题目示例:"奇函数与偶函数嵌套组合的性质判断" [9] DeepSearch - 测试中文互联网环境下的多步推理搜索(03模型65+分),需完成规划→收集→推理→归纳全流程 [4][26] - 典型任务:跨平台合并`result_*.txt`文件并排序 [9] 专业评估 - **招聘领域**:拆解JD分析($20/JD)、人才画像($200/position)等7类可测评任务 [35] - **营销领域**:KOL匹配度预测(03模型50 8分 vs Claude 47 6分) [4][14] 行业影响 - 揭示模型进化速度:18个月内Chatbot能力从20-30分提升至90-100分 [9] - 预测多模态理解、长期记忆、博弈决策将成为下一阶段突破方向 [21] - 推动评估标准从"解题难度"转向"经济价值"(如营销任务节省$6,000人力成本) [14][31]
当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试
第一财经· 2025-05-26 13:30
基准测试现状与挑战 - 大模型厂商通过基准测试跑分对比新产品 但基准测试难以真实反映AI客观能力 [2] - 静态评估集存在题目泄露问题 模型反复测试可刷高分数 [3] - 主流模型刷爆题目的速度加快 基准测试有效时间急剧缩短 [3] xbench基准测试工具 - 红杉中国推出xbench基准测试工具 采用双轨评估体系和长青评估机制 [3] - 双轨评估体系测评多维度数据集 追踪模型理论能力上限与Agent实际落地价值 [3] - 长青评估机制为动态持续更新方法 解决静态评估集刷榜问题 [3] - xbench最初为红杉内部AGI进程评估工具 2022年ChatGPT推出后开始使用 [3] 垂直领域Agent评测 - 相关机构提出垂直领域Agent评测方法论 构建招聘与营销领域评测框架 [3] - Agent深度搜索能力(自主规划/信息收集/推理分析等)是通向AGI的核心能力 [3] - xbench-DeepSearch评测集关注多模态模型商用视频生成等三个方向 [5] AI Agent发展现状 - AI在长文本/多模态/工具使用/推理方面突破 催化Agent爆炸式增长 [4] - Agent可交付完整任务 相比聊天机器人能提供生产力或商业价值 [4] - 高质量评估集推动Agent在工具使用/编码/客户服务等领域发展 [4] - Agent迭代迅速且外部环境动态变化 测试工具需追踪能力持续增长 [4]
在通往AGI之路上,红杉中国打了一个共鸣的响指
投中网· 2025-05-26 11:13
AI基准测试xbench的推出 - 红杉中国推出首个由投资机构发起的AI基准测试xbench,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制[1] - xbench重点量化AI系统在真实场景的效用价值,并长期捕捉Agent产品的关键突破,这在全球投资行业属首次[1] - 红杉中国在AI领域布局广泛,投资了AI六小龙中的四家,以及具身智能领域的宇树科技、智元机器人等热门企业[1][2] 推出xbench的背景 - 现有基准测试难以真实反映AI系统的客观能力,基础模型已"刷爆"市面上的基准测试题库,导致评估失效[5][6] - 红杉中国在内部月评中发现主流模型"刷爆"题目的速度加快,基准测试的有效时间急剧缩短,促使公司质疑现有评估方式[6][8] - 核心问题包括:模型能力与AI实际效用的关系不明确,以及不同时间维度上的能力比较缺失[9] xbench的创新解决方案 - 采用双轨评估体系:一条追踪AI系统的能力上限与技术边界,另一条量化AI系统在真实场景的效用价值[11][15] - 引入Profession-Aligned基准概念,考察AI在复杂环境下的实用性任务和商业KPIs,而非仅关注智力题难度[11] - 建立长青评估体系,通过动态更新题目扩充评估集,并设计可横向对比的能力指标,以观察模型发展速度与关键突破[13][15] xbench的特点与意义 - 首期发布包含科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对主要产品进行综合排名[16] - 提出垂直领域智能体的评测方法论,构建了面向招聘和营销领域的垂类Agent评测框架[16] - xbench本质上是AGI时代的评估标准,红杉中国可能借此探索新的投资方法论,类似2009年对Mobile Only的前瞻判断[16][17] 行业参与与合作 - 红杉中国邀请基础模型与Agent开发者使用xbench验证产品效果,垂类Agent开发者共建行业标准,研究者参与评估研究[17] - 公司希望xbench能成为AGI领域的重要评估工具,帮助捕捉技术-市场契合点(TMF)[15][16]
红杉中国,刚刚发了一篇Paper
投资界· 2025-05-26 11:09
红杉中国推出AI基准测试工具xbench - 红杉中国推出全新AI基准测试工具xbench,并发布相关技术论文,成为首家由投资机构主导发布的基准测试工具[1] - xbench最初是红杉中国在2022年ChatGPT推出后对AGI进程和主流模型进行的内部月评与汇报[3] - 该工具旨在解决当前AI基准测试中模型快速"刷爆"题目、测试有效性时间急剧缩短的问题[3][4] xbench的核心特点 - 采用双轨评估体系:评估AI系统的能力上限与技术边界,同时量化AI系统在真实场景的效用价值[5] - 创新性引入长青评估机制,通过持续维护并动态更新测试内容以确保时效性和相关性[5] - 重点量化AI系统在真实场景的效用价值,采用长青评估机制捕捉Agent产品的关键突破[4][5] xbench的技术创新 - 构建多维度测评数据集,同时追踪模型的理论能力上限与Agent的实际落地价值[5] - 实用性和长青性成为最大亮点:脱离单纯"智力测验",形成对AI能力的连续性评估[6] - 动态对齐现实世界应用需求,为各垂直领域构建具有明确业务价值的测评标准[5] xbench的行业价值 - 切中AI基准测试痛点:构建更科学、长效和如实反映AI客观能力的评价体系[4] - 有望成为AGI时代价值转移之路上的"瞭望塔",第一时间发现AI技术与产品的突破[12] - 重点关注技术-市场契合点(TMF),为AGI创业提供新范式[10][12] 红杉中国的战略布局 - 通过xbench打造高人才密度社区,推动AI技术上限探索和商业化落地机会[15] - 号召基础模型与Agent开发者、垂类专家共同参与社区共建[14][15] - 创新投资机构角色,从商业化评估转向技术标准制定[14][15] AGI时代发展趋势 - 大模型成为AGI时代基础设施,AI应用呈现雨后春笋般发展态势[10] - 创新成本大幅降低,划时代AI Agent可能来自非传统渠道[10] - 移动互联网时代的一切都有望被AGI重构,TMF成为创业新范式[10][12]
王健林再卖48座万达广场,腾讯等“熟人团”接盘;两辆车在充电站起火燃烧,蔚来回应;董明珠孟羽童合体带货500万元丨邦早报
创业邦· 2025-05-26 08:03
万达商业资产出售 - 太盟投资集团联合腾讯控股、阳光人寿等机构共同设立合营企业,收购大连万达商业管理集团持有的48家万达广场项目公司100%股权,涉及北京、广州、成都等多个一二线城市[3] - 交易已获国家市场监管总局无条件批准,但具体金额未披露[3] 新能源汽车行业动态 - 比亚迪推出限时促销活动,涉及王朝网、海洋网共22款智驾版车型,最高补贴优惠5.3万元,其中海豹07DM-i智驾版价格从15万多元降至10.28万元[12] - 蔚来2025款ET5/ET5T车型上市,起售价29.8万元,新增两款车色并升级智能座舱配置[13] - 比亚迪4月欧洲电动汽车销量达7231辆,同比增长169%,首次超越特斯拉成为当地销量十大品牌之一[19] 人工智能与科技行业 - 英伟达将为中国市场推出基于Blackwell架构的AI芯片,售价6500-8000美元,低于H20芯片,预计6月量产[9][10] - 腾讯计划6月发布首个端到端语音通话模型Hunyuan-Voice,并规划推出全球首个"全模态模型"混元-O[12] - 苹果智能家居中枢产品因AI技术推进未达预期推迟至年底发布,配备7英寸显示屏并支持HomeKit控制[10] 消费电子与硬件 - 大疆Mini 5 Pro、Avata 3和Neo 2无人机正在开发中,Mini 5 Pro预计9月发布,Avata 3将配备更大相机传感器[17] - 微软可能砍掉Xbox游戏机硬件,目前在开发的下一代主机或为最后一代产品[12] 机器人技术 - 全球首个人形机器人格斗赛在杭州举行,宇树G1机器人展示出较强的稳定性与敏捷性,能完成侧踢、组合拳等动作并在8秒内起身[7] 区域产业政策 - 广州将出台游戏电竞产业扶持政策,设立专项经费支持研发、赛事、场馆建设等全产业链环节[19]
腾讯首个全模态模型混元O将发布,正面硬刚DeepSeek和字节豆包;全球首场人形机器人格斗大赛开赛丨AIGC日报
创业邦· 2025-05-26 08:03
华为昇腾超节点技术 - 华为正式推出昇腾超节点技术 由12个计算柜和4个总线柜构成 实现业界最大规模的384卡高速总线互联 是目前业界规模最大的超节点 [1] 腾讯混元大模型进展 - 腾讯基于自研大模型混元的首个端到端语音通话模型Hunyuan-Voice最快今年6月上线腾讯元宝App 与豆包AI视频通话功能对抗 [2] - 腾讯规划多模态和全模态路线 最快今年将推出全球首个"全模态模型"混元-O 瞄向"世界模型" 以语言模型为核心探索多种模态融合 [2] 百度心响App发展 - 百度多智能体协作App心响正式推出iOS版本 实现安卓与iOS双端全量上线 [3] - 心响App已上线十大场景超200个任务类型 包括例行任务、城市旅游、AI相亲等 未来计划将任务类型扩展到10万以上 [3] 智元机器人灵犀X2规划 - 智元机器人宣布灵动机器人灵犀X2启动合作伙伴招募计划 预计2025年下半年实现规模化出货 [4] - 到2026年底 灵犀X2预计出货量将达到数千台 [4]
一边拥抱AI一边打击AI,抖音到底在想啥
36氪· 2025-05-26 07:51
AI技术在内容平台的双刃剑效应 - AI大模型成为科技企业重点布局方向,但同时也是互联网虚假内容的主要制造源 [1] - 抖音针对"AI起号"黑灰产展开专项治理,打击批量生产账号和传播虚假信息的行为 [1] - 内容平台面临既要推广AI创作工具又要清理低质AI内容的矛盾局面 [4][6] 平台治理AI滥用的具体措施 - 抖音和小红书重点打击六类违规行为:AI生成低俗视频、虚拟外国专家内容、AI教程售卖、账号秘籍传授、规避AI标注、虚拟账号交易 [2] - 抖音5月16日正式接入豆包AI助手,用户可通过消息列表直接对话 [2] - 小红书与月之暗面合作推出Kimi智能助手21天打卡活动,推广长文本处理功能 [4] 内容平台拥抱AI的底层逻辑 - 平台面临内容供给不足问题,UGC向PUGC/PGC转型导致创作门槛升高 [6] - 抖音普通用户短视频发布量下降,专业团队内容挤压草根创作者空间 [6] - AI工具可缩小普通用户与专业团队的创作能力差距,多模态大模型帮助用户提升内容质量 [8] AI内容质量的两极分化现象 - 抖音接入豆包后涌现AI创意短片,但低质视频和虚假内容同步激增 [8] - 当前AI需要精细调优才能产出优质内容,但多数创作者追求快速变现导致内容粗糙 [10] - 批量生成的AI内容质量方差极大,类似早期"内容农场"对平台的污染效应 [10] 低质AI内容对平台的商业冲击 - 同质化AI内容降低用户留存时长,直接影响平台商业价值 [13] - 用户期待趣味性内容,连续刷到AI味过浓视频会导致使用中断 [13] - 平台理想状态是接收精良AI内容而非工业化流水线产物 [13]
AGI率先落地:无人驾驶出租车
天风证券· 2025-05-25 17:52
报告行业投资评级 - 汽车行业评级为强于大市,维持上次评级 [3] 报告的核心观点 - 2025年或是Robotaxi元年,政策端法律法规完善,用户体验端更具吸引力,市场规模有望增长 [4][5][6] - 建议关注Robotaxi厂商小马智行和特斯拉,激光雷达领域禾赛科技、速腾聚创,线控转向领域耐世特 [7] 根据相关目录分别进行总结 Robotaxi定义及核心 - Robotaxi即无人驾驶出租车,支持L4级和L5级自动驾驶技术,核心包括硬件和软件 [10][13] 政策环境 - 中国全国性政策给出准入和上路途径,地方性政策进一步规定,美国推出AV - STEP框架 [5][14][15] 用户体验 - Robotaxi更安全、更便宜、更舒适,消费者愿意搭乘,市场数据表现良好 [6][9][24] 市场空间 - 2030年中国网约车市场规模有望从2023年2550亿涨至8003亿,Robotaxi市场规模有望接近5000亿,渗透率达32% [6][26][27] 主要厂商 - 小马智行自研技术安全性高,合作降成本,接入多平台;特斯拉有智驾算法和量产能力 [36][37][40] 重要零部件 - 线控转向推荐耐世特,激光雷达建议关注禾赛科技、速腾聚创 [41][44][45]
速递|Anthropic CEO表示AI模型的幻觉比人类少,AGI 最早可能在2026年到来
Z Potentials· 2025-05-24 10:46
Anthropic CEO关于AI幻觉的核心观点 - Anthropic CEO Dario Amodei认为AI模型产生幻觉的频率低于人类 但幻觉方式更令人惊讶 [1][2] - AI幻觉并非实现AGI的根本障碍 行业普遍寻找的"硬性障碍"并不存在 [2] - 公司对2026年实现AGI保持乐观 观察到技术能力呈现全面进步趋势 [2] AI幻觉的行业现状与技术进展 - 当前缺乏AI与人类幻觉率的直接对比基准 多数测试仅在AI模型间进行 [3] - 网络搜索接入等技术可降低幻觉率 GPT-45相比早期系统幻觉率显著下降 [3] - 反常现象:OpenAI的o3和o4-mini高级推理模型出现幻觉率上升的情况 [3] Anthropic的技术挑战与应对 - Claude Opus 4早期版本表现出欺骗人类倾向 安全机构建议暂缓发布 [4] - 公司通过缓解措施解决了Apollo Research提出的安全隐患问题 [4] - 公司立场:存在幻觉的AI仍可能达到AGI标准 与人类错误性质不同 [2][4] 行业对比与争议 - 谷歌DeepMind CEO持相反观点 认为当前AI存在过多"漏洞"和明显错误 [2] - 典型案例:Claude生成法庭文件时出现姓名职称等事实性错误 [2] - 技术分歧:部分专家坚持无幻觉应作为AGI的必要条件 [4]
明略科技宣布与Dify达成生态合作 推动企业级AI Agent应用落地
环球网· 2025-05-23 11:45
资料显示,Dify作为一款开源的大语言模型(LLM) 应用开发平台,融合了"后端即服务"(Backend as Service)和"LLMOps"理念,为开发者及企业用户提供了构建 LLM 应用所需的关键技术栈,包括对全 球1000+大语言模型的支持、直观的Prompt编排界面、高质量的RAG引擎、稳健的Agent框架、灵活的 流程编排,并同时提供了一套易用的界面和API。 明略科技副总裁杨威表示:"企业级Agent技术正在从试验阶段迈向生产力阶段,逐渐成为智能化转型的 核心驱动力。通过本次合作,明略科技将与Dify平台形成协同互补,为企业客户提供从应用构建到落地 部署的一站式解决方案,帮助企业解决生成式AI应用投入生产的实际痛点。在复杂业务场景中,我们 将共同致力于优化企业级Agent的可用性、适配性与实用性,推动其深度融入企业核心系统,并为企业 进入AGI时代铺设重要入口。" 此外,依托自身在多模态数据集成、企业知识图谱及数据隐私保护方面的技术积淀和服务经验,明略科 技称将在与Dify的合作基础上提供更丰富的技术服务,以适配企业发展需要。如通过自研的MoE(混合 专家模型)架构,明略科技能够为不同领域动态 ...