xbench

搜索文档
红杉中国xbench招募实习生
红杉汇· 2025-07-07 22:52
xbench项目 - 红杉中国推出xbench项目 致力于量化AI系统在真实场景的效用价值 采用长青评估机制的AI基准测试 [2] - 项目团队聚集既懂模型深层逻辑又熟悉商业落地的人才 认为科学长效的评测体系能指引AI技术突破与产品迭代 [2] 人才需求 - 寻求具备技术信仰的成员 需对AGI有热情并重视AI评测价值 [3] - 要求工程实战能力 能实践NLP/多模态/搜索算法等方向 需创新思维解决技术难题 [3] - 强调团队协作能力 需跨背景高效沟通攻克技术问题 [3] - 开放AI/Agent相关多岗位 包括算法研究员/前后端工程师/产品经理等 [4] 关联内容 - 项目配套资源包括xbench评测集开源资料 及AI技术方法论文章 [4][5] - 延伸阅读涉及新材料创新应用 复杂问题拆解方法 提示词优化技巧等跨领域内容 [5]
AI下半场,大模型要少说话,多做事
虎嗅· 2025-07-01 09:33
大模型性能与竞争格局 - DeepSeek模型性能快速提升 2024年4月排名靠后 8月进入TOP10 12月成为基础能力第一的开源模型[1] - 基础模型TOP10中中国占6个 美国占4个 包括通义千问 豆包 混元 文心等[3] - 模型排名轮动加速 GPT-4o曾保持200天第一 现在十几天就会变化[7] - 训练成本高企 每次至少几百万美元 保鲜期短导致玩家减少[8] 模型训练技术趋势 - 预训练与后训练并存 预训练提升基础能力 强化学习从实战中学习潜力大[14] - 下游企业减少参与训练 转向提示词工程 检索增强 工作流等工程化方法[9] - 智谱AI坚持预训练路线 技术团队实力和资源储备是关键[12] Agent发展与应用 - Agent成为运行在大模型上的软件 自主规划能力显著提升[21] - 提示词仍重要 精心设计的系统提示词可充分激发模型能力[22] - Agent可能不是单一产品 而是多功能集合 开发平台将成关键[29] - 未来或形成个位数基座模型+垂直行业应用平台的格局[30] 基准测试体系价值 - "方升"测试体系包含700万条数据 聚焦产业实战应用[1][44] - 测试方法标准化 题目非开源 每次抽取1-2万题后作废[47][48] - 基准测试是指挥棒 定义方向 中美差距缩小因目标一致[51] 技术路线与产业方向 - 谷歌DeepMind强化学习路线被低估 在生物 材料等领域价值巨大[34][37] - 当前模型缺乏世界模型能力 需突破空间关系 物理定律等[38] - AI下半场需减少信息过载 增强意图理解 任务规划等能力[52]
红杉公元:如何在AI下半场,定义“好问题”?丨WAVES新浪潮2025
36氪· 2025-06-20 15:00
中国创投新纪元 - 中国创投市场处于周期筑底转折点与结构性转型深化期 政策主导与国资资本集中形成新生态 行业需顺应趋势捕捉确定性机遇 [1] - 36氪WAVES大会聚焦AI技术革新 全球化浪潮与价值重估等前沿议题 汇聚顶级投资人 新锐创始人及跨领域专家探讨商业未来 [1] AI投资方法论演进 - 红杉中国推出首个投资机构主导的大模型基准测试xbench 旨在解决AI上半场"基准测试被快速刷爆"的评估困境 [3][5] - AI上半场存在"模型刷分竞赛"问题 新基准测试推出后大模型平均6-12个月即可达到SOTA水平 形成无限循环 [5][8] - 第三次迭代突破"难度至上"思维 提出双轨评估体系:AGI Track评估技术能力 Profession-aligned Track量化经济效用 [9][17][18] 评估体系创新 - 引入IRT数学建模构建长青评估标准 将离散分数转化为单调递增曲线 首次实现跨周期模型能力量化对比 [21][22] - 提出TMF(技术市场契合度)新指标 划分Agent发展三阶段:未达人力水平 替代重复劳动 专业化分工 [26] - 首期评估显示模型能力分化明显 部分擅长解题(AGI Track) 部分擅长实际应用(Profession-aligned Track) [30] 技术应用映射 - Search能力示例显示 AI从学术训练到商业应用的转化逻辑:HR简历筛选替代需200-300次/日的重复劳动 [16] - 多模态能力将开启视频生成 编辑类高价值场景 博弈能力可拓展至金融交易等复杂交互领域 [17] - 每项AGI能力突破对应特定应用场景台阶 如Search能力对应HR/Marketing 多模态对应内容生产 [18]
谷歌发现AI存在畏死情绪;MiniMax考虑赴港IPO;京东员工数将破百万
观察者网· 2025-06-19 08:55
TikTok禁令 - 美国总统特朗普将第三次延长TikTok禁令期限 白宫表示将努力确保达成协议以保障美国用户继续使用TikTok且数据安全 [1] AI行业动态 - 谷歌论文发现其AI模型Gemini在宝可梦角色生命值接近归零时会出现类似人类"恐慌"的异常状态 导致推理能力显著退化 [1] - 红杉中国开源AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch 采用"黑白盒"机制避免过拟合问题 [1] - AI独角兽MiniMax考虑在香港进行IPO 目前处于初步筹备阶段 [2] OpenAI发展 - OpenAI CEO Sam Altman透露GPT-5大概率今年夏季发布 但可能因命名、安全测试等因素延迟 同时提到o3模型、Deep Research智能体对实现AGI的重要性 [3] - OpenAI其他创新产品包括Sora、DALL-E 3、ChatGPT Junior及5000亿美元投资项目"星际之门" [3] 智能穿戴设备 - Meta联合依视路陆逊梯卡集团推出新一代智能眼镜 涵盖Prada、Oakley等奢侈品牌 搭载生成式AI技术 预计售价360美元 [3] 京东战略规划 - 京东员工数量未来将突破100万人 刘强东表示在规模达120万人时将放缓增长 部分配送员将转型为无人配送机器人维修保养人员 [4] 数字货币发展 - 中国人民银行行长潘功胜宣布设立银行间市场交易报告库及数字人民币国际运营中心 推动央行数字货币和稳定币发展 重塑跨境支付体系 [6]
红杉中国正式开源AI基准测试xbench评测集
快讯· 2025-06-18 08:37
红杉中国开源AI基准测试工具xbench - 红杉中国于6月18日正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch [1] - 公司表示未来将基于大模型和AI Agent的发展情况动态更新评测集 [1] - 采用"黑白盒"机制以服务更多大模型和Agent开发者并避免静态评测集的过拟合问题 [1] - 目标是通过动态更新确保xbench工具的长期有效性 [1]
AI Agents:从工具到伙伴 | 2025 HongShan AI Day(下篇)
红杉汇· 2025-06-02 15:06
AI Agents技术演进与评估 - 红杉中国推出全新AI基准测试工具xbench 采用双轨评测体系 AGI track验证基础能力 Profession Aligned聚焦生产场景实用性评估 预设TMF目标后停止更新难度 [7][8] - xbench通过数学模型将波动分数转化为单调递增能力曲线 解决不同时间维度模型能力比较难题 清晰展示AI真实成长轨迹 [8] - Agent定义包含三层架构 模型智能 行业私有知识 用户使用反馈 其核心价值在于泛化性 突破传统模型任务覆盖范围 [10] 商业应用与创业机会 - Agent创业需考量经济价值与生产成本平衡 关键在于能否抽象出可复制的生产方法 艺术类项目具备模型化潜力 [10] - 垂直行业场景如教育 旅游等需连接真实世界知识的领域 Agent将成为通用大模型与行业落地关键枢纽 [10][11] - 2025年LLM关键判断显示 Coding+Agentic AI将成AGI时代超级应用机会 Long Context问题解决后将引爆应用发展 [13] 企业组织形态变革 - AI时代企业规模趋向小型化 组织架构扁平化 人效显著提升但管理复杂度增加 创始人需强化招聘与领导力 [16] - 国际化企业需提前搭建海外架构 涵盖人力 品牌 财务等模块 全球人才协同创造价值成为核心竞争力 [15] - AI重塑品牌传播方法论 企业需精准把握核心受众关注点 技术创新与品牌内容建设需同步推进 [15] 技术突破方向 - Agent交互方式从按钮操作转向多模态自然交互 需突破上下文管理瓶颈以实现长期连续性任务执行 [11] - 在线学习(Online-learning)成为新范式 允许模型自主探索 可能催生"堪比爱因斯坦的AGI" [13] - LLM Agent应升级为数字员工角色 解析执行复杂任务 创业公司需在新环境下重新定位价值 [19] 行业竞争格局 - OpenAI与Anthropic在LLM领域占据绝对领先优势 AGI发展路线已出现分化 [13] - 2030年前将出现多家市值超10万亿美元公司 标志AI经济价值跃升 预训练仍是新能力涌现关键 [13] - 谷歌提出AI战略核心是构建端到端平台而非单一模型 2025年将成AI创新真正起点 [18]
美团收入超预期,广告和佣金增长略放缓;比亚迪推“百补”,有车型比特斯拉FSD便宜;理想调整下沉市场开店方式丨百亿美元公司动向
晚点LatePost· 2025-05-27 11:02
美团业绩与市场竞争 - 一季度营收865.6亿元,同比增长18.1%,高于预期的854.4亿元;经调整净利润109.5亿元,同比增长46.2%,高于预期的97.3亿元 [1] - 核心本地商业中配送收入257.2亿元(+22.1%),佣金收入240.5亿元(+20.1%),广告收入118.62亿元(+15.1%),配送加速增长而佣金和广告增速放缓 [1] - 外卖业务二季度单量增速预计与一季度、去年四季度持平;到店业务可能受外卖补贴冲击导致订单增速放缓和利润小幅下跌 [2] - 公司现金及短期理财规模1803亿元,较去年底增加超120亿元 [2] - 美团CEO王兴表示将不惜代价赢得竞争,但认为低质低价的内卷式竞争不可持续 [1][2] 比亚迪降价与销售 - 王朝网和海洋网22款智驾版车型推出限时促销,最高优惠达5.3万元 [2] - 秦PLUS DM-i智驾版起售价6.38万元,海豹07DM-i智驾版降价5.3万元至10.28万元 [3] - 一季度末存货1543.7亿元,环比增长33%,主要因市场订单增长和备货量提升 [3] - 1-4月累计销售新能源汽车138.1万辆,同比增长47%,全年销量目标550万辆 [3] - A股股价单日下跌5.93%,市值缩水731亿元至1.16万亿元,遭净卖出超9亿元 [4] 理想汽车渠道策略 - 在下沉市场开展"百城繁星计划",销售转为自营模式,服务转由合作伙伴经营 [5] - 对合作伙伴场地要求包括:销售展厅不少于500平米,总面积不少于2000平米,专用停车位不少于15个 [5] - 在低线城市保留销售和零配件职能,将服务和信息反馈职能转给经销商 [6] - 多家新势力车企采用不同模式转移门店成本给经销商,本质是争夺经销商资源 [6] 英伟达与芯片市场 - 将为中国市场推出售价6500至8000美元的新AI芯片,低于H20芯片的1万至1.2万美元 [8] - 中国市场占有率从3年前的95%降至50%,CEO警告限制可能导致客户转向华为 [8] 其他公司动态 - 蔚来新款ET5和ET5T上市,起售价保持29.8万元不变,升级超500项 [9] - 日产计划出售横滨总部大楼,预计获超1000亿日元(约50亿元人民币)用于重组 [10] - 红杉中国推出AI测评工具xbench,采用双轨评估体系量化AI系统真实场景效用价值 [11][12] - 具身智能公司魔法原子完成数亿元融资,资金用于VLA模型搭建和场景落地 [13] - 太盟集团联合腾讯、京东等以500亿元收购48家万达广场 [14] - 万豪与美团合作上线会员价直连,美团黑钻会员可匹配万豪金卡 [16]
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials· 2025-05-27 10:37
文章核心观点 - 传统AI基准测试因模型普遍满分而失效,需要构建更科学长效的评测体系[1] - 红杉中国推出xbench基准测试,采用双轨评估体系和长青机制,聚焦模型理论能力上限与真实场景效用价值[2][3] - xbench首期发布科学问题解答和中文深度搜索两大评估集,并建立招聘/营销领域垂类评测框架[4] - 通过动态更新题库和横向对比指标,解决模型能力追踪与商业价值评估的痛点[5][6][7][8][9] 双轨评估体系 - 主线1:评估AI系统能力上限与技术边界(如ScienceQA测评集)[3][4] - 主线2:量化真实场景效用价值,基于工作流程和社会角色构建业务标准(如Recruiting测评集)[3][7] - 首期AGI Tracking测评显示:GPT-4在ScienceQA得分68.8领先Gemini 2.5 Pro(57.2),在DeepSearch以85分领先MiniMax(60)[11] 长青评估机制 - 定期更新测试内容防止过拟合,保持时效性[3][8] - 建立动态题目扩充集,通过Live收集真实业务数据构建行业评估标准[8][9] - 设计可横向对比指标,追踪模型发展速度与市场落地阈值[9] 垂类应用评测 - Profession Aligned评估中:GPT-4招聘领域得分78.5,营销领域50.8均列第一[11] - 联合行业专家共建动态评估集,覆盖招聘/营销等垂直场景[4][9] 社区共建计划 - 向开发者提供黑盒评估集验证产品效果[11] - 邀请垂类开发者和企业共建行业标准[11] - 支持研究者专业标注并长期维护评估更新[11] 开发背景 - 源于红杉中国2022年内部模型月评,发现题库失效速度加快[4] - 质疑模型能力与实际经济价值的关联性,提出双轨制解决方案[5][6]
早报|小米回应「芯片自研风波」/马斯克:AI 将替代传统搜索/美团 CEO 谈京东外卖百亿补贴:非理性且低质
搜狐财经· 2025-05-27 09:27
小米玄戒芯片自研风波 - 小米发布自研芯片「玄戒 O1」,采用台积电第二代3nm制程工艺,集成190亿晶体管,十核心四丛集CPU架构(2颗超大核+4颗大核+2颗小核+2颗超小核),16核GPU [4] - 小米否认玄戒O1是向Arm定制的芯片,强调基于Arm标准IP授权但多核及访存系统级设计、后端物理实现完全自主完成 [5] - 玄戒O1的CPU超大核心(Cortex-X925)主频达3.9GHz,超过Arm公布的3.8GHz规格,重新设计超过480种标准单元库 [5][6] AI替代传统搜索趋势 - 马斯克预测AI将替代传统搜索,Google搜索市场份额自2015年来首次跌破90%至89.71% [8] - 苹果服务高级副总裁指出Safari搜索量首次下降,归因于AI搜索使用增加,未来可能在Safari中添加AI搜索功能 [8] - IBM高管预测2025年是AI Agent规模应用的拐点,认为技术突破已为爆发奠定基础 [24][25][26] 哪吒汽车股权冻结事件 - 哪吒汽车原CEO张勇名下4050万股权被冻结,执行法院为浙江省嘉兴市桐乡市人民法院 [9] - 哪吒汽车创始人方运舟名下2000万股权同日被冻结,公司关联企业合众新能源汽车存在多条股权冻结信息 [10] - 公司回应破产申请为司法程序正常受理动作,但自去年12月起持续传出负面消息 [10] AI行业动态 - 红杉中国推出AI Agent基准测试工具「xbench」,首轮测试中OpenAI的o3模型表现最佳 [11][13][14] - 英国AI编程公司Builder.ai破产,曾估值15亿美元,被曝用印度程序员冒充AI功能 [15][16] - 前OpenAI华人副总裁翁荔的新公司Thinking Machines Lab获超20亿美元融资,估值达100亿美元 [21][22] 科技产品发布 - Google Pixel 10真机曝光,将采用自主设计Tensor G5 Soc及台积电3nm工艺 [27][32] - 红魔发布10S Pro系列游戏手机,搭载骁龙8至尊超频版处理器,7500mAh电池,起售价4999元 [33][35][36] - 李未可发布View AI拍摄眼镜,搭载骁龙AR1平台,支持180种语言翻译,首发价1699元 [38] 互联网企业动态 - 美团Q1收入865.57亿元同比增长18.1%,净利润100.57亿元同比增长87.3%,CEO王兴回应将不惜代价应对外卖竞争 [48][49][50] - 昆仑万维发布天工超级智能体App,自称全球首款基于AI Agent架构的Office智能体手机应用 [44][45] - 微信语音界面在8.0.60版本测试新设计,「取消」「转文字」按钮改为长条形 [51][52]
腾讯研究院AI速递 20250527
腾讯研究院· 2025-05-26 23:53
海光信息与中科曙光并购 - 海光信息通过换股方式吸收合并中科曙光,两家企业总市值合计超4000亿元 [1] - 海光为国产CPU及GPU龙头,中科曙光为服务器及算力基础设施龙头,两家有频繁关联交易 [1] - 此次重组旨在抢抓信息技术产业发展机遇,实现产业链互补,形成多元算力业务整合 [1] Lilian Weng新公司Thinking Machines - OpenAI前安全副总裁Lilian Weng分享其新公司产品——用于AI训练的手动调参仪表盘 [1] - Thinking Machines由多位OpenAI核心员工组建,未发表论文但估值已达90亿美元 [1] - OpenAI计划在2026年前推出能让ChatGPT"无处不在"的硬件设备 [1] Google基于Gemma模型的变体 - Google发布三款基于Gemma的模型变体:MedGemma、SignGemma和DolphinGemma,分别面向医疗、手语和动物语言领域 [2] - MedGemma包含4B多模态模型和27B文本模型,能处理医学图像分类、报告生成和临床文本推理,可在单GPU上运行 [2] - SignGemma用于手语翻译,DolphinGemma是400M参数模型,用于预测和生成海豚语言信号 [2] AI教育工具VideoTutor - VideoTutor面向K12教育,输入问题或主题后可自动生成类似可汗学院风格的短视频课程 [3][4] - 该工具提供结构化脚本、动态视觉效果和专业旁白,支持100多种AI语音和40多种语言,生成时间仅需1-3分钟 [3][4] - 技术结合大语言模型、AI动画引擎和高级文本转语音技术,覆盖数学、科学、语言等学科,支持个性化定制 [4] 企业微信智能机器人升级 - 企业微信"智能机器人"基于企业内部资料结合DeepSeek与混元等大模型深度思考回答员工问题 [5] - 新功能支持添加在线文档、微盘文件夹等到知识集,知识维护更灵活,并可通过API接口与业务系统打通 [5] - 支持单聊和群聊对话,企业管理员可在一分钟内配置专属智能机器人,适用于企业百事通、AI导师等多种场景 [5] 人形机器人格斗比赛 - 杭州举行全球首个人形机器人格斗比赛,机器人们展示打拳、闪避、肉搏等动作,采用三回合赛制 [6] - 最终小黑(AI策算师)击败小绿获得冠军,机器人们展示了直拳、勾拳、扫腿等十种动作组合 [6] - 格斗涉及机体设计、动作控制等多方面挑战,背后采集了职业搏击选手的数据,但仍由人类操控 [6] iOS 19设计更新 - 苹果将在WWDC 2025发布iOS 19等系统的重大设计更新,代号"Solarium",是自iOS 7以来最大规模的视觉更新 [7] - 新设计语言借鉴visionOS元素,使用更多透明度效果、新图标和修订导航方式,实现跨设备和操作系统的视觉统一性 [7] - 更新将涵盖iOS、macOS、watchOS和tvOS等系统,可能特征包括Frosted Glass元素、更圆润的"squircle"图标和浮动UI元素 [7] Anthropic对AI自动化的预测 - Anthropic核心技术成员Douglas预测,到2027-2028年,AI模型将有能力自动化几乎所有白领工作 [9] - Claude 4在软件工程领域表现突出,能处理极其模糊的需求,自主完成任务,AI工具已将资深工程师效率提升1.5-5倍 [9] - 未来趋势指向AI Agent普及,到2025年底,通用型AI Agent能处理各种浏览器内事务将变得明显 [9] 红杉中国推出Agent基准测试xbench - 红杉中国推出双轨评估体系"xbench",追踪AI模型的理论能力上限与Agent在真实场景的落地价值 [10] - xbench分为AGI Tracking与Profession Aligned两条路径,前者测试模型关键能力边界,后者关注垂直领域实际价值 [10] - 评估设计能跟踪Agent能力的技术-市场契合点(TMF),预测AI接管现有业务流程的时间点,分析成本效益与专业能力提升速度 [10]