Workflow
Xbench
icon
搜索文档
红杉中国xbench招募实习生
红杉汇· 2025-07-07 22:52
这里聚集着这样一群人:既懂模型的深层逻辑,更清楚商业落地的每一道关卡。我们相信,科学、长效和 真实反映AI客观能力的评测体系,是指引AI技术突破与产品迭代的重要需求。 xbench由红杉中国推出,是一款致力于量化AI系统在真实场景的效用价值,以及采用长青评估机制的AI基 准测试。 推荐阅读 壹 xbench评测集正式开源 我们期待这样的你: 贰 今天,我们推出xbench AI算法方向 AI Researcher方向 前/后端工程 AI产品经理 开源社区贡献者 叁 传感器、生物降解、医美...这些新材料或成创新催化剂 | 红杉爱科学 肆 5步拆解复杂难题,让你效率翻倍 | 红杉Library 伍 AI大家说 | 从被动执行到主动思考,快来升级你的提示词技巧 开放的实习生岗位(北京/上海/远程): 技术信仰:对AGI有近乎偏执的热情,坚信评测在AI浪潮中的巨大价值。 工程实战:具备扎实的动手能力,能够将理论应用于实践,方向包括但不限于NLP、多模 态、搜索算法等。 创新思维:善于从不同角度思考问题,提出创新的解决方案,推动AI技术的持续发展。 团队协作:具备良好的沟通能力和团队合作精神,能够与不同背景的同事高效 ...
AI下半场,大模型要少说话,多做事
虎嗅· 2025-07-01 09:33
大模型性能与竞争格局 - DeepSeek模型性能快速提升 2024年4月排名靠后 8月进入TOP10 12月成为基础能力第一的开源模型[1] - 基础模型TOP10中中国占6个 美国占4个 包括通义千问 豆包 混元 文心等[3] - 模型排名轮动加速 GPT-4o曾保持200天第一 现在十几天就会变化[7] - 训练成本高企 每次至少几百万美元 保鲜期短导致玩家减少[8] 模型训练技术趋势 - 预训练与后训练并存 预训练提升基础能力 强化学习从实战中学习潜力大[14] - 下游企业减少参与训练 转向提示词工程 检索增强 工作流等工程化方法[9] - 智谱AI坚持预训练路线 技术团队实力和资源储备是关键[12] Agent发展与应用 - Agent成为运行在大模型上的软件 自主规划能力显著提升[21] - 提示词仍重要 精心设计的系统提示词可充分激发模型能力[22] - Agent可能不是单一产品 而是多功能集合 开发平台将成关键[29] - 未来或形成个位数基座模型+垂直行业应用平台的格局[30] 基准测试体系价值 - "方升"测试体系包含700万条数据 聚焦产业实战应用[1][44] - 测试方法标准化 题目非开源 每次抽取1-2万题后作废[47][48] - 基准测试是指挥棒 定义方向 中美差距缩小因目标一致[51] 技术路线与产业方向 - 谷歌DeepMind强化学习路线被低估 在生物 材料等领域价值巨大[34][37] - 当前模型缺乏世界模型能力 需突破空间关系 物理定律等[38] - AI下半场需减少信息过载 增强意图理解 任务规划等能力[52]
红杉公元:如何在AI下半场,定义“好问题”?丨WAVES新浪潮2025
36氪· 2025-06-20 15:00
WAVES新浪潮2025邀你一起走向中国创投的「新纪元」。 这是属于中国创投的新纪元。当下的中国创投市场,既是周期筑底的转折点,也是结构性转型的深化期。在政策主导、国资与资本高度集中的新 生态下,唯有顺应趋势、灵活调整,方能在不确定性中捕捉确定性机遇。 6月11-12日,杭州良渚文化艺术中心,36氪WAVES新浪潮2025大会以「新纪元」为主题,汇聚创投领域顶级投资人、新锐企业创始人,以及深 耕科技、创新、商业的科学家、创作者与学者,共同探讨AI技术革新、全球化浪潮与价值重估等前沿议题,拆解他们眼中的商业理想和未来世 界,一起讨论、寻找、走向中国创投「新纪元」。 6月12日上午,在创业者会场上红杉中国投资人公元,进行了一场独立演讲,主题为「如何在AI下半场,定义"好问题"?」。以下为演讲全文: 大家好!我是红杉中国的公元。很高兴受到36氪、暗涌waves的邀请,今天能和大家做一场分享。今天我想和大家讲的主题,和我们最近刚刚推出的xbench 相关。xbench是首个由投资机构推出的面向大模型和AI Agent的基准测试。我们为什么要推出这个基准测试,今天想和大家一起分享一下背后的故事。 · · 这两张图,左边 ...
谷歌发现AI存在畏死情绪;MiniMax考虑赴港IPO;京东员工数将破百万
观察者网· 2025-06-19 08:55
TikTok禁令 - 美国总统特朗普将第三次延长TikTok禁令期限 白宫表示将努力确保达成协议以保障美国用户继续使用TikTok且数据安全 [1] AI行业动态 - 谷歌论文发现其AI模型Gemini在宝可梦角色生命值接近归零时会出现类似人类"恐慌"的异常状态 导致推理能力显著退化 [1] - 红杉中国开源AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch 采用"黑白盒"机制避免过拟合问题 [1] - AI独角兽MiniMax考虑在香港进行IPO 目前处于初步筹备阶段 [2] OpenAI发展 - OpenAI CEO Sam Altman透露GPT-5大概率今年夏季发布 但可能因命名、安全测试等因素延迟 同时提到o3模型、Deep Research智能体对实现AGI的重要性 [3] - OpenAI其他创新产品包括Sora、DALL-E 3、ChatGPT Junior及5000亿美元投资项目"星际之门" [3] 智能穿戴设备 - Meta联合依视路陆逊梯卡集团推出新一代智能眼镜 涵盖Prada、Oakley等奢侈品牌 搭载生成式AI技术 预计售价360美元 [3] 京东战略规划 - 京东员工数量未来将突破100万人 刘强东表示在规模达120万人时将放缓增长 部分配送员将转型为无人配送机器人维修保养人员 [4] 数字货币发展 - 中国人民银行行长潘功胜宣布设立银行间市场交易报告库及数字人民币国际运营中心 推动央行数字货币和稳定币发展 重塑跨境支付体系 [6]
谷歌推出轻量级模型Gemini 2.5 Flash-Lite;腾讯元宝电脑版上线AI编程模式丨AIGC日报
创业邦· 2025-06-19 08:00
腾讯元宝电脑版AI编程模式 - 腾讯元宝电脑版推出AI编程模式 用户需升级至v2 25以上版本并切换至DeepSeek模型 关闭深度思考后通过@AI编程指令即可启用该功能 [1] - AI编程模式采用双栏展示设计 左侧输入需求 右侧实时生成代码 提升编程效率 [1] 红杉中国AI基准测试工具 - 红杉中国开源xbench评测集 包含xbench-ScienceQA和xbench-DeepSearch两个子集 采用动态更新机制适应大模型和AI Agent发展 [2] - 评测集采用"黑白盒"机制 既服务开发者又避免过拟合问题 确保长期有效性 [2] 谷歌Gemini模型更新 - 谷歌宣布Gemini 2 5 Flash和Gemini 2 5 Pro进入稳定阶段 同时推出轻量级模型Gemini 2 5 Flash-Lite [3] MiniMax视频生成工具 - MiniMax发布Hailuo 02视频生成模型 新增1080p原生视频创作功能 提供768p-6s 768p-10s和1080p-6s三种版本 [4] - 模型更新已部署至海螺视频Web APP及开放平台API [4]
红杉中国正式开源AI基准测试xbench评测集
快讯· 2025-06-18 08:37
红杉中国开源AI基准测试工具xbench - 红杉中国于6月18日正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch [1] - 公司表示未来将基于大模型和AI Agent的发展情况动态更新评测集 [1] - 采用"黑白盒"机制以服务更多大模型和Agent开发者并避免静态评测集的过拟合问题 [1] - 目标是通过动态更新确保xbench工具的长期有效性 [1]
xbench评测集正式开源
红杉汇· 2025-06-17 21:27
开源AI基准测试xbench - 红杉中国正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,旨在量化AI系统在真实场景的效用价值并采用长青评估机制[1] - xbench-ScienceQA聚焦STEM学科,包含数学、物理、化学等8个主流学科,题目平均正确率仅32%,其中34%题目正确率低于20%[2][5][12] - xbench-DeepSearch专注评估AI Agent的深度搜索能力,要求综合运用规划+搜索+推理+总结的端到端能力,弥补中文语境搜索题库不足的弱点[3] 评测集特点 xbench-ScienceQA - 题目来源:邀请顶级院校博士和行业专家出题,确保来源可靠、多学科、搜索引擎未收录且答案明确[2] - 题型分布:包含77道问答题、14道多选题和9道单选题,降低模型"蒙对"概率[8] - 难度控制:采用LLM难度检验、同行检验等方式,实测不同模型得分差距超30%[2][10] xbench-DeepSearch - 题目设计:要求搜索空间大或推理步骤多,淘汰正确率>80%的题目[13][14] - 主题覆盖:参考OpenAI BrowseComp分类,确保多样性,涵盖历史、科技等方向[15] - 更新机制:每月汇报模型表现,每季度更新评估集,内部维护黑盒版本防止刷榜[3] 例题分析 ScienceQA示例 - 计算机题示例:考察图论单源最短路算法,正确答案为O(m√(log n·log log n)),被测模型平均正确率<5%[21][22] - 化学多选题:涉及物质结构最新研究成果,采用"全对才得分"评分方式,平均正确率<20%[24][26] DeepSearch示例 - 广度搜索题:计算东北三省接壤外国的地市数量,需跨省份数据整合,平均正确率47%[28][29] - 深度推理题:统计尼米兹级航母建造期间总统海军服役年限,侧重分步推理,正确率33%[29][30] 行业影响 - 填补高质量Agent评测集空白,动态更新机制适应AI技术快速迭代[3][31] - 开源模式吸引全球开发者参与,推动AI评估标准进化[1][33]
海内外AI催化不断,科创AIETF(588790)盘中飘红,寒武纪涨超3%
搜狐财经· 2025-06-04 10:25
上证科创板人工智能指数表现 - 截至2025年6月4日09:43 上证科创板人工智能指数(950180)上涨0 16% 成分股寒武纪上涨3 53% 云天励飞上涨2 16% 金山办公上涨1 87% 奥比中光上涨1 18% 优刻得上涨1 13% [3] - 科创AIETF(588790)上涨0 18% 最新价报0 57元 近1年日均成交2 71亿元 排名可比基金第一 [3] - 科创AIETF近1周规模增长1770 30万元 新增规模位居可比基金2/6 份额增长600 00万份 新增份额位居可比基金2/6 [4] - 科创AIETF近4个交易日内有3日资金净流入 合计4194 08万元 日均净流入1048 52万元 最新融资买入额1595 03万元 融资余额7243 46万元 [4] AI行业动态 - 红杉中国推出AI基准测试工具XBench 豆包App上线实时视频通话功能 QQ浏览器推出高考Agent "AI高考通" 昆仑万维发布天工超级智能体的app版本 [3] - OpenAI升级Operator智能体 模型从4o升级到o3 [3] - 华创证券认为AI行业在评估体系、交互体验、智能体应用及技术革新等方面快速发展 企业竞争加剧 技术迭代加速 [3] 科创AIETF产品特性 - 科创AIETF管理费率0 50% 托管费率0 10% 为可比基金中最低 [5] - 近3月跟踪误差0 015% 跟踪精度较高 [5] - 上证科创板人工智能指数最新市盈率(PE-TTM)116 72倍 处于近1年17 51%分位 估值低于近1年82 49%的时间 [5] - 指数前十大权重股合计占比70 6% 包括澜起科技(10 47%)、寒武纪(8 66%)、金山办公(8 88%)等 [5] 成分股表现 - 澜起科技权重10 47% 下跌0 42% 芯原股份权重9 01% 上涨0 59% 金山办公权重8 88% 上涨1 87% [7] - 寒武纪权重8 66% 上涨3 53% 恒玄科技权重7 08% 下跌4 69% 晶晨股份权重6 78% 上涨0 15% [7]
AI洞察:字节与OpenAI等Agent多点更新
华创证券· 2025-06-04 08:15
报告行业投资评级 - 推荐(维持)[5] 报告的核心观点 - 5月26日AI领域国内外均有动态更新,国内Agent生态与C端用户体验双轮驱动成效显现,海外Agent领域竞争趋于白热化,AI行业在评估体系、交互体验、智能体应用及技术革新等方面快速发展,各领域不断突破创新,企业竞争加剧,技术迭代加速,未来AI行业将面临更多机遇与挑战,建议关注AI企业级服务及场景落地机会[2][3][4][8] 根据相关目录分别进行总结 AI洞察:字节与OpenAI等Agent多点更新 - 5月26日国内红杉中国推出XBench,豆包App上线实时视频通话功能,QQ浏览器推出高考Agent“AI高考通”,昆仑万维发布天工超级智能体app版本;海外OpenAI升级Operator智能体,模型从4o升级到o3,推理和浏览器交互能力提升,有望激发其他企业加快Agent产品迭代,未来Agent技术可能在多模态融合等方面取得更大突破,加速AI在日常生活中的渗透[2][11] 国内 红杉中国发布XBench:AI学术评估体系更新 - 推出AI基准测试工具XBench,采用双轨评估体系,首期发布两大测评集,标志AI评估体系从单一性能指标迈向全面能力评估新阶段,为国内AI企业提供更科学评估手段,促使企业注重产品综合性能提升[12] - XBench主要功能包括双轨评估、长青评估机制、核心评估集、垂直领域智能体评测、实时更新与LeaderBoard[14] - 评估机制采用双轨评估体系和长青评估机制,双轨评估分为xbench - AGI Tracking与xbench - Profession Aligned,AGI Tracking评测是基础,实现关键能力突破才可能进入Profession Aligned评测;长青评估针对不同评估类型有不同构建和维护方式[15][16][26] - 运用长青评估思路和IRT构建xbench - Index追踪Agent产品市场变化,能精准估算核心能力指标,突破时间限制;评估了Agent的技术 - 市场契合点,认为专业领域会经历三个TMF阶段[27][31] 豆包上线视频通话功能:AI进入实时视觉交互时代 - 豆包App上线实时视频通话功能,支持视频问答,将AI交互方式从文字拓展到实时视频场景,推动AI服务向专业化、场景化迈进[12] - 依托视觉理解模型的三大核心技术突破,实现从“图像理解”到“动态视频解析”的质变,结合NLP技术实现“看 + 听”的感知融合[38][39] - 新功能深度覆盖文旅、教育、日常生活三大高频场景,构建“视觉输入 + 自然语言”的双通道交互体系[40] QQ浏览器推出行业首个高考Agent“AI高考通” - 基于腾讯混元大模型技术,将高考服务升级为全流程智能决策平台,整合多方面信息,实现高考场景智能化覆盖[45] - 贯穿高考前、中、后全流程,提供差异化智能服务,以技术赋能教育普惠[46] 昆仑天工超级智能体(Skywork Super Agents)移动App正式上线 - 作为全球首款基于AI Agent架构的移动端Office智能体应用,打破传统AI办公局限,实现办公场景全终端覆盖,提升移动办公效率,支持搭建私人知识库[48][49] - 基于自研“deep research模型”构建,技术实力在国际评测中领先,推理成本仅为OpenAI的40%,有望推动AI办公应用普及与发展[49] 国外 OpenAI升级Operator智能体:推理能力跃升新台阶 - 将Operator从GPT - 4o模型升级至o3,提升复杂任务处理能力,面向Pro或Enterprise套餐用户,基本月费200美元[50] - 主要模块更新包括感知推理架构优化,基于CUA框架整合视觉识别技术与强化学习推理逻辑,实现复杂任务长流程规划能力;安全机制升级,嵌入微调数据集,降低非法操作概率,强化防御体系[51] 投资建议与相关标的 - 建议关注AI企业级服务,如办公领域的金山办公等,营销领域的迈富时等;以及行业落地场景,如金融领域的同花顺等[8]
AI Agents:从工具到伙伴 | 2025 HongShan AI Day(下篇)
红杉汇· 2025-06-02 15:06
AI Agents技术演进与评估 - 红杉中国推出全新AI基准测试工具xbench 采用双轨评测体系 AGI track验证基础能力 Profession Aligned聚焦生产场景实用性评估 预设TMF目标后停止更新难度 [7][8] - xbench通过数学模型将波动分数转化为单调递增能力曲线 解决不同时间维度模型能力比较难题 清晰展示AI真实成长轨迹 [8] - Agent定义包含三层架构 模型智能 行业私有知识 用户使用反馈 其核心价值在于泛化性 突破传统模型任务覆盖范围 [10] 商业应用与创业机会 - Agent创业需考量经济价值与生产成本平衡 关键在于能否抽象出可复制的生产方法 艺术类项目具备模型化潜力 [10] - 垂直行业场景如教育 旅游等需连接真实世界知识的领域 Agent将成为通用大模型与行业落地关键枢纽 [10][11] - 2025年LLM关键判断显示 Coding+Agentic AI将成AGI时代超级应用机会 Long Context问题解决后将引爆应用发展 [13] 企业组织形态变革 - AI时代企业规模趋向小型化 组织架构扁平化 人效显著提升但管理复杂度增加 创始人需强化招聘与领导力 [16] - 国际化企业需提前搭建海外架构 涵盖人力 品牌 财务等模块 全球人才协同创造价值成为核心竞争力 [15] - AI重塑品牌传播方法论 企业需精准把握核心受众关注点 技术创新与品牌内容建设需同步推进 [15] 技术突破方向 - Agent交互方式从按钮操作转向多模态自然交互 需突破上下文管理瓶颈以实现长期连续性任务执行 [11] - 在线学习(Online-learning)成为新范式 允许模型自主探索 可能催生"堪比爱因斯坦的AGI" [13] - LLM Agent应升级为数字员工角色 解析执行复杂任务 创业公司需在新环境下重新定位价值 [19] 行业竞争格局 - OpenAI与Anthropic在LLM领域占据绝对领先优势 AGI发展路线已出现分化 [13] - 2030年前将出现多家市值超10万亿美元公司 标志AI经济价值跃升 预训练仍是新能力涌现关键 [13] - 谷歌提出AI战略核心是构建端到端平台而非单一模型 2025年将成AI创新真正起点 [18]