红杉中国正式开源AI基准测试xbench评测集
快讯·2025-06-18 08:37
红杉中国开源AI基准测试工具xbench - 红杉中国于6月18日正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch [1] - 公司表示未来将基于大模型和AI Agent的发展情况动态更新评测集 [1] - 采用"黑白盒"机制以服务更多大模型和Agent开发者并避免静态评测集的过拟合问题 [1] - 目标是通过动态更新确保xbench工具的长期有效性 [1]