模型评估

搜索文档
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
量子位· 2025-06-26 22:11
北京大学DS-Lab团队 投稿 量子位 | 公众号 QbitAI 北京大学DS-Lab 发布 ScholarSearch, 旨在对LLMs的检索、信息整合及推理能力进行综合性、极限性考验。 研究团队招募了来自北京大学各个学院的本科和研究生志愿者,并为他们提供了集中培训。志愿者从公开可访问的在线出版物和网站中选择材 料,以制定需要网络搜索解答的学术问题。 LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。 北京大学DS-Lab发布ScholarSearch,这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集,包含223道高难度的学 术检索题目及其答案。 它对具备联网搜索能力的代表性模型及纯推理模型进行了评估,结果显示,顶尖的纯推理模型,如GPT-4.1、DeepSeek-R1,在处理这些问 题时准确率普遍低于9%。 具备搜索功能的模型,相较于其无搜索能力的版本,准确率有显著提升,例如,GPT-4o-mini的准确率提升超过四倍。 尽管浏览能力带来了显著改进,但即便是最先进的搜索增强型模型,如 GPT-4o-search-preview,其准确率仅为18.83% 。 方法 Ope ...
一文读懂深度表格数据表示学习 | 南京大学
量子位· 2025-06-25 08:33
表格数据在AI应用中的重要性 - 表格数据在金融、医疗健康、教育、推荐系统及科学研究领域广泛应用[1] - 表格数据本质上是一种结构化的信息表示方式 在组织与表达复杂数据关系方面具有天然优势[3] 深度神经网络在表格数据建模中的发展 - 深度神经网络(DNN)凭借其强大的表示学习能力 在表格数据建模上展现出潜力[2] - DNN在表格数据相关应用中已取得显著进展 如点击率预测、异常检测、推荐系统与时间序列预测等[6] - 现代深度学习方法在多个方面的改进 推动了DNN在表格数据建模中的复兴 其性能已逐步接近甚至超过传统树模型[6] 表格表示学习方法分类 - 现有方法按泛化能力划分为三大类:专用模型(Specialized)、可迁移模型(Transferable)和通用模型(General)[2] - 专用方法是最早提出、使用最广泛的一类方法 围绕如何从特征层面和样本层面获得高质量表示展开讨论[9] - 可迁移方法基于预训练模型进行学习 能够提升学习效率并降低对算力资源和数据规模的依赖[12] - 通用模型是在可迁移模型基础上的进一步发展 将预训练表格模型的泛化能力扩展到多种异构的下游表格任务中[19] 表格数据建模的核心挑战 - 表格数据通常具有属性类型异质性 包含数值型、类别型或混合型等多种数据类型[4] - 表格数据面临测量噪声、缺失值、异常值、数据不准确以及隐私保护等问题 这些因素加大建模复杂性[4] - 表格数据缺乏空间或序列结构 使得传统深度学习架构难以直接适用[24] - 表格数据对不完整或错误的记录更加敏感 缺失值可能引入显著偏差 严重影响模型预测效果[25] - 许多表格数据集中存在类别分布不均的问题 尤其在分类任务中某些类别样本数量远少于其他类别[27] 表格数据建模的评估方法 - 单任务评估中分类任务常用准确率或错误率 回归任务常用均方误差(MSE)、平均绝对误差(MAE)和均方根误差(RMSE)[33] - 多任务评估早期主要依赖"平均排名"方法 常结合"临界差异比较"一起使用[34] - 近期研究提出更多多样化的评估指标 如算术平均指标、移位几何均值(SGM)误差等[35] - 基准测试应涵盖不同规模的数据集 包括样本量和特征数量较大的数据集以及较小规模的数据集[36] - 带语义的benchmark开始关注结合任务相关的元信息或整合属性名称 如UniTabE、OpenTabs等数据集[38] 模型选择与性能评估 - 模型选择通常在验证集上进行 包含超参数调优和提前停止两部分[41] - 为评估模型的泛化能力 常采用独立的训练/验证/测试集划分 典型比例为64%/16%/20%[42] - 近期研究表明基于固定验证集的超参数调优不够稳定 易导致对验证集过拟合[43] - 对于小规模数据集 已有多种替代评估策略 如重新打乱数据划分可提升泛化性能[43]
大模型进入 RL 下半场,模型评估为什么重要?
Founder Park· 2025-05-13 11:42
大模型进入 RL 下半场。前段时间,OpenAI Agent Reseacher 姚顺雨的博客文章《The second half》掀起热议,从「模型算法」到「实际效用」, 如何重新定义问题和设计真实用例的 evaluation 变得尤为重要。 从评测基准到实际应用效果,现有的评估体系怎样有效衡量 Agent 产品的 ROI ?对于创企、希望 应用 AI 的企业来说,如何用好模型的测评结果来指导产品的开发落地? SuperCLUE 在模型测评领域有着深厚的经验,与国内外众多模型及 Agent 团队保持着紧密的联系 与交流。 SuperCLUE 近期推出了中文通用 AI 智能体的测评基准 AgentCLUE-General,对主流 的 Agent 产品能力进行了深度剖析。 我们特别邀请到 SuperCLUE 的联合创始人朱雷,一起聊聊当前大模型、Agent 评估中的核心难 题。 本周四(5 月 15 日),20 点 - 22 点,线上分享 。目前还有少量名额,扫描下方海报二维码报 名。 更多阅读 Agent 产品如何定价?一文说清 AI 产品的四种付费模式 Agent 如何在企业里落地?我们和火山引擎聊了聊 转 ...
万字解读OpenAI产品哲学:先发布再迭代、不要低估模型微调和评估
Founder Park· 2025-04-15 19:56
今天凌晨, OpenAI 发布了新模型 GPT-4.1 ,相对比 4o,GPT-4.1 在编程和指令遵循方面的能力显 著提升,同时还宣布 GPT-4.5 将会在几个月后下线。 不少人吐槽 OpenAI 让人迷惑的产品发布逻辑——GPT-4.1 晚于 4.5 发布,以及混乱的模型命名,这 些问题,都能在 OpenAI CPO Kevin Weil 最近的一期播客访谈中得到解答。 在访谈中,Kevin Weil 分享了 OpenAI 在产品方面的路线规划,以及所拥护的产品发布哲学「迭代 部署」,对于近期火热的 4o 图片生成功能,也做了内部的复盘。 Kevin Weil 表示,「我们尽量保持轻量级,因为它不可能完全正确。我们会在半路放弃一些不正确 的做法或研究计划,因为我们会不断学习新的东西。 我们有一个哲学叫做迭代部署,与其等你完全 了解模型的所有能力后再发布,不如先发布,即使不完美,然后公开迭代。 」 背景:Kevin Weil 是 OpenAI 的首席产品官,负责管理 ChatGPT、企业产品和 OpenAI API 的开发。在加入 OpenAI 之前,Kevin 曾担任 Twitter、Instagram ...