Workflow
科学推理
icon
搜索文档
AI攻克物理奥赛,王梦迪团队打造Physics Supernova智能体,超过人类金牌选手平均分
36氪· 2025-09-16 16:20
AI系统性能表现 - Physics Supernova在2025年国际物理奥林匹克竞赛理论题测试中获得23.5分(满分30分),在406名参赛者中排名第14 [1] - 该系统在三道题目中均进入人类前10%,超过人类金牌选手平均得分 [1] - 成绩显示AI在复杂科学问题上的推理能力已逼近人类顶尖水平 [3] 技术架构与工具集成 - 系统基于smolagents框架并采用CodeAgent架构,具备动态调用工具的自我规划能力 [4] - 集成专用工具ImageAnalyzer处理图像数据,通过视觉语言模型执行精确数值读取与测量 [6] - 配备AnswerReviewer工具用于识别错误类型并提升自我校正能力,移除该工具会导致非简单题性能显著下降 [6] - 接入WolframAlpha计算型知识引擎以增强专业领域知识应对能力 [9] 系统开发背景 - 由普林斯顿大学王梦迪教授团队主导开发,第一作者包括普林斯顿博士Jiahao Qiu和清华姚班本科生史景喆(2021年物理奥赛金牌得主) [1] - 突破传统题库依赖模式,通过多工具模块结合LLM实现从题目理解到建模计算的完整流程 [3] 应用前景与研究方向 - 未来需拓展程序实验或仪器实验能力,机器人技术发展可能使AI Agent具备执行物理实验题的能力 [10] - 需建立可验证的物理计算体系,开发能验证公式、物理表达与直观推理抽象转换的方法 [11] - 长期目标为发展能嵌入现实世界执行复杂物理任务的高级智能体 [12] 行业意义 - 该突破重新定义了AI在科学推理领域的应用边界,为科学探索开辟新可能性 [3] - 合理集成工具的Agent架构被证实能显著提升AI在复杂科学问题上的表现 [3]
史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”
量子位· 2025-08-09 15:01
数据集发布与核心价值 - 上海创智学院与上海交通大学GAIR Lab联合发布MegaScience数据集,包含125万条跨学科问答对,覆盖生物学、化学、计算机科学等7大领域,旨在提升通用AI系统的科学推理能力[1] - 数据集采用大学教材作为核心数据源,通过12万本教材构建65万条问答对(TextbookReasoning子集),确保答案权威性,最终混合形成125万条数据的MegaScience全集[14][15] - 发布一周内下载量突破4.6k次,登上HuggingFace Datasets Trending榜单第四位,显示学术界与工业界的强烈需求[7] 技术创新与解决方案 - 开发四阶段系统性方案:构建15个Benchmark的评估体系、大模型驱动的数据去污染、教科书级数据源采集、聊天模型优化的数据精炼流程[13] - 采用全自动化LLM流水线处理教材数据,包含OCR转换、双重问答抽取(高标准/低标准)、LSH去重、DeepSeek-V3精炼、Llama3.3污染检测等5大步骤[17][19][20][23][24][25] - 创新数据筛选策略:基于回答长度(保留最长回答)、问题难度(Qwen2.5模型评分1-10分过滤简单题)、随机采样三重方法优化数据集质量[30][31][32] 性能表现与模型验证 - 在Qwen2.5-7B模型上,MegaScience微调版相比官方Instruct模型提升2.21%平均性能,在SciBench等计算类任务中优势达5.78个百分点[42] - 模型规模扩展性显著:Qwen3-14B经MegaScience训练后性能超越官方Instruct模型2.82%,30B版本差距扩大至3.24%,显示大模型获益更明显[44][45] - 数学推理呈现能力门槛效应,仅Qwen2.5-7B及以上规模模型能有效吸收数据集中的高难度数学内容(大学本科级概念)[46] 开源生态与评估体系 - 完整开源体系包含:数据集本体(CC-BY-NC-SA 4.0协议)、数据构建代码、评估系统(Language Model Open Science Evaluation框架)、预训练模型[5][37][48] - 评估框架覆盖15个Benchmark,创新两阶段答案抽取技术解决传统\boxed{}格式局限,支持选择题/计算题/判断题/简答题全题型[38][39] - 提供跨模型验证结果:在Llama3.1-8B、Qwen全系列(1.5B-30B)上均观察到性能提升,最高达73.86平均分(Qwen3-30B)[43][44]