Workflow
数学
icon
搜索文档
探访2025年北京高考评卷现场:数学难度与往年持平,语文重视文言文知识积累
北京商报· 2025-06-16 20:56
高考评卷工作进展 - 2025年北京高考评卷工作于6月11日开始,预计6月24日结束,全市共组织1660名评卷员在6个评卷点进行评阅 [1][3] - 数学阅卷份数同比增加约1万份,除40分选择题由机器判阅外,其余110分在数学评卷点人工评阅 [3] - 语文评卷专家组和评卷员共360人,其中200人来自4所高校,160人来自中学教师和教研员 [6] 数学科目评卷情况 - 2025年北京数学卷整体难度适中,成绩分布合理,各题平均得分基本持平 [3] - 试卷创新性强,强调数学素养和创新能力考查,关注基础知识、思想方法和理性思维 [3] - 第14题以3D打印为背景考查直观想象和数学建模素养,第20题和第21题设计创新需多角度理解数学本质 [4] 语文科目评卷情况 - 文言文阅读试题重视文言知识积累、梳理和建构,引导中学教学重视文本思想价值和文化价值 [5] - 古诗文名句名篇考查内容与形式保持稳定,4道默写试题紧密关联教材重点篇目 [6] - 大作文仍为二选一,议论文题目"由'第二次呼吸'说开去",记叙文题目"当数字闪耀时",引导考生关注数字化时代 [6] 评卷安全管理措施 - 评卷场所实行封闭式管理,设立安检门和金属探测器,所有人员须凭有效证件入场 [8] - 公安人员全程值守,系统设备与外网物理隔离,答卷数据服务器部署在专用保密机房 [8] - 主观题拆分后随机分发评阅,实行"背靠背双评",超阈值需三评或四评,专家每日抽检试卷 [8] 后续工作安排 - 考生高考成绩将于6月25日中午前发布,同时公布各批次录取最低控制分数线和分数分布表 [9] - 统考考生本科志愿填报时间为6月27日8时至7月1日17时,录取工作7月8日开始 [9][10]
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 18:30
多模态数学推理的挑战与突破 传统方法的局限性 - 传统思维链推理方法在视觉与数学结合场景下表现不佳,易忽略视觉输入中的数学细节导致推理错误[2] - 现有视觉CoT方法存在三大瓶颈:粗粒度图像区域选择破坏数学元素关联性[4]、通用视觉编码器对数学图像感知力不足[5]、过度依赖外部工具导致高成本低通用性[6] MINT-CoT的创新设计 - 提出动态Interleave Token机制,通过计算隐藏层相似度实时选取最相关视觉token,实现文本与数学图像元素的细粒度融合[9] - 突破传统矩形区域限制,可灵活捕捉几何图形、坐标轴等结构化数学元素,支持任意形状视觉区域选择[9] - 采用轻量化架构设计,无需依赖外部工具即可完成端到端训练与推理[9] 数据与训练体系 - 构建5.4万条视觉交错推理样本数据集,通过四步流程实现token级图文对齐标注:网格划分→OCR文本映射→关键词提取→MLLM关联匹配[11] - 设计三阶段渐进训练策略:文本CoT微调→双损失监督的交错模态微调→强化学习优化视觉选择策略[13] 性能表现 - 在Qwen-VL-7B模型上应用MINT-CoT框架后,MathVista/GeoQA/MMStar三大基准分别提升32.59%/26.92%/23.2%[16] - 可视化结果显示模型能自主选择相关视觉token并与文本推理链动态交互,推理逻辑显著优于基线[15] 行业影响 - 该技术首次实现数学场景下视觉与思维链的深度融合,为结构化视觉推理建立新范式[17] - 方法论具备扩展性,未来可迁移至科学图表解析、工程图纸理解等专业领域[17]
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 13:16
大模型数学能力评测 - 七个大模型参与2025年数学新课标I卷测试,Gemini 2.5 Pro以145分位列第一,Doubao和DeepSeek R1以144分并列第二 [2] - 小米7B参数小模型MiMo-VL表现突出,总分139分与Qwen3-235B持平,仅比OpenAI o3低1分 [4] - MiMo-VL在7B参数多模态模型中优势显著,较同类Qwen2.5-VL-7B高出56分 [5] 细分题型表现 - 客观题部分(73分):MiMo-VL单选题得35分(总分40),多选题和填空题均获满分 [8][10][11] - 解答题部分(77分):MiMo-VL得71分位列第五,超越hunyuan-t1-latest和文心X1 Turbo [12] - 测试方法差异:MiMo-VL和Qwen2.5-VL-7B采用截图输入,其他模型使用文本Latex输入 [6] 小米MiMo-VL技术突破 - 模型基于MiMo-7B升级,在数学推理和代码竞赛中超越OpenAI o1-mini和阿里QwQ-32B-Preview [15] - 通过RL训练后,MiMo-7B-RL-0530版本达到与DeepSeek R1和OpenAI o3-mini相近水平 [16] - 多模态能力显著:在OlympiadBench等数学竞赛中领先10倍参数的Qwen-2.5-VL-72B和GPT-4o [20] 技术实现路径 - 采用混合在线强化学习算法(MORL),整合文本推理与多模态感知反馈信号 [27][29] - 预训练数据达2.4T tokens,涵盖图片-文本对、视频-文本对等多元数据类型 [28] - 模型已全面开源,包括技术报告、权重和评估框架 [32][33] 行业竞争格局 - 开源模型MiMo-VL-7B在内部评测中超越GPT-4o成为开源模型第一 [24] - 参数效率突破:7B模型性能比肩235B参数的Qwen3和闭源o3模型 [13][16] - 多模态赛道创新:GUI Grounding任务表现媲美专用模型 [18]
当代的回响——欧美艺术家联展| 吉恩·卢克·福格斯(Jean-Luc Feugeas)
经济观察报· 2025-06-16 12:04
艺术家背景 - 吉恩·卢克·福格斯1969年出生于法国 兼具艺术家 数学家 乐队贝斯手多重身份 [1] - 创作核心围绕熵增研究 探索秩序与无序的数学关系 并延伸至音乐与绘画领域 [1] - 艺术风格融合数学严谨性 音乐浪漫性 绘画自由性 形成独特跨学科表达 [1] 艺术创作特征 - 作品通过线条变化呈现细胞增殖般的复杂结构 兼具数学精确性与视觉模糊性 [1] - 创作媒介包含画布丙烯与街头壁画 尺寸跨度从135x100cm至210x100cm不等 [2] - 2023年代表作包括《隐空间》《投影》《野蛮时代》等大型丙烯绘画 [2] 展览信息 - 2025年6月1日至30日在北京国贸商城举办个展 展出全球壁画作品 [2] - 展览场地为南区地下一层SB125空间 由蛙人艺术提供影像支持 [2]
对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds
海外独角兽· 2025-06-12 21:27
嘉宾:辛华剑 访谈:penny Era of Experience 这篇文章中提到:如果要实现 AGI, 构建能完成复杂任务的通用 agent,必须借助"经验"这一媒介,这里的"经验"就是指强化学 习过程中模型和 agent 积累的、人类数据集中不存在的高质量数据。 强化学习是 AGI 的关键解法。从 OpenAI o1 到 DeepSeek R1,我们不断在看到强化学习的潜力:DeepMind AlphaProof 被认为是"经验时代"初露端 倪的一个例子,作为第一个在 IMO 获奖的 AI,AlphaProof 借助 RL 算法自行"做题",积累经验,AlphaProof 的案例表明,在像数学这样人类高水 平知识接近极限的领域,RL 通过互动试错可以突破瓶颈,取得超人类的成果。 以 AlphaProof 为开端,整个数学证明领域也在最近半年迎来了 AI 突破的密集期:除了 AlphaProof ,OpenAI 的 o1 模型在数学推理上展现出了惊 人表现,DeepSeek-Prover 三部曲也在形式化数学证明上不断创造新纪录。 为了理解数学和 AGI 的关系,海外独角兽访谈了 DeepSeek-Prov ...
韦东奕本人最新发声:不会再做任何回应
新浪财经· 2025-06-12 09:12
33岁的韦东奕现为北京大学数学科学学院助理教授、研究员,他在北大读书毕业留校后,一直 从事数学方面的研究与教学。 近日,北大数学科学学院教师韦东奕因为入驻短视频平台并发布一条视频,引起舆论关注。北 大数学院有关负责人9日称,校方非常关心其健康,将帮助他积极进行治疗,同时希望和网友 共同保护好学者专心治学的宁静环境。 据红星新闻报道,近日,记者在韦东奕的办公室见到了韦东奕本人。记者眼中的韦东奕无论是 发型还是衣着都很整洁,也并不能明显看出其口腔问题。 韦东奕的表达并不像短视频中看起来那样局促,面对记者的打招呼十分客气。当记者表明身份 问及是否可以采访时,他表示了拒绝,"不会再对外做任何回应"。当记者问及这次舆论是否对 他造成影响时,韦东奕给出了肯定的答复。 在数学院门口,多位学生表示不愿谈论此事。也有学生表示并不关注,称对自己没有什么影 响。 更多财经视频,请关注视频号"新浪财经" 往期回顾 来源:极目新闻 ...
流量需要韦神,韦神不需要流量
36氪· 2025-06-11 17:03
韦东奕现象的社会关注度 - 韦东奕在高考前夕开设社交媒体账号,仅用4秒、3句话的视频6天内吸粉2415万,获赞1449万,展现极强的公众影响力[1][3] - 其形象被赋予多重标签:"数学天才""北大扫地僧""青年陈景润"等,反映出大众对专业领域顶尖人才的崇拜心理[3][8] - 网络数据显示,韦东奕已成为跨圈层认知的公众人物,网友评论"和数学不沾边的人都认识他"[8] 商业化利用与形象异化 - 商家通过"韦神同款馒头""凉白开"等概念进行商品营销,甚至抢注商标、开设山寨账号进行AI直播牟利[9] - 平台方利用其形象制作"韦神送祝福"浮标,评论区演变为高考许愿池,形成流量变现场景[3] - 未经授权的偷拍视频和恶意剪辑内容泛滥,导致肖像权侵权问题频发[15] 学术成就与职业发展 - 教育背景显示:15岁获国际数学竞赛金奖,18岁保送北大,8年完成本硕博学业后留校任教[4] - 2019年与田刚院士合作的论文发表于顶级数学期刊GAFA,2021年获阿里巴巴达摩院青橙奖[7][17] - 教学方式引发争议,但校方证实其会根据学生反馈调整授课节奏,同行评价其"刚毅、木讷、近乎仁"[11][13] 健康管理与校方支持 - 校方披露其存在牙周健康问题,近3年持续安排体检并陪同就医,制定专门治疗方案[17] - 亲属透露其饮食习惯(素食为主但保证蛋白质摄入)及年度医疗安排,2023年将接受进一步治疗[17] - 北京大学声明已在工作、生活、医疗等方面建立保障机制,强调尊重个人生活习惯[17][18] 舆论生态与形象管理 - 网络出现"造神-毁神"循环,包括不实传言如"6个博士难题一夜解决""哈佛破格录取""1600万捐款"等[11] - 亲属协助开设官方账号旨在建立真实信息窗口,防止恶意剪辑,明确排除商业目的[15] - 校方呼吁公众维护学者治学环境,强调韦东奕本人希望保持"不被关注"的状态[14][18]
担心失业的软件工程师:数学才是AI时代你的生存利器
36氪· 2025-06-10 15:08
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:当AI重构技术底层逻辑,数学正从象牙塔公式进化为生存刚需。本文撕开"永恒真理"的伪装,还原数学作为危机应对工具的本质——从航海时代对 数表到AI硬件拓扑学,揭示掌握函数式编程、范畴论等现代数学范式,才是突破算法替代困局的终极武器。文章来自编译。 传统数学带我们走到今天,却无法助你应对未来。 你得测量每个瞬间的变化。于是他发明了微积分——不为写诗,而是解决航海、天文与运动的现实难题。 数学是求生工具箱,不是神赐的秘籍 尽管数学已解决现实问题上百年,我们仍在用"天降圣谕"的方式教学——仿佛它不是由真实人类根据时代需求不断改造的工具。 在所谓硬科学领域,古老神话和柏拉图式理念早被摒弃。但数学呢?至今仍被包装成永恒不变的真理。 我们常常忽略了,数学跟化学、生物这些扎根现实的学科没有什么不同,它们本质上都是工具——是被历史需求反复锻造的求生装备,而非宇宙 传承下来的永恒启示。 想要证据? 17世纪的世界经济命脉是航船。海上贸易即全球系统。帝国争夺香料、黄金与土地,而唯一的获取方式就是穿越凶险海洋。 纬度?简单— ...
微型“蹦床”引导声子在芯片中顺畅转弯
科技日报· 2025-06-10 07:47
技术突破 - 全球最疯狂的"蹦床"由德国康斯坦茨大学、丹麦哥本哈根大学和瑞士苏黎世联邦理工学院的物理学家共同设计并制造,旨在展示改进的声子传输方法 [1] - "蹦床"宽0 2毫米,表面厚度仅有两千万分之一毫米,表面布满了规则排列的圆形、三角形孔洞图案 [1] - "蹦床"一旦动起来几乎不会损失任何动量,会一直摆动下去 [1] - "蹦床"能同时向不同方向摆动,包括横向摆动,中心区域还有一个"蹦床中的蹦床",摆动会以完美的三角形"拐弯" [1] 应用前景 - "蹦床"实际上是声子的波导,即一层由氮化硅制成的振动超薄膜 [1] - 物理学家希望通过"蹦床"展示如何利用独特的表面结构引导声子绕过弯角,这在微芯片电路中尤为重要 [1] - 声子能在几乎不损失动量的情况下绕过120度的急弯,被"反弹"的声子数量不到万分之一 [2] - 这种超低损耗能够和当代电信设备匹配 [2]
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 18:41
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...