Workflow
大语言模型
icon
搜索文档
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 17:33
FormalMATH基准测试 - 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出FormalMATH形式化数学推理基准测试,包含5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域[1] - FormalMATH基准测试首次系统性评估当前LLM驱动的定理证明器的真实水平,结果显示表现最佳的模型Kimina-Prover成功率仅为16.46%[3] - FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖12个子领域,规模是经典基准MiniF2F的22.8倍[5] 构建创新 - 研究团队提出"三阶段过滤"框架解决传统形式化数据依赖专家手动标注的瓶颈:多LLM协同翻译、自动化验证、否定反证过滤,该流程在人工审核前保留了72.09%的高质量命题[7][9] - 团队召集12名人类奥赛金牌级别的专家花费22天检测自然语言数学命题与Lean4形式化命题之间的语义一致性[9] LLM表现分析 - 主流LLM证明器在FormalMATH全量数据集上表现远低于预期,最佳模型Kimina-Prover成功率16.46%,次优模型STP成功率13.87%[10][15] - 现有模型在代数等领域表现较好,但在微积分等其他领域表现接近随机猜测,显示出明显领域偏差[11][12] - LLM证明器频繁滥用自动化策略,导致冗余假设(34%)、不完整证明(62%)、自动化策略误用(65.0%)、无法正确应对不等式(13.0%)等典型错误[16] 技术瓶颈与突破方向 - 自然语言引导可能反拖后腿,例如DeepSeek-V1.5-RL模型在普通CoT提示时表现优于引入人为自然语言引导的情况[17] - 未来提升LLM形式化推理能力需从三方面突破:强化多步规划、跨领域泛化、人机协同验证[19] 开源与行业影响 - FormalMATH基准测试的代码、训练数据及评估模型已向公众开放,研究团队呼吁学术界与工业界共同推进形式化数学推理技术发展[20][21]
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
机器之心· 2025-05-07 12:34
| 机器之心报道 | | --- | 编辑:蛋酱、泽南 本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B 。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。有人表示期待 DeepSeek R1 风格的训练方法用来提升代码效率已久,这回终于有人站出来了。 在一篇博客中,Cognition AI 详细介绍了新模型强化学习训练的机制。 代码是一个不断迭代的过程 —— 需要我们编写、执行程序,评估结果,并根据反馈优化代码。大语言模型(LLM)在代码生成方面的最新进展尝试将此过程融入 推理阶段,并使用并行采样等方法。虽然这些方法是有效的,但它们依赖于搜索而非实际学习 —— 在这其中模型权重被冻结。 Cognition AI 探索了多轮强化学习,使用来自环境的中间反馈,并屏蔽模型思维以避免在多轮训练中上下文爆炸。 他们提出的模型 Kev ...
AI赋能保险业变革:从经验到数据智能驱动的跨越
环球网· 2025-05-06 16:17
AI+保险行业趋势 - 人工智能技术正在深刻变革保险行业,推动从互联网保险时代向AI时代的战略转型,AI将渗透至保险行业的每一个环节与所有链路[1] - 大语言模型的应用推动金融机构经营理念、业务逻辑与价值创造模式整体重塑,催生金融服务精准化跃迁和跨行业生态协同两大趋势[2][4] - 保险行业正经历从"经验驱动"向"数据智能驱动"的深层次认知转型,智能化转型依赖于数据资产、算法能力和算力资源的协同配置[4] 众安信科的AI应用实践 - 公司基于大模型底层技术研究,利用6亿多用户数据打造保险行业智能中台,开发200多个保险垂类智能体,每月AI中台调用量超5000万次[4] - AI实现从产品设计、营销到承保、理赔、质检、服务的全流程赋能,同时优化内部IT开发和管理运维[5] - 具体成效包括:产品配置时间从数天缩短至数小时且成本下降80%,图文创作实现100%机器审核且0投诉,客服机器人准确率达95%并降低成本数千万元[5] 行业差异化发展策略 - 大型保险公司应加大AI基建投入,与大厂合作进行前瞻性布局[6] - 传统中小保险公司应以工具化、流程化的AI应用为核心实现降本增效[6] - 创新类保险公司可在AI应用领域大胆进行模式创新,有望成为行业先锋力量[6] 生态合作与未来展望 - 行业竞争将转向生态竞争,开放合作是创造AI价值的关键,众安信科与中移金科共建"AI+保险联合实验室"[6] - 十余家头部险企与科技平台启动战略合作,共享技术成果与业务实践,联合攻关行业共性难题[6] - AI将驱动保险服务革命,重塑服务模式与价值逻辑,这场变革才刚刚开始[6]
当答案变得廉价时,好问题就是新的稀缺品
36氪· 2025-05-04 08:03
技术革新与行业重塑 - 摄影术的发明颠覆了19世纪巴黎美术学院定义的正统艺术标准,使绘画从现实主义转向对光影、质感和全新诠释的探索[2][3] - 大语言模型(LLM)如同当年的摄影术,通过降低答案获取成本重塑脑力劳动形态,其核心能力在于生成貌似可信的即时答案[15] - 印象派通过重新定义艺术问题(从"再现"转向"诠释")创造新价值,类比当前AI时代需要从答案消费转向问题设计[10][12][14] 信息经济学范式变迁 - 香农信息论揭示信息价值与其消除的不确定性成正比,而主流系统(如LLM)却逆向生成流畅但无实质的答案[22][23] - 在知识过剩环境中,注意力成为稀缺资源,系统设计缺陷导致数据收集超越边际效用[31][32] - 咨询业面临范式危机:答案商品化导致价值稀释,行业瓶颈转向问题界定能力[58][59][60] 认知框架重构 - 突破性创新(如CRISPR技术应用)往往源于对主流假设的质疑和问题框架的重构[37] - 人机协同优势体现在LLM连接跨领域知识的能力与人类提问能力的结合[39][41] - 香农理论的三阶影响展示好问题的链式反应:从通信工程扩展到生物学、经济学等跨学科领域[42] 能力体系转型 - 传统教育强调答案输出能力,而结构性不确定环境要求培养提问与探索能力[64] - 技能再培训若仅聚焦新答案掌握将失效,必须升级为问题设计能力培养[63] - 顶尖知识工作者需将不确定性转化为探索机会,构建动态认知地图而非静态知识库[64]
315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
机器之心· 2025-05-03 12:18
编程智能体构建 - 知名Go专家Thorsten Ball用315行代码构建基础编程智能体 强调其易复制性且运行效果良好[1] - 该智能体核心功能包括编辑文件 运行命令 自主纠错 仅需大语言模型 循环结构和足够tokens即可实现[4] - 基础架构仅包含90行关键代码 核心为Run()方法中的对话循环 实现与Claude模型的持续交互[10][11] 技术实现路径 - 采用Anthropic API作为底层支持 通过环境变量ANTHROPIC_API_KEY实现鉴权[6][7] - 工具调用机制采用"条件触发"模式 模型通过特定格式请求工具使用 开发者需执行并返回结果[15][17] - 每个工具需定义名称 描述 JSON schema输入模式和执行函数 例如read_file工具需指定文件路径参数[22][23][24] 功能扩展案例 - 文件读取工具实现包含17行代码 包含工具描述 路径参数定义及jsonschema生成逻辑[32][34] - 智能体能自主判断工具使用场景 如在未明确指令情况下主动调用read_file解答文件内谜题[40] - 系统支持多工具扩展 博客后续演示了list_files和edit_file工具的添加方法[41] 行业应用启示 - 该项目验证了小型智能体的快速构建可行性 400行内代码即可实现基础功能[4] - 采用终端交互模式揭示AI聊天应用底层原理 对话状态维护完全由客户端实现[13] - 模型展现2025年技术趋势预判 具备工具调用意识并能自主补充信息缺口[18]
ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议
机器之心· 2025-05-02 12:39
机器之心报道 编辑:张倩、+0 第 42 届国际机器学习大会(ICML)将于 2025 年 7 月 13 日至 19 日在加拿大温哥华举行。刚刚,ICML 官方向投稿者发送了今年论文接收结果的通 知。 数据显示,今年大会共收到 12107 篇投稿,较去年增加了 28%。共有 3260 篇论文被接收,接收率为 26.9%。其中,只有 313 篇论文被选为 「spotlight poster」。 在收到邮件的第一时间,不少研究者都晒出了自己被接收的论文。当然,也有研究者感到沮丧或对评审结果有所质疑。在这篇文章中,我们汇总了一些被接 收的优秀论文以及有争议的论文,方便大家探讨。 被接收的高分论文 首先,我们检索了一些 spotlight 论文,因为这是 ICML 官方推荐度最高的一批论文,能搜到的论文包括但不限于: …… Neural Discovery in Mathematics: Do Machines Dream of Colored Planes?(数学中的神经发现:机器会梦见彩色的平面吗?) Monte Carlo Tree Diffusion (MCTD) for System 2 Planning( ...
唐兴资本:睿见果敢,洞察投资项目潜藏的巨大价值
搜狐财经· 2025-05-02 10:58
2025年科创投资浪潮 - DeepSeek大模型以媲美ChatGPT的性能、开源模式和低成本优势震动全球科技圈,掀起商业和资本市场波澜 [3] - 科创类产品蓬勃发展,投资机遇层出不穷,点燃全国资本热情 [3] - 唐兴资本专注于科技创新领域投资,深耕电子信息、先进制造、医疗健康、新能源新材料等前沿科技领域 [3] 优秀创业者特质 - 创新精神:持续研发新算法和应用模式,敢于挑战传统并提出创新性解决方案 [6] - 跨界整合能力:将不同领域知识、技术和资源有效整合,创造全新业务模式 [6] - 战略眼光与专注度:准确把握行业未来发展趋势并提前布局,同时在核心业务上保持高度专注 [6] 投资风格与案例 - 投资风格为"睿见果敢",强调敏锐洞察和果断决策能力 [7] - 2016-2017年大胆投资3D打印企业铂力特,当时行业前景尚不明朗但战略意义重大 [7] - 铂力特成功上市并成为行业头部企业,为投资机构带来十倍回报 [9] 牛市对一级市场影响 - 牛市改善一级市场融资环境,降低企业融资难度并增加融资金额 [12] - 激发创业热情,催生更多创新项目,丰富一级市场投资标的 [12] - 加速企业成长,为未来上市或并购创造有利条件 [12] 一二级市场联动 - 二级市场高估值提升一级市场投资者退出回报预期,推动一级市场估值上扬 [13] - 资金在二级市场高位时流向一级市场寻找高回报机会,形成双向流动 [13] - 二级市场热点信息迅速传递至一级市场,影响投资方向和创业重点 [14] - 优质企业上市提升二级市场质量,形成上市与退出的良性循环 [14]
苹果公司CEO库克:仍然对公司的人工智能(AI)和大语言模型(LLM)路线图感到兴奋。
快讯· 2025-05-02 05:53
苹果公司CEO库克:仍然对公司的人工智能(AI)和大语言模型(LLM)路线图感到兴奋。 ...
2025年迈向智能驱动新纪元,大语言模型赋能金融保险行业的应用纵览与趋势展望报告-众安信科
搜狐财经· 2025-05-01 06:57
大模型技术发展与行业机遇 - 全球大模型技术发展多元化,垂类大模型通过定制化训练提供精准行业解决方案,中国在算力自主化、数据优化等方面取得进展[1][24] - 新技术降低大模型训练、运维和推理成本,推动金融行业流程重构,企业需平衡购置、推理和运维成本[1][29] - 国产大模型如DeepSeek和通义千问在成本控制与推理性能上突破,实现数据安全合规、低成本高性能和中文语义优化[1][26][27] - DeepSeek通过混合专家技术将6710亿参数活跃计算量压缩至37亿,训练成本仅为同规模模型的6%[26] - 通义千问融合预训练与垂直领域优化能力,在对话交互、代码生成等场景形成专项突破[27] - 腾讯混元T1模型解码速度提升2倍,在中英文推理基准中领先[28] 大模型赋能保险全链 - 保险机构加速接入大模型,应用聚焦内部提效,覆盖业务全链条及中后台管理环节[1][16] - 初期优先选择容错成本低的场景如智能客服、智能质检、营销助手等,建立调试与反馈机制[6][7] - 大模型推动行业由结构化数据向多源动态信息系统演进,提升风险识别广度与响应及时性[8] - 金融机构经营理念重塑,呈现金融服务精准化跃迁和跨行业生态化协同两大趋势[9] - 银行利用实时企业数据优化信贷评估,保险与医疗平台合作开发预防型保险产品[9] 合作范式演变 - 数据要素价值凸显,金融保险行业通过横向、垂直和政企协同构建高质量数据集[1][19] - 政企协同推动数据要素流通,垂直整合构建企业级智能协同底座,横向协同拓展跨场景联动[19][42] - 多模态大模型为金融保险带来智能化转型机遇,填补非结构化信息处理能力空白[62] - 多模态模型应用于智能客服、理赔审核、欺诈识别等场景,提升审核准确率与风控能力[62] - 通义干问通过双核架构实现全模态实时交互,视觉推理模块采用链式思维增强方法[53] 技术演进与成本优化 - 垂类大模型通过行业特定数据集训练,减少计算成本并提供精准解决方案[33][40] - GPT-4级别模型单周期训练成本近5000万美元,垂类模型更经济高效[33] - 国产模型生态呈现功能分化趋势,语言生成模型与推理模型分别专注语义理解和逻辑决策[48] - 轻量化技术如蒸馏模型降低终端部署成本,Qwen-32B等模型实现对OpenAI-o1-mini的局部超越[49] - 模型部署从"可用"向"可适配"迈进,聚焦跨架构柔性部署机制构建[31]