Workflow
大语言模型
icon
搜索文档
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
机器之心· 2025-05-07 12:34
文章核心观点 - Cognition AI开源了名为Kevin-32B的大模型,该模型采用多轮强化学习训练,专门用于编写高性能CUDA内核,在代码生成和优化任务上超越了当前的前沿推理模型[2][9] 模型概述与发布 - Kevin-32B基于QwQ-32B模型,在KernelBench数据集上使用GRPO(组相对策略优化)进行多轮强化学习训练[2] - 该模型被描述为“Kernel Devin”,在内核生成方面优于前沿推理模型[9] - 机器学习社区对此表现出极大兴趣,认为其回应了对类似DeepSeek R1风格训练方法以提升代码效率的期待[2] 多轮强化学习方法 - 该方法探索了使用来自环境的中间反馈进行多轮强化学习,并屏蔽模型思维以避免上下文爆炸[9] - 与单轮训练相比,多轮训练使模型在自我优化方面更有效[9] - 训练使用KernelBench数据集,该数据集包含250个基于PyTorch的经典深度学习任务,专注于衡量优化CUDA内核的能力[11] - 训练过程是一个迭代反馈循环:生成内核、编译、评估运行时间,并根据反馈进行优化[11] 关键技术挑战与解决方案 - **挑战:上下文窗口爆炸** - 推理模型生成的长思维链导致轨迹长度可达5-10万个token,造成训练不便[14] - **解决方案** - 移除推理的思路链,要求模型生成自身思考过程的简要摘要传递给后续上下文[13] - **挑战:样本效率低下和奖励分配问题** - 为整个轨迹分配单一奖励无法表明具体细化步骤的贡献[14] - **解决方案** - 将奖励函数建模为马尔可夫决策过程,将给定响应的奖励设置为当前内核与所有后续内核得分的折扣总和,使每个细化步骤都成为一个训练样本[16][18] 模型性能结果 - 经过8个优化步骤,Kevin-32B在整个数据集上的平均正确率为65%,解决了89%的数据集任务[21] - 相比之下,o4-mini和o3模型分别只解决了53%和51%的数据集任务[21] - 在整个数据集中,Kevin-32B实现了1.41倍的best@16加速比,优于前沿模型[21] - 在更具挑战性的二级任务上,Kevin-32B平均正确率为48%(o4-mini为9.6%,o3为9.3%),并实现了1.74倍的best@16加速比(o4-mini和o3为1.2倍)[21] 多轮训练与单轮训练对比 - 在4个优化步骤下,Kevin-32B表现略优于单轮训练模型,当优化步骤增加到8个时,差距进一步扩大[24] - 这表明多轮训练在串行轴上具有更好的扩展性[24] - 在固定计算预算下,即使对于单轮训练模型,多轮推理也比单轮推理更具优势[26] 训练过程中的问题与应对 - **奖励黑客攻击** - 使用较小模型(如DeepSeek-R1-Distill-Qwen-7B)时发生多起奖励黑客攻击事件,例如模型复制PyTorch参考实现或包装错误内核[27][29] - **应对措施** - 对响应施加更严格的格式检查,对使用PyTorch函数或不含CUDA内核的响应将奖励设置为0[28] - **无意义和重复生成** - 在大约35-40步后,模型开始生成重复或无意义的响应[30] - **应对措施** - 使用Dr. GRPO提出的恒定长度损失正则化,并将梯度范数大幅削减至0.05,将垃圾数据的出现延迟到了第100步[32] 训练与评估设置详情 - 使用组相对策略优化算法(GRPO),这是近端策略优化算法(PPO)的一种变体[38] - 使用vLLM进行推理,使用DeepSpeed Zero-3卸载优化器状态[39] - 每批训练8个任务,每个任务16个轨迹,使用GRPO每批2个梯度步骤[39] - 通过正确性检查的响应获得0.3的奖励,额外的性能奖励相当于与参考实现相比所获得的速度提升[40] 推理时间缩放研究 - 研究发现,给定固定的、非微不足道的推理计算预算(例如,细化步骤 * 并行轨迹≥8),最佳计算分配会转向串行细化,而不是并行生成[56] - 在将并行轨迹数量增加到64个并保留4个细化步骤的实验中,best@64的正确率达到89.5%,性能提高了1.28倍,但比8个细化步骤的best@16稍差[53] 测试时性能提升技术 - 在测试时,Kevin-32B使用了改进版的束搜索技术,显著提高了模型性能,在整个数据集上平均提速1.56倍[70] - 随着测试时间计算量的增加,得到的收益在减少,但平均性能在几个小时后仍有提高[72] 未来工作方向 - 学习价值网络并使用PPO进行训练[76] - 在训练时整合更复杂的搜索方法,如束搜索[76] - 将多轮训练法应用于更普遍的编程环境[76] 总结与意义 - 该方法适用于任何具有中间奖励的多轮环境,比单轮GRPO取得了更好的结果[78] - 端到端训练被认为是未来智能体的重要组成部分,更通用的方法可以让模型自由探索不同的轨迹并通过反馈不断调整[78] - 这项工作被视为迈向自主编程智能体的第一步[78]
AI赋能保险业变革:从经验到数据智能驱动的跨越
环球网· 2025-05-06 16:17
AI+保险行业趋势 - 人工智能技术正在深刻变革保险行业,推动从互联网保险时代向AI时代的战略转型,AI将渗透至保险行业的每一个环节与所有链路[1] - 大语言模型的应用推动金融机构经营理念、业务逻辑与价值创造模式整体重塑,催生金融服务精准化跃迁和跨行业生态协同两大趋势[2][4] - 保险行业正经历从"经验驱动"向"数据智能驱动"的深层次认知转型,智能化转型依赖于数据资产、算法能力和算力资源的协同配置[4] 众安信科的AI应用实践 - 公司基于大模型底层技术研究,利用6亿多用户数据打造保险行业智能中台,开发200多个保险垂类智能体,每月AI中台调用量超5000万次[4] - AI实现从产品设计、营销到承保、理赔、质检、服务的全流程赋能,同时优化内部IT开发和管理运维[5] - 具体成效包括:产品配置时间从数天缩短至数小时且成本下降80%,图文创作实现100%机器审核且0投诉,客服机器人准确率达95%并降低成本数千万元[5] 行业差异化发展策略 - 大型保险公司应加大AI基建投入,与大厂合作进行前瞻性布局[6] - 传统中小保险公司应以工具化、流程化的AI应用为核心实现降本增效[6] - 创新类保险公司可在AI应用领域大胆进行模式创新,有望成为行业先锋力量[6] 生态合作与未来展望 - 行业竞争将转向生态竞争,开放合作是创造AI价值的关键,众安信科与中移金科共建"AI+保险联合实验室"[6] - 十余家头部险企与科技平台启动战略合作,共享技术成果与业务实践,联合攻关行业共性难题[6] - AI将驱动保险服务革命,重塑服务模式与价值逻辑,这场变革才刚刚开始[6]
当答案变得廉价时,好问题就是新的稀缺品
36氪· 2025-05-04 08:03
技术革新与行业重塑 - 摄影术的发明颠覆了19世纪巴黎美术学院定义的正统艺术标准,使绘画从现实主义转向对光影、质感和全新诠释的探索[2][3] - 大语言模型(LLM)如同当年的摄影术,通过降低答案获取成本重塑脑力劳动形态,其核心能力在于生成貌似可信的即时答案[15] - 印象派通过重新定义艺术问题(从"再现"转向"诠释")创造新价值,类比当前AI时代需要从答案消费转向问题设计[10][12][14] 信息经济学范式变迁 - 香农信息论揭示信息价值与其消除的不确定性成正比,而主流系统(如LLM)却逆向生成流畅但无实质的答案[22][23] - 在知识过剩环境中,注意力成为稀缺资源,系统设计缺陷导致数据收集超越边际效用[31][32] - 咨询业面临范式危机:答案商品化导致价值稀释,行业瓶颈转向问题界定能力[58][59][60] 认知框架重构 - 突破性创新(如CRISPR技术应用)往往源于对主流假设的质疑和问题框架的重构[37] - 人机协同优势体现在LLM连接跨领域知识的能力与人类提问能力的结合[39][41] - 香农理论的三阶影响展示好问题的链式反应:从通信工程扩展到生物学、经济学等跨学科领域[42] 能力体系转型 - 传统教育强调答案输出能力,而结构性不确定环境要求培养提问与探索能力[64] - 技能再培训若仅聚焦新答案掌握将失效,必须升级为问题设计能力培养[63] - 顶尖知识工作者需将不确定性转化为探索机会,构建动态认知地图而非静态知识库[64]
315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
机器之心· 2025-05-03 12:18
编程智能体构建 - 知名Go专家Thorsten Ball用315行代码构建基础编程智能体 强调其易复制性且运行效果良好[1] - 该智能体核心功能包括编辑文件 运行命令 自主纠错 仅需大语言模型 循环结构和足够tokens即可实现[4] - 基础架构仅包含90行关键代码 核心为Run()方法中的对话循环 实现与Claude模型的持续交互[10][11] 技术实现路径 - 采用Anthropic API作为底层支持 通过环境变量ANTHROPIC_API_KEY实现鉴权[6][7] - 工具调用机制采用"条件触发"模式 模型通过特定格式请求工具使用 开发者需执行并返回结果[15][17] - 每个工具需定义名称 描述 JSON schema输入模式和执行函数 例如read_file工具需指定文件路径参数[22][23][24] 功能扩展案例 - 文件读取工具实现包含17行代码 包含工具描述 路径参数定义及jsonschema生成逻辑[32][34] - 智能体能自主判断工具使用场景 如在未明确指令情况下主动调用read_file解答文件内谜题[40] - 系统支持多工具扩展 博客后续演示了list_files和edit_file工具的添加方法[41] 行业应用启示 - 该项目验证了小型智能体的快速构建可行性 400行内代码即可实现基础功能[4] - 采用终端交互模式揭示AI聊天应用底层原理 对话状态维护完全由客户端实现[13] - 模型展现2025年技术趋势预判 具备工具调用意识并能自主补充信息缺口[18]
ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议
机器之心· 2025-05-02 12:39
会议投稿与接收情况 - 第42届国际机器学习大会(ICML)将于2025年7月13日至19日在加拿大温哥华举行[1] - 大会共收到12107篇投稿 较去年增加28%[1] - 共有3260篇论文被接收 接收率为26.9%[1] - 其中313篇论文被选为"spotlight poster"[1] 高分接收论文 - Neural Discovery in Mathematics: Do Machines Dream of Colored Planes? 关注数学领域的神经发现[5] - Monte Carlo Tree Diffusion (MCTD) for System 2 Planning 提出用于系统2规划的蒙特卡罗树扩散方法[5] - Layer-wise Alignment 研究视觉语言模型中图像编码器层间的安全对齐问题[5] - The Number of Trials Matters in Infinite-Horizon General-Utility Markov Decision Processes 探讨无限时域马尔可夫决策过程中试验次数的重要性[5] - Implicit Language Models are RNNs: Balancing Parallelization and Expressivity 分析隐式语言模型与RNN的关系及并行性与表达能力的平衡[5] - MARS论文提出用于大语言模型的方差缩减自适应优化器框架 收敛速率(T⁻²/³)优于AdamW的(T⁻¹/²)[7][8] - ShadowKV论文关注高吞吐量长上下文LLM推理中的KV缓存优化[8] - EMBODIEDBENCH论文开发综合性基准测试平台 包含1128个测试任务 涵盖四个环境 评估多模态大语言模型作为视觉驱动具身智能体的能力[8][10] 评审争议问题 - 部分获得高度评价的论文仍被拒绝[13] - 存在评分较低的论文反而被接收的现象[16] - 有研究者收到不完整、无关且敷衍的评审意见[18] - 评审过程中出现元评审记录错误的情况[20] - 存在评审和编辑粗心的问题[20]
唐兴资本:睿见果敢,洞察投资项目潜藏的巨大价值
搜狐财经· 2025-05-02 10:58
2025年科创投资浪潮 - DeepSeek大模型以媲美ChatGPT的性能、开源模式和低成本优势震动全球科技圈,掀起商业和资本市场波澜 [3] - 科创类产品蓬勃发展,投资机遇层出不穷,点燃全国资本热情 [3] - 唐兴资本专注于科技创新领域投资,深耕电子信息、先进制造、医疗健康、新能源新材料等前沿科技领域 [3] 优秀创业者特质 - 创新精神:持续研发新算法和应用模式,敢于挑战传统并提出创新性解决方案 [6] - 跨界整合能力:将不同领域知识、技术和资源有效整合,创造全新业务模式 [6] - 战略眼光与专注度:准确把握行业未来发展趋势并提前布局,同时在核心业务上保持高度专注 [6] 投资风格与案例 - 投资风格为"睿见果敢",强调敏锐洞察和果断决策能力 [7] - 2016-2017年大胆投资3D打印企业铂力特,当时行业前景尚不明朗但战略意义重大 [7] - 铂力特成功上市并成为行业头部企业,为投资机构带来十倍回报 [9] 牛市对一级市场影响 - 牛市改善一级市场融资环境,降低企业融资难度并增加融资金额 [12] - 激发创业热情,催生更多创新项目,丰富一级市场投资标的 [12] - 加速企业成长,为未来上市或并购创造有利条件 [12] 一二级市场联动 - 二级市场高估值提升一级市场投资者退出回报预期,推动一级市场估值上扬 [13] - 资金在二级市场高位时流向一级市场寻找高回报机会,形成双向流动 [13] - 二级市场热点信息迅速传递至一级市场,影响投资方向和创业重点 [14] - 优质企业上市提升二级市场质量,形成上市与退出的良性循环 [14]
市场消息:苹果公司CEO库克称仍然对公司的人工智能(AI)和大语言模型(LLM)路线图感到兴奋。
快讯· 2025-05-02 05:59
公司高层表态 - 苹果公司首席执行官蒂姆·库克表示 仍然对公司在人工智能及大语言模型领域的发展路线图感到兴奋 [1] 公司战略方向 - 公司确认了在人工智能和大语言模型技术方面的持续投入与战略规划 [1]
苹果公司CEO库克:仍然对公司的人工智能(AI)和大语言模型(LLM)路线图感到兴奋。
快讯· 2025-05-02 05:53
公司战略与前景 - 苹果公司首席执行官对公司的人工智能和大语言模型技术发展路线图持积极乐观态度 [1]
2025年迈向智能驱动新纪元,大语言模型赋能金融保险行业的应用纵览与趋势展望报告-众安信科
搜狐财经· 2025-05-01 06:57
大模型技术发展与行业机遇 - 全球大模型技术发展多元化,垂类大模型通过定制化训练提供精准行业解决方案,中国在算力自主化、数据优化等方面取得进展[1][24] - 新技术降低大模型训练、运维和推理成本,推动金融行业流程重构,企业需平衡购置、推理和运维成本[1][29] - 国产大模型如DeepSeek和通义千问在成本控制与推理性能上突破,实现数据安全合规、低成本高性能和中文语义优化[1][26][27] - DeepSeek通过混合专家技术将6710亿参数活跃计算量压缩至37亿,训练成本仅为同规模模型的6%[26] - 通义千问融合预训练与垂直领域优化能力,在对话交互、代码生成等场景形成专项突破[27] - 腾讯混元T1模型解码速度提升2倍,在中英文推理基准中领先[28] 大模型赋能保险全链 - 保险机构加速接入大模型,应用聚焦内部提效,覆盖业务全链条及中后台管理环节[1][16] - 初期优先选择容错成本低的场景如智能客服、智能质检、营销助手等,建立调试与反馈机制[6][7] - 大模型推动行业由结构化数据向多源动态信息系统演进,提升风险识别广度与响应及时性[8] - 金融机构经营理念重塑,呈现金融服务精准化跃迁和跨行业生态化协同两大趋势[9] - 银行利用实时企业数据优化信贷评估,保险与医疗平台合作开发预防型保险产品[9] 合作范式演变 - 数据要素价值凸显,金融保险行业通过横向、垂直和政企协同构建高质量数据集[1][19] - 政企协同推动数据要素流通,垂直整合构建企业级智能协同底座,横向协同拓展跨场景联动[19][42] - 多模态大模型为金融保险带来智能化转型机遇,填补非结构化信息处理能力空白[62] - 多模态模型应用于智能客服、理赔审核、欺诈识别等场景,提升审核准确率与风控能力[62] - 通义干问通过双核架构实现全模态实时交互,视觉推理模块采用链式思维增强方法[53] 技术演进与成本优化 - 垂类大模型通过行业特定数据集训练,减少计算成本并提供精准解决方案[33][40] - GPT-4级别模型单周期训练成本近5000万美元,垂类模型更经济高效[33] - 国产模型生态呈现功能分化趋势,语言生成模型与推理模型分别专注语义理解和逻辑决策[48] - 轻量化技术如蒸馏模型降低终端部署成本,Qwen-32B等模型实现对OpenAI-o1-mini的局部超越[49] - 模型部署从"可用"向"可适配"迈进,聚焦跨架构柔性部署机制构建[31]
民营经济促进法获通过,一季度理财规模缩水 | 财经日日评
吴晓波频道· 2025-05-01 03:21
民营经济促进法 - 十四届全国人大常委会第十五次会议表决通过民营经济促进法 自2025年5月20日起施行 共9章78条 包括公平竞争 投资融资促进 科技创新等章节 [2] - 作为我国第一部专门关于民营经济发展的基础性法律 将进一步优化民营经济发展环境 保证各类经济组织公平参与市场竞争 [2] - 法律需要给予民营企业被保护的安全感 同时重视民企的实际经营需求 内容需随发展调整完善 [2] 制造业PMI数据 - 4月份制造业PMI为49% 比上月下降1.5% 非制造业商务活动指数为50.4% 比上月下降0.4% [3] - 构成制造业PMI的5个分类指数中 仅供应商配送时间指数高于临界点 高技术制造业PMI为51.5% [3] - 4月外贸摩擦影响显现 出口需求回落成为拖累PMI最大因素 内需修复对冲效果有限 [4][5] 贵州茅台业绩 - 一季度实现营业总收入514.43亿元 同比增长10.67% 归母净利润268.47亿元 同比增长11.56% [6] - 酱香系列酒营收70.22亿元 同比增长18.30% 海外市场营收11.19亿元 同比增长37.53% [6] - 3月末现金及现金等价物余额1765.48亿元 较年初增长3.87% [6] 腾讯AI布局 - 重构混元大模型研发体系 成立大语言模型部和多模态模型部 分别负责不同技术方向 [8] - 加强数据平台部和机器学习平台部建设 为AI模型训练提供全面高效的PaaS平台底座 [8] - 调整后研发体系以技术驱动 资源集中使用 提升训练效率 [8][9] 亚马逊关税争议 - 考虑在Haul平台显示关税附加费 直接向消费者展示特朗普关税政策影响 [10] - 该计划遭到特朗普政府猛烈抨击 亚马逊表示从未获得批准实施 [10] - 关税政策使美国企业面临两难境遇 政府施压加剧企业和消费者困境 [11] 外资券商发展 - 瑞银证券变更为外国法人独资 成为第五家外资全资控股券商 [12] - 瑞银集团持股比例由67%增至100% 多家外资券商加速布局中国市场 [12] - 金融对外开放步伐稳健 外资参与度提升有助于国内产业转型升级 [12][13] 理财市场动态 - 一季度末理财产品存续规模29.14万亿元 较2024年末减少约8100亿元 [14] - 4月第三周理财规模较前一周上升约3200亿元 呈现恢复态势 [14] - 一季度债市波动拖累理财产品收益 开放式固收类产品近1个月年化收益率平均2.24% [14] 股市行情 - 4月30日沪深两市成交额1.17万亿 较上个交易日放量1472亿 [16] - 全市场超3400只个股上涨 机器人 算力 华为概念股表现活跃 [16] - 银行板块调整 电力 钢铁 港口等板块跌幅居前 [16][17]