强化学习

搜索文档
四个理工男“硬刚”妇科诊断推理大模型,更小参数量实现更高准确率
钛媒体APP· 2025-04-29 10:22
AI行业竞争格局 - 大厂聚焦参数升级的"军备竞赛",中小创业者深耕大厂无暇顾及的细分赛道[1] - 医疗行业被视为"数字化攻坚的最难阵地",通用大模型难以满足其高准确性和严谨性需求[1] - 越来越多的AI企业意识到细分赛道重要性,加大垂直领域行业大模型投入[1] 医疗垂直大模型必要性 - AI在医疗场景应用需专业算法和高质量数据才能达到80分以上水平[1] - 通用大模型如医学生具备广泛医学认知但缺乏临床实战经验[1] - 垂直大模型需上万例临床实践和持续学习才能成为专家级诊疗能力[2] 公司实践案例 - 壹生检康专注女性健康3年,积累丰富行业经验和庞大用户群体[4] - 通用大模型存在"幻觉"问题,特定场景无法控制其自由发挥[4] - 公司选择32B参数模型在计算资源和回复效果间取得最佳平衡[5] 模型训练过程 - 第一轮使用1400例蒸馏数据训练准确率仅50%[5] - 第二轮经医生标注后准确率提升至60%[6] - 补充600例数据解决数据失衡问题,最终准确率达77.1%[6] 模型性能对比 - 豆蔻妇科大模型整体准确率77.1%,高出DeepSeek 7%[13] - 在下腹包块诊断中准确率优势达17.1%[14] - 在月经推迟诊断中更全面考虑激素类药物影响[15] 成本优化措施 - 仅使用一张英伟达4090 GPU进行训练[16] - 最终模型参数量仅为DeepSeek R1的1/20[17] - 选择INT8量化版本对准确率影响可忽略不计[17] 应用场景规划 - toC端解决女性健康问题描述困难和病耻感问题[17] - toB端赋能基层诊所和大健康机构弥补专业资源不足[18] - 模型设计带推理过程便于专业人员评估其正确性[18] 未来发展方向 - 强化学习可使模型从垂直领域拓展到全医学领域[19] - 强化学习让模型具备解决通用问题和泛化能力[19] - 目标使模型成为既优秀又全面的医生[19]
上海车展|Momenta与六大品牌达成战略合作,累计合作量产车型超130款
观察者网· 2025-04-29 09:48
战略合作进展 - 公司与通用别克、一汽丰田、本田中国、凯迪拉克、上汽奥迪、智己六大品牌宣布进一步战略合作[1][3] - 合作量产车型数量呈现指数级增长:2022年1款、2023年8款、2024年26款[3] - 累计合作量产车型已超130款 预计未来交付增速持续加快[3] 技术产品突破 - 下半年将推出基于强化学习的Momenta R6飞轮大模型 具备模拟环境自我学习能力[5] - 智能辅助驾驶解决方案无需高精地图 已成功落地欧洲、澳新、中东、日本等市场[5] - 行业首个前装量产Robotaxi方案即将推出 通过复用硬件降低单车成本[7] 商业化落地数据 - 车型搭载量呈跨越式增长:首个10万辆耗时2年 第二个10万辆仅用半年[3] - 预计2024年5月内完成第三个近10万辆搭载[3] - 合作伙伴覆盖本田、日产、奇瑞、AUDI、大众、凯迪拉克等全球主流车企[3] Robotaxi发展规划 - 首批车端无人Robotaxi预计2025年底进入试运营[7] - 提出规模化安全标准:万辆车队需达到人类驾驶万倍安全水平[7] - 采用无图技术实现跨国道路环境快速适配[7]
小小井字棋难倒大模型??大神卡帕西被OpenAI在线踢馆了
量子位· 2025-04-28 11:43
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 宝可梦之后,让大模型玩 井字棋 又成了一个新的热门挑战。 起因是网友在X上吐槽大模型宝可梦玩得不够好,结果被大神 Karpathy 翻了牌子: 别盯着宝可梦了,让大模型玩井字棋会更有趣,它们不会。 结果Karpathy的话引发了大量围观,有人表示惊讶,也有人在分析原因,还有人表示那句经典的话含金量还在上升: 对人类而言很简单的任务,对机器来说反而很难;对人类而言难的任务,对机器来说反而简单。 不过也有人表示不服,其中就包括OpenAI的 Noam Brown ,他表示让o3玩井字棋完全没问题, 甚至还能看图下棋 。 大模型挑战井字棋 我们也尝试了一下,用不同的方式和o3对战。 第一种方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局输入给o3,并要求其用同样的方式输出。 思考约12秒之后,o3首先占据了棋盘中央的位置,我们落子之后,o3又思考了23秒,放置了第二颗X棋子。 接下来的两个回合情况是这样,其实当o3占据对角线上两个位置的时候就已经锁定了胜局。 不过有意思的是,直到已经连成一条线, o3都没发现自己已经赢了 。 | | | | | XOO ...
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心· 2025-04-28 09:26
大规模语言模型技术发展 - 大语言模型(LLM)正以前所未有的速度推动科技进步和产业变革,重塑人机交互方式并成为学术研究与产业创新的关键技术[3] - 2023年9月复旦大学团队发布《大规模语言模型:从理论到实践》,两年内该领域在理论研究、预训练方法、后训练技术等方面取得重要进展[6] - 大语言模型展现出惊人泛化性(仅需60条数据即可学习)但存在脆弱性(130亿参数模型中修改1个参数可能导致功能崩溃)[6] 书籍核心升级内容 - 新增40%前沿内容,深度剖析MoE、强化学习、多模态、智能体、RAG、效率优化等技术趋势[8][10] - 知识体系重构后覆盖预训练、微调、强化学习、应用开发、效率优化全流程[9] - 新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,指令微调和强化学习部分大幅修改[11] 技术体系架构 - 理论基础部分涵盖Transformer结构、LLaMA模型实例及混合专家模型(MoE)[15] - 预训练部分详解数据分布/预处理方法及DeepSpeed框架下的分布式训练技术[15] - 指令理解部分包含LoRA等高效微调方法,强化学习章节涉及PPO/RLHF算法及DeepSeek-R1等案例[15] - 能力增强部分探讨多模态架构设计、LangChain智能体实现及RAG系统协作机制[15] - 应用部署部分包含vLLM等推理框架优化技术和本地化部署实践方法[16][21] 作者团队背景 - 复旦大学NLP团队由张奇(发表200+论文)、桂韬(NeurIPS 2023最佳论文)、郑锐(NeurIPS 2024最佳论文)、黄萱菁(8项论文奖)等学者组成[24][25] - 团队在ACL/ICML/NeurIPS等顶会持续产出,研究方向覆盖预训练模型、智能体交互、多模态学习等前沿领域[25] 行业专家评价 - 中国工程院院士蒋昌俊认为该书"恰逢其时",是学术界和产业界探索LLM的必备读物[28] - 上海人工智能实验室主任周伯文指出该书系统覆盖预训练、多模态、智能体等前沿领域,具有重要参考价值[28] - 专家共识认为第二版新增内容(如RAG、智能体章节)显著提升了理论深度与实践指导性[27][28]
深度|清华姚班学霸、OpenAI姚顺雨:AI下半场从“算法竞赛”转向“效用定义”,重构评估框架,将技术能力转化为真实世界价值
Z Potentials· 2025-04-25 11:05
AI发展阶段划分 - 当前处于AI发展的中场阶段 上半场以模型创新和基准测试为核心 下半场将从"解决问题"转向"定义问题"[2][3] - 上半场的标志性成果包括DeepBlue AlphaGo GPT-4等 这些突破基于搜索 深度强化学习 模型规模化和推理等根本性创新[2] - 下半场的关键转变在于评估比训练更重要 需要重新思考如何定义问题和衡量进展 思维方式需向产品经理靠拢[3] AI上半场特征 - 上半场的赢家主要是训练方法和模型创新 如Transformer AlexNet GPT-3等 而非基准测试本身[4] - 方法比任务更具通用性 例如Transformer架构推动了计算机视觉 自然语言处理 强化学习等多个领域发展[7] - 上半场游戏规则是开发新方法提升基准测试 再创建更难的基准测试继续循环 这种方法持续几十年并催生重大突破[8] 强化学习突破 - 强化学习取得重大进展的关键在于获得泛化能力 通过语言预训练与强化学习融合形成通用解决方案[3][9] - 强化学习三要素中 先验知识的重要性超过算法和环境 语言预训练提供了关键的先验知识[14][15] - 将推理作为特殊"行动"加入强化学习环境 使模型能利用语言预训练的先验进行泛化[20] AI下半场趋势 - 下半场需要从根本上重新思考评估框架 创造新的评估方式以突破现有解决方案的限制[23][26] - 当前评估框架与现实世界存在差异 例如评估应自动进行和i.i.d.假设等问题需要被质疑和突破[27][29] - 下半场的重点是将智能转化为有用产品 可能创造价值数十亿或数万亿美元的公司[29][32] 技术突破路径 - 有效解决方案的关键成分包括:大规模语言预训练 规模化(数据和算力) 以及推理与行动的概念[9] - OpenAI早期尝试将数字世界变为强化学习环境 但未能解决跨领域迁移问题 直到GPT系列引入语言预训练先验[14][15] - 强化学习算法重要性下降 正确的先验知识和合适的环境配置成为关键突破点[21]
卓驭科技接入通义大模型,联合打造端到端世界模型
阿里云· 2025-04-24 17:13
公司动态 - 卓驭科技宣布接入通义大模型并基于阿里云打造端到端世界模型 [1] - 公司大数据等核心业务系统已接入阿里云 [1] - 卓驭科技总经理沈劭劼与阿里云智能集团副总裁李强共同推动合作 [2] 技术突破 - 端到端世界模型引入强化学习和思维链推理技术 [2] - 模型将城市领航辅助安全性提升一个层级 [2] - 支持千人千面驾驶风格和自然语言交互控制驾驶行为 [2] - 具备复杂场景慢推理的智能化体验 [2] 算力优化 - 采用预训练+后训练结合方式,以"天"为单位迭代 [2] - 基于阿里云PAI平台打造多种GPU融合的算力资源池 [2] - 数据流动和管理成本显著降低 [2] - 模型训练效率相比单GPU集群提升50%以上 [2] - GPU利用率提升至95%以上 [2] 业务进展 - 大数据系统和智能制造核心业务全面搬上阿里云 [2] - 研发领域接入通义灵码和通义千问加速开发 [2] - 代码采纳率达到29% [2]
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 11:03
AI智能体发展现状 - 2025年被视为"AI智能体元年",但目前64.2%的企业AI智能体仍处于试点阶段,仅6.4%表现超出预期[1][2] - 行业普遍面临智能体从实验室到规模化应用的过渡难题,24.8%的企业反馈现有方案需高投入[2] RAGEN系统技术突破 - 由王子涵团队开发的RAGEN系统采用StarPO强化学习框架,通过"状态-思维-动作-奖励"策略优化实现多轮交互训练[5][7] - 系统创新性地引入两阶段训练:rollout阶段生成完整交互序列,update阶段基于归一化奖励更新参数[7] - 使用阿里巴巴Qwen系列开源模型作为基础,确保实验可复现性并支持符号任务对比[9] 训练稳定性解决方案 - 发现"回声陷阱"现象:模型在训练后期倾向于复制高奖励回答导致推理能力退化[12] - StarPO-S框架新增三项机制:基于不确定性的rollout筛选、移除KL惩罚项、非对称PPO剪裁,使训练崩溃率显著降低[19] - 在Bandit/Sokoban/Frozen Lake三个测试环境中验证,奖励水平平均提升30%以上[17][19] 企业应用挑战 - 任务多样性、交互粒度和rollout新鲜度被确认为影响训练效果的三大关键因素[22] - 当前奖励机制存在"重结果轻过程"缺陷,需优化奖励设计逻辑以维持长期推理能力[23][24] - 符号类任务到真实业务场景的迁移仍存挑战,如发票处理等场景需重新设计环境[24] 开源生态建设 - RAGEN系统及StarPO/StarPO-S框架已在GitHub开源,采用MIT协议[10][14] - 项目获得微软、斯坦福等机构支持,技术路线可能重塑大模型训练范式[2][9]
AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理
AI前线· 2025-04-24 11:03
AI智能体发展现状 - 2025年被普遍认为是"AI智能体元年",基于大语言模型(如OpenAI、Anthropic、Google、DeepSeek)的智能体系统将专注于特定任务[2] - 当前64.2%的企业AI智能体仍处于试点阶段("pilot purgatory"),仅4.6%接近规模化应用[3][4] - 行业面临核心挑战:强化学习训练易崩溃,模型易陷入重复输出相似内容的"回声陷阱"现象[18][19] RAGEN系统技术突破 - 由李飞飞团队联合西北大学、微软等机构开发,聚焦提升AI在企业应用中的稳定性和可靠性[5] - 采用StarPO强化学习框架,通过"状态-思维-动作-奖励"策略优化,强调完整决策路径训练而非单次回答优化[11] - 开源框架包含三项创新机制:优先选择模型"犹豫"的交互序列、移除KL惩罚项、非对称PPO剪裁,显著提升训练稳定性[27][28][29][30] - 实验基于阿里巴巴Qwen系列开源模型(1.5/2.5版本),确保结果可复现性[14] 测试环境与评估方法 - 设计三类符号化测试环境:Bandit(风险收益推理)、Sokoban(规划能力)、Frozen Lake(适应性思考)[23] - Bandit任务要求模型通过类比推理(如将"龙"关联力量、"凤凰"关联希望)预测奖励分布,而非依赖直接概率数据[25][26] - 测试环境剥离现实先验知识干扰,纯粹评估训练所得策略的有效性[24] 企业应用现实挑战 - 训练效果三大关键因素:情境多样性、交互粒度(支持多动作/轮)、rollout新鲜度(数据与当前策略同步)[33][34] - 当前奖励机制缺陷:过度关注结果正确性而忽视推理过程质量,导致多轮任务中推理能力退化[36][38] - 技术局限性:长任务场景仍可能崩溃,符号类问题解决方案向真实业务(如发票处理)迁移存在不确定性[40] 行业影响与开源生态 - RAGEN标志着向"具备自主推理能力智能体"迈进,重构大模型训练边界认知[41] - 项目采用MIT协议开源,GitHub已获1.4k星、102分支,主要代码为Python(88.7%)和Shell(11.3%)[16][17] - 核心开发者王子涵(前DeepSeek研究员)专注大语言模型自主性与长文本理解,曾参与DeepSeek-V2项目[6]
Agent、DeepSeek、多模态热点炸场!60+重磅嘉宾共探AI未来,2025全球机器学习技术大会完美收官!
AI科技大本营· 2025-04-21 18:24
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 作者 | 《新程序员》编辑部 出品 | CSDN(ID:CSDNnews) 在万物向 "智 " 生长的 2025 年,AI 领域的热潮持续升温,正引领着技术革新与产业探索的新浪潮。 了新的破解思路?围绕这些关键问题,欢迎回看大会首日视频,看众多技术大咖如何从理论、算法到实际应用层面进行了深度剖析 ,以此 了解 AI 技术 的更多最新进展: 大模型技术创新驱动的 AI 生态和应用演进 李建忠 CSDN 高级副总裁、 Boolan 首席技术专家 4 月 18-19 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 2025 全球机器学习技术大会(ML-Summit 2025),在上海虹桥西郊庄园丽笙 大酒店隆重拉开帷幕。本次大会围绕 AI 最前沿的发展趋势与落地实践,聚焦大语言模型技术演进、AI 智能体、具身智能、DeepSeek 技术解析与行业 实践等 12 大专题,邀请了超 60 位来自全球顶尖科技企业与学术机构的重磅嘉宾齐聚一堂,全面呈现 AI 领域的技术风向与应用前沿。 在生成式 AI 重构技术边界的浪潮下,产业实 ...
21支队伍参加人形机器人半马,每位选手最多三位人类“陪跑员”
第一财经· 2025-04-18 13:07
赛事概况 - 全球首个人形机器人半程马拉松将于4月18日上午7:30在北京亦庄南海子公园举行 共有21支机器人队伍参赛 分别来自国家队 民营企业和学校科研团队 [1] - 组委会预计首名机器人撞线时间为明日上午10:10左右 全程21.0975公里 [1][3] 参赛机器人技术特点 - 国家队代表天工Ultra身高1.8米 体重52公斤 实测平均时速10km/h 最高速度12km/h 具备斜坡 楼梯 草地等多种地形移动能力 [1] - 天工Ultra采用轻量化设计 配备人类同款跑鞋减震 带有视觉感知的泛化移动能力 [1] - 最矮机器人小巨人身高75厘米 脚踝配备180度运动关节电机 脚底贴橡胶鞋底应对不平路面 [1] 比赛规则与组织形式 - 机器人采用强化学习算法路线 比赛过程中大多采用遥控方式 每队由1个人形机器人和最多3名人类陪跑员组成 [2] - 机器人按Z形布阵排成两列 前后垂直间距3米 出发时间间隔1分钟 间距需保持1米以上 高速机器人需主动绕行低速机器人 [2] - 赛事设裁判长 主裁判和随行裁判 随行裁判全程跟随判罚 佩戴录音录像设备 更换机器人将面临罚时 [2] 注:文档4 5 6内容为乱码或无实质信息 故未纳入总结