Workflow
RL
icon
搜索文档
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/696732944 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『LLM』技术交流群 本文只做学术分享,如有侵权,联系删文 论文地址:https://arxiv.org/pdf/2404.10719v2 这是一篇四月份的新论文,一作单位是清华 这篇主要有三个部分,1. 从理论和实验上看,DPO 可能有本质缺陷 2. 研究了 PPO 提升的几个重要因素 3. 实验证实 PPO 可以在硬核任务上(编程比赛)碾压 DPO 达到新的 SoTA 论文先指出了一个令业界困惑的现状,即大部分的开源的榜单上,DPO 占据了领先的位置,但是众所周 知,最好的闭源模型 GPT4 和 Claude,用的都是 PPO 方案。所以这里就自然引出两个问题,即 1. DPO 相 对 PPO 真的有优势吗?2. 如何让 PPO 也很能刷榜呢? DPO 的缺陷 在调教 PPO 的时候,一种常见的现象是语言模型发现了奖励模型的缺陷,而构 ...
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心· 2025-06-22 12:26
选自 unsloth.ai 作者:Unsloth Team 强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的 每个领域看到强化学习的身影。 近日,Daniel Han 和 Michael Han 两兄弟组成的团队 Unsloth(用于微调模型的同名开源项目 GitHub 星数已超过 4 万)发布了一个强化学习教程,其中从吃豆人谈 起,简单易懂地从 RLHF、PPO 介绍到 GRPO,还分享了如何用 GRPO 训练推理模型的技巧。 全面了解强化学习以及如何使用 GRPO 训练你自己的推理模型。这是一份从初学者到高级的完整指南。 你将学到什么 本文涵盖了你需要了解的关于 GRPO、强化学习 (RL) 和奖励函数的所有内容 —— 从初学者到高级,还有基于 Unsloth 使用 GRPO 的基础知识。 如果你正需要学习如何一步步实现 GRPO,这份指南值得一读。 ❓什么是强化学习 (RL)? 强化学习的目标是: 就这么简单!「好」和「坏」的含义错综复杂,「增加」和「降低」也许斟酌,甚至「结果」的含义也各不 ...
管线覆盖ADC和RLT,这家创新药企总融资近6亿美元
36氪· 2025-06-22 09:59
公司融资与临床进展 - 2025年1月完成1.5亿美元融资,累计融资达5.989亿美元,经历21轮融资[1][22] - 2025年3月靶向ROR1的ADC药物IM-1021完成I期临床试验首例患者给药[1] - 核心产品Varegacestat(AL102)Ⅲ期RINGSIDE试验已完成入组,预计2025年下半年公布顶线数据[1] 核心技术平台 - MemoryB细胞技术平台通过患者体内提取记忆B细胞,筛选高效抗肿瘤抗体,抗体筛选周期仅为传统方法的1/3[4][5][21] - Targeted Effector平台通过模块化设计实现精准递送,辐射剂量较传统放疗提升5倍,且减少健康组织损伤[6][7] - 平台具有强大可拓展性,单个靶点验证后可快速切换至类似靶点,ADC+RLT双路径并行降低研发风险[7] 核心产品管线 - Varegacestat(AL102)针对罕见肉瘤,Ⅱ期试验显示1.2mg剂量组客观缓解率达64%,显著优于化疗[9] - IM-1021(ROR1 ADC)采用DAR8设计,载药量是传统ADC的2倍,临床前数据显示在TNBC和NSCLC模型中可实现完全缓解[11] - IM-3050(RLT)靶向FAP蛋白,临床前研究显示单剂量治疗可使胶质瘤模型肿瘤消退,计划2025年下半年启动I期试验[17][18][20] 临床前产品管线 - IM-1617针对"冷肿瘤"设计,通过TLR7/8激动剂载荷激活免疫应答,将"冷肿瘤"转化为"热肿瘤"[13] - IM-1335靶向DLL3,穿透血脑屏障能力提升5倍,在循环肿瘤细胞模型中单次给药可清除99%的DLL3阳性肿瘤干细胞[14] - IM-1340针对HER2阳性乳腺癌耐药问题,通过三重机制突破传统ADC局限,在耐药突变模型中实现肿瘤消退且6个月内无复发[15] 行业背景与挑战 - 开发一款新药平均耗时10年、耗资26亿美元,90%以上候选药物因脱靶或毒性问题失败[2] - 传统化疗与放疗对人体健康组织损伤率高达60%,胰腺癌患者容易出现消化道溃疡等严重并发症[1] - 实体瘤治疗中,传统药物响应率常低于20%,抗体药物因分子量过大难以穿透基质层[16] 团队与战略 - 新任CEO Clay Siegall博士曾主导多款ADC药物商业化,计划2026年前推动至少两款管线进入Ⅱ期临床[21] - 首席科学官Jack Higgins博士将抗体筛选周期压缩至传统方法的1/3,加速管线迭代[21] - 首席技术官Phil Tsai推动Targeted Effector平台商业落地,具有Moderna技术运营背景[21]
100+自动驾驶数据集,这5个你总得知道吧?
自动驾驶之心· 2025-06-22 09:35
自动驾驶数据集 - KITTI数据集是自动驾驶领域最经典的基准数据集之一,包含立体视觉、光流、视觉里程计、3D目标检测和跟踪等多种感知任务的标注,覆盖城市、高速和乡村场景 [3][6] - nuScenes数据集包含1000个连续驾驶场景,配备6个摄像头、5个毫米波雷达、1个顶置LiDAR,提供约140万张高分辨率相机图像和39万帧LiDAR扫描,标注了23个对象类别的1.4M个3D边界框 [5][7] - Waymo Open Dataset是全球最大的自动驾驶开放数据资源之一,包含2030个20秒场景的高分辨率相机和LiDAR数据,以及103,354个场景的车辆轨迹及3D地图信息 [10][12] - PathTrack数据集包含720个序列中的15,000多个人的轨迹,专注于人员跟踪任务 [13][14] - ApolloScape数据集规模远超同类数据集,包含数十万帧高分辨率的逐像素语义分割标注图像,定义了26个语义类别 [17][19] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,创办于2022年7月,已聚集近4000人,包含100+行业专家 [32] - 社区覆盖30+自动驾驶技术学习路线,包括端到端自动驾驶、世界模型、视觉大语言模型、BEV感知等几乎所有子方向 [32][36] - 每周举办1-2场视频直播,每年计划100场左右,邀请CVPR、ICCV等顶会作者及顶尖公司团队分享 [38][39] - 社区成员来自地平线、蔚来、小鹏、理想等知名公司,以及清华大学、上海交大、香港科大等国内外高校 [134] 前沿技术方向 - 2025年自动驾驶技术基调已确定为大模型赋能下的端到端2.0 - VLA(Vision-Language-Action) [26] - 视觉大语言模型(VLM)在自动驾驶中的应用包括作为教师模型训练端到端系统、直接作为规划器等 [31][122] - 扩散模型与自动驾驶结合的前沿方向包括轨迹联合预测、3DGS生成技术等 [26][63] - 世界模型在自动驾驶中的应用包括场景理解、未来场景演化预测等 [59][60] 求职与职业发展 - 自动驾驶求职方向包括TensorRT模型部署、毫米波雷达视觉融合、车道线检测、规划控制等细分领域 [89] - 对于3D目标检测方向,建议从BEV感知开始学习,关注DETR3D、BEVFormer等算法 [115] - SLAM领域从业者可考虑向闭环仿真3DGS重建方向转型,规控方向建议学习基于模型的planner算法 [118] - 多模态3D检测领域相对成熟,建议关注端到端、大模型、数据闭环等新兴方向 [121]
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 20:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]
突破开放世界移动操作!首个室内移动抓取多模态智能体亮相,微调模型真实环境零样本动作准确率达 90%
机器之心· 2025-06-20 19:59
核心观点 - 上海人工智能实验室联合多所高校研究团队提出首个专为开放世界移动操作(OWMM)设计的多模态智能体架构OWMM-Agent,首次实现全局场景理解、机器人状态跟踪和多模态动作生成的统一建模 [1] - OWMM-Agent在真实环境测试中零样本单步动作预测准确率达90%,展现出强大的泛化能力 [2][12] - 该研究通过仿真数据合成方案微调多模态大模型OWMM-VLM,在模拟环境和真实环境中均取得突破性进展 [8][9][12] 问题背景 - 传统移动抓取机器人在处理开放指令时依赖预先构建的场景3D重建或语义地图,耗时且难以应对动态环境 [5] - OWMM任务面临三大核心难点:全局场景推理、具身决策闭环和系统整合问题 [5] 技术方案 多模态Agent架构 - 将OWMM问题建模成多轮多图推理和定位问题,实现端到端的感知-推理-决策-状态更新过程 [6] - 通过函数调用传统路径规划器和机械臂运动规划器,不依赖预定义策略技能库 [8] 数据合成方案 - 基于Habitat仿真平台设计数据合成方案,解决VLM基座模型在机器人领域的"幻觉"问题 [8] - 利用143个仿真场景、157种可抓取物体和1471个容器,采集20万+条多图加文本数据集 [9] - 通过GPT-4o重写思维链和文字总结内容,引入机器人第一视角图像增强数据多样性 [9] 模型表现 模拟环境测试 - OWMM-VLM-38B模型在单步动作决策、图像检索和动作定位三项任务上准确率分别达97.85%、87.54%和88%,远超GPT-4o和模块化方案 [15] - 在308次模拟测试中,OWMM-VLM-38B完成长序移动抓取任务成功率达21.9%,且零死循环,而基线模型成功率低于1%且频繁陷入死循环 [15] 真实环境测试 - 在Fetch机器人上仅通过模拟数据训练即实现90%的零样本动作生成成功率(30次测试中27次成功) [12] - 在"将豆奶盒从书桌移至会议桌"任务中展现出强泛化能力,能准确检索目标位置、规划导航路径并生成机械臂抓取坐标 [12] 未来展望 - 该研究首次证明通过大规模模拟数据微调的VLM模型可成为开放世界移动操作的通用基础模型 [14] - 为"会听、会看、会做"的通用家庭助手奠定关键技术基础,有望实现"一句话指挥机器人完成家务"的智能生活 [15]
Digital Asset Technologies Celebrates GENIUS Act as Pivotal Moment for U.S. Leadership in Digital Finance
Globenewswire· 2025-06-20 19:30
文章核心观点 - 数字资产技术公司及其子公司LiquidLink支持美国参议院通过的GENIUS法案,该法案为支付稳定币建立首个全面联邦监管框架,标志数字资产行业转折点,推动全球可编程货币、机构级稳定币和现实世界资产(RWA)代币化发展 [1] 法案意义 - 使美国在可编程货币系统方面领先其他G20国家,允许受监管私营企业发行稳定币,释放创新潜力 [2] - 标志价值互联网正式开启,美国以市场驱动框架引领世界,让资金流动更自由 [3][4] - 不仅使支付稳定币合法化,还为所有现实世界资产代币化奠定基础,推动合规、可编程和可互操作的全球金融系统建设 [4] XRPL网络优势 - 随着稳定币和央行数字货币成为全球主要支付机制,XRPL有望成为机构金融的主要分布式账本基础设施,支持稳定币和RWA驱动的未来 [5] LiquidLink平台特点 - 是为GENIUS法案设想的可编程金融系统量身打造的自托管优先发现和分析工具,是数字资产、稳定币和RWA无缝跨链和跨境转移的关键基础设施 [6] - 具有支付便捷、原生代币化、机构适用性强和合规友好等特点,支持用户在XRPL上定位和分析代币化资产,识别最佳DEX路线和套利机会 [6][7] - 确保用户控制资产和私钥,无托管风险,集成的RWAlaunchpad功能便于代币发行者将现实世界资产上链,并提供可选的KYC和合规模块 [13] 公司展望 - 数字资产技术公司正为GENIUS法案成为法律做准备,通过LiquidLink与美国监管机构积极合作,以符合即将出台的支付稳定币发行者许可框架 [8] 公司简介 - 数字资产技术公司是一家公开交易的投资发行商,投资全球创新食品科技、可持续发展和技术公司,通过子公司LiquidLink进入区块链技术领域,专注RWA代币化、去中心化基础设施和高级交易分析 [9] - LiquidLink是数字资产技术公司的子公司,专注为代币化经济构建安全、可互操作的基础设施,其旗舰产品Xrpfy为XRPL生态系统提供自托管发现工具、交易情报和RWAlaunchpad功能,并将扩展支持多个区块链 [10]
Sixth Qingdao Multinationals Summit Held in Qingdao
Globenewswire· 2025-06-20 17:25
文章核心观点 第六届青岛跨国公司峰会为全球跨国公司提供政策对话、产业对接和项目合作的高层平台,吸引全球商界广泛关注与参与 [1] 峰会基本信息 - 6月19日第六届青岛跨国公司峰会在青岛国际会议中心开幕 [1] - 峰会由山东省人民政府和商务部共同主办,山东省商务厅和青岛市政府等联合承办 [2] 参会企业情况 - 465家跨国公司参会,含135家世界500强企业和330家行业领军企业,来自43个国家和地区,超50%来自新兴市场经济体 [3] - 超20%参会代表来自现代金融、人工智能等前沿领域跨国公司 [3] - 除传统市场,峰会吸引东盟、中东和非洲等新兴地区更多参与,越南和埃及等9国企业首次参会 [4] 往届参会情况 - 首届峰会以来,前五届吸引421家世界500强企业和967家行业领军企业,累计参会代表超3000人 [6] 峰会日程安排 - 议程包括开幕式、跨国公司高质量发展高层论坛、三项专题活动和四大板块多场平行会议 [5] - 活动期间将发布新版《在华跨国公司》系列研究报告 [5]
MT Højgaard Holding A/S: MT Højgaard Danmark wins DSB tender for DKK 1.95 billion
Globenewswire· 2025-06-19 21:30
文章核心观点 MT Højgaard Danmark赢得DSB在Vinge建造无人驾驶火车新车间及行政设施的招标,合同预计总值19.5亿丹麦克朗,可选追加最高9亿丹麦克朗,该项目分阶段进行,虽不影响MT Højgaard Holding 2025年展望,但将助力其长期可持续发展 [1][6] 项目情况 - 项目包括约2.5万平方米的车间、14公里的电气化轨道、行政大楼及土建工程 [2] - 项目分阶段进行,2025 - 2028年为第一阶段,各方联合设计整体项目;2028 - 2031年为下一阶段,交钥匙合同生效并开展工作 [2][3] 公司表态 - 公司表示很荣幸参与该丹麦大型基础设施项目,此类项目符合公司战略重点,且员工在相关项目中积累了强大能力 [4] 合作情况 - MT Højgaard Danmark被选为交钥匙承包商,将与Artelia、Holm & Grut建筑师事务所等合作进行车间项目设计 [5] 财务影响 - 该订单不影响MT Højgaard Holding 2025年展望,预计收入100 - 105亿丹麦克朗,营业利润4 - 4.5亿丹麦克朗,但将助力其未来长期可持续发展 [6]
5 REITs To Earn $50,000 With A $573,400 Investment
Seeking Alpha· 2025-06-19 20:15
公司服务与成果 - 公司获得500多条五星好评 会员已从中受益[1] - 公司每年投入超过100 000美元和数千小时研究高盈利投资机会 以低成本提供房地产策略[1] 投资产品与策略 - 公司认为REITs(VNQ)是实现高被动收入和提前退休的最佳选择[1] - 公司提供三个投资组合(核心 退休 国际) 实时分享REIT投资组合和交易 包含买卖警报和分析师互动聊天室[2] 公司背景与专业资质 - 公司总裁为Jussi Askola 领导Leonberg Capital 为对冲基金 家族办公室和私募股权公司提供REIT投资咨询[2] - 公司总裁通过CFA全部三级考试 撰写过获奖REIT投资学术论文 并与多家顶级REIT高管建立关系[2] 投资持仓情况 - 分析师披露持有NLCP LANDP AHH等股票的多头仓位 包括股票 期权或其他衍生品[3]