Workflow
Reinforcement Learning
icon
搜索文档
DeepSeek 复盘:128 天后 ,为何迟迟推迟发布——SemiAnalysis
2025-07-07 23:45
纪要涉及的公司和行业 - **公司**:DeepSeek、OpenAI、Anthropic、Google、Microsoft、Amazon、Parasail、Friendli、Lambda、Nebius、Cursor、Oracle、Huawei、AMD、NVDA等 [4][22][24][29][30] - **行业**:人工智能(AI)行业,特别是大语言模型(LLM)领域 [4] 纪要提到的核心观点和论据 DeepSeek相关 - **核心观点**:DeepSeek R1发布后虽有影响,但自身服务市场份额下降,原因在于其在tokenomics上的权衡导致用户体验不佳 [8][13][21] - **论据** - **价格与延迟**:DeepSeek虽产品价格便宜,但用户需等待数秒模式才响应首个token,相比其他提供商延迟高,如Parasail、Friendli等可提供低延迟服务,微软Azure价格高但延迟低25s,且多数R1 0528实例现以低于5秒延迟托管 [22] - **上下文窗口**:DeepSeek运行K上下文窗口,是主要模型提供商中最小的之一,限制了如编码等需要大上下文窗口的用例,而相同价格下其他提供商如Lambda和Nebius可提供2.5倍上下文大小 [24] - **市场份额变化**:发布后消费者应用流量激增,但未跟上其他AI应用增长,自身网络应用和API服务市场份额下降,而第三方托管实例使用量近20倍增长,自身总token份额每月下降 [8][9][10][13] - **持续发展**:R1发布后持续扩展强化学习(RL),在许多领域尤其是编码方面有所改进,推理模型不断快速改进且更有效、更实惠 [5][7] Anthropic相关 - **核心观点**:Anthropic在编码应用方面成功,但受计算资源限制,不过用户体验优于DeepSeek [29][32][41] - **论据** - **编码应用成功**:Anthropic专注代码产品开发,其Claude Code使用量激增,超过OpenAI的Codex,Google也推出类似工具Gemini CL [29][30] - **计算资源压力**:Claude的输出速度在API上下降30%至略高于5 tokens每秒,因需处理大量请求且编码使用倾向大token数对话,相比之下OpenAI和Google的模型速度更快 [33] - **用户体验优势**:速度虽低但快于DeepSeek的2.5 tokens每秒,且回答问题所需token数远少于其他模型,端到端响应时间更低,Claude在领先推理模型中总输出token数最少 [41][42] 市场动态相关 - **核心观点**:AI市场竞争激烈,各公司在计算资源、价格、性能等方面竞争,开源模型有发展潜力,速度可通过其他因素补偿 [44][47][40] - **论据** - **价格竞争**:DeepSeek低价冲击市场后,OpenAI旗舰模型价格下降80%,其6月对GPT - 4 API定价大幅削减,缩小与R1的价格/性能差距 [4][53] - **计算资源投入**:Amazon大规模建设AI集群,投资数十亿美元用于Trainium AI集群,Anthropic将获得超50万个Trainium芯片用于推理和训练,Anthropic还从Google GCP租用大量计算资源,Google云也向其他AI公司扩展服务 [37][38][39] - **开源模型潜力**:廉价计算资源的可用性和软硬件的快速创新将推动开源模型发展,如DeepSeek R1在编码性能上不断改进,对采用有积极影响 [47] 其他重要但是可能被忽略的内容 - DeepSeek将研发团队从杭州迁至北京,运营人员翻倍以应对媒体请求,虽有R2延迟传言,但并非因出口管制导致训练延迟,且其仍保持快速招聘速度,还为华为盘古模型提供技术支持 [54][55][56] - 推理云兴起,越来越多公司效仿Anthropic以服务形式销售token,而非像ChatGPT那样以月度订阅形式捆绑销售 [44]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-07-07 17:20
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等行业 使机器人在复杂环境中灵活移动并做出智能决策 [1] MuJoCo技术优势 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 提供高保真、高效率的机器人训练环境 支持高度并行化计算 可同时运行成千上万个仿真实例 [4][6] - MuJoCo采用先进接触动力学算法 精确模拟机器人与环境的交互 提供视觉、触觉、力觉等多种感知模态 具有出色稳定性和数值精度 [6] - MuJoCo已成为学术界和工业界标准工具 Google、OpenAI、DeepMind等科技巨头都在使用 [8] 具身智能实战教程 - 课程采用项目驱动学习方式 包含六个递进式实战项目 从机械臂控制到人形机器人行走 再到多智能体协作和Sim-to-Real迁移 [9][12][13] - 项目一:构建六自由度机械臂模型 实现正逆运动学求解和PID控制 [15][16] - 项目二:为机械臂添加视觉感知能力 实现基于视觉的物体检测和抓取 [17][18] - 项目三:训练智能体学会复杂运动技能 如机械臂抛接球或四足机器人奔跑 [19][20] - 项目四:实现模型预测控制算法 进行实时轨迹优化 [21][22][23] - 项目五:设计多机器人协作系统 共同完成复杂任务 [24][25] - 项目六:通过域随机化技术实现Sim-to-Real迁移 在真实机器人上验证 [26][27] 技术能力提升 - 学员将掌握MuJoCo各项功能 能够构建复杂机器人仿真环境 实现高保真物理交互 [29] - 深入理解强化学习核心算法 掌握机器人控制理论和实践技巧 实现精确运动控制和轨迹跟踪 [29] - 具备完整项目开发经验 熟悉现代AI开发工具链 培养良好工程习惯 [31] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 [33] - 产品经理方向:年薪30-80万 有机会发展为技术总监或创业者 [33]
首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
机器之心· 2025-06-30 17:49
基础语言模型研究 - 上海创智学院与上海交通大学的研究论文揭示了Llama和Qwen基础语言模型在强化学习(RL)训练中的性能差异,并提出中期训练(mid-training)策略成功将Llama改造成高度适配RL的推理基础模型,显著缩小与Qwen的性能差距[1][7] - 研究团队通过大规模可控实验(每次训练20B tokens)发现数学语料质量、QA数据分布、指令数据注入和中期训练规模是影响RL效果的关键因素[14][16] - 论文提出的OctoThinker模型在数学推理基准测试中相比原始Llama实现10%-20%性能提升,例如1B模型在GSM8K从7.66提升至44.88,MATH500从4.60提升至27.80[31][32] 数据集开发 - 团队构建了MegaMath-Web-Pro-Max高质量数学语料库,规模达MegaMath-Web-Pro的5.5倍,通过Llama-3.1-70B-instruct标注和fasttext分类器筛选,选择0.4召回阈值平衡质量与数量[17][19][21][25] - 该数据集被MIT、EPFL等顶尖高校和Apple、Microsoft等企业广泛采用,显示学术界与工业界的高度重视[3] - 对比实验显示使用MegaMath-Web-Pro的模型RL性能明显优于FineMath-4plus,证实高质量语料对基础模型和RL训练的关键作用[22] 模型训练方法 - OctoThinker采用两阶段训练方案:第一阶段用200B tokens构建强推理基座(OctoThinker-Base-Stable),第二阶段通过20B tokens分支训练形成短链、长链和混合链三大专业化分支[27][29] - 分支训练采用学习率衰减策略(余弦衰减至初始10%),短链分支含30%竞赛短推理QA,长链分支含30%反思型长推理QA,混合分支平衡两者[27][29] - 3B规模的OctoThinker-Long-Zero经RL训练后性能媲美Qwen2.5-3B,证明该方法有效提升Llama的RL兼容性[35] 行业影响 - Meta AI科学家Wenting Zhao等专家高度评价该研究解决了mid-training中的关键谜题,Pleias AI Lab的独立实验验证了方法的普适性[2] - 开源模型和数据集在GitHub和HuggingFace发布,代码仓库和论文获得广泛关注[5] - 未来研究方向包括精炼数学语料库、开发无需蒸馏的RL友好型基础模型、拓展工具集成推理等新分支[38]
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
具身智能之心· 2025-06-24 22:29
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 通过结合语言理解与物理操作能力 实现从虚拟到现实的跨越[1] - 全球科技巨头如Tesla、Boston Dynamics、OpenAI、Google等均在布局具身智能领域 代表性产品包括Optimus人形机器人、Atlas、机械手和RT-X项目[1] - 该技术将革命性改变制造业、服务业、医疗健康、太空探索等多个行业 应用场景涵盖精密装配、手术协助、家庭服务及危险救援[1] MuJoCo技术核心价值 - MuJoCo作为物理仿真引擎 是连接虚拟与现实世界的关键桥梁 提供高保真高效率的机器人训练环境[4] - 解决传统机器人试错学习的高成本与低效问题 仿真速度可达现实时间的数百倍 支持极端环境下的无损训练[6] - 采用先进接触动力学算法 精确模拟机器人与环境交互 支持并行化计算、多模态传感器建模及长时间稳定仿真[6] - 已成为学术界与工业界标准工具 被ICRA、IROS、NeurIPS等顶级会议广泛采用 Google、OpenAI、DeepMind等公司均依赖其进行研究[8] 具身智能实战课程体系 - 课程设计六个递进式模块 每周聚焦特定技术目标 涵盖MuJoCo基础、强化学习、机器人控制、多智能体系统及Sim-to-Real迁移[13][16] - 包含六个实战项目:智能机械臂控制(六自由度模型与PID控制器)、视觉抓取系统(物体检测与光照模拟)、强化学习运动技能(抛接球/平衡控制)、自适应MPC控制、多机器人协作、Sim-to-Real迁移验证[19][21][23][25][27][29] - 采用PyTorch、Stable Baselines3等工具链 强调工程规范与调试技巧 项目均来自中国机器人企业实际应用场景[10][29] 技术能力与职业发展 - 学员将掌握MuJoCo仿真建模、强化学习算法设计、机器人控制理论及Sim-to-Real迁移等完整技术栈[32] - 职业路径包括机器人算法工程师(年薪30-150万)、AI研究工程师或仿真技术专家 产品经理方向年薪可达30-80万[35] - 课程采用离线视频教学与VIP群答疑模式 2025年7月15日开课 六周完成全部内容[37]
MinMax-M1:超越DeepSeek,支持百万级token上下文
自动驾驶之心· 2025-06-21 21:15
核心观点 - 高效混合架构设计结合MoE架构与Lightning Attention的模型MiniMax-M1,支持百万级上下文窗口(1M tokens),生成长度达80K tokens时FLOPs仅为传统注意力模型的25%[2] - 超越DAPO的算法CISPO通过剪裁重要性采样权重提升RL效率,相比DAPO实现2倍加速[2] - 可扩展上下文支持从40K到80K Token生成长度的扩展[2] 当前面临的挑战 - 计算精度偏移:训练与推理阶段的计算精度差异导致Token概率偏移,需将LM头部输出精度提升至FP32以对齐概率分布[4] - 长生成稳定性问题:长文本响应容易出现输出不稳定,被截断的问题[5] - 奖励模型不稳定:奖励模型对长文本的偏好可能误导RL训练,需要在线校准机制[5] 核心方法 - 混合注意力架构:采用I/O感知的线性注意力计算,通过分块计算和内存优化,将长序列复杂度降低,每7层Lightning Attention后插入1层Softmax Attention[8] - CISPO算法:通过重要性采样权重裁剪保留所有token梯度,避免PPO/DAPO对关键低概率Token的奖励得分偏低[9][10][11] - 分阶段RL数据混合:从规则验证任务逐步过渡到通用领域任务,避免灾难性遗忘[13] - 持续预训练与SFT优化:在7.5T token上扩展STEM、代码数据占比至70%,采用语义去重和分层上下文扩展(32K→1M token)[13] 性能表现 - AIME 2024准确率86.0%(开源模型第二),MMLU-Pro表现接近闭源模型Seed-Thinking-v1.5[14] - OpenAI-MRCR (128k)表现76.1,OpenAI-MRCR (1M)表现58.6[14] - TAU-bench (airline)表现60.0,TAU-bench (retail)表现67.8[14] 数据与训练 - 预训练增强:在7.5T token上扩展STEM、代码数据占比至70%[13] - 监督微调:注入长链式思考模式,数学/编程数据占SFT数据的60%[13] - 上下文长度渐进扩展:从40K分阶段扩展至80K,根据困惑度与生成长度分布调整窗口[13]
Albion Technology & General VCT PLC: Interim Management Statement
Globenewswire· 2025-06-17 18:56
文章核心观点 公司发布2025年1月1日至3月31日的中期管理声明,涵盖业绩、募资、投资组合等方面情况 [2] 业绩表现 - 截至2025年3月31日,公司未经审计的净资产值为2.748亿英镑,每股73.51便士(不包括库存股),较2024年12月31日每股增加0.47便士,增幅0.6% [3] 募资情况 - 2025年1月6日开启新普通股的招股说明书追加发行认购申请,3月31日宣布已达到3000万英镑的发行上限(含1000万英镑超额配售权) [4] - 2025年3月21日发行2977.4402万股,发行价每股74.54 - 75.30便士,净收入2174.8万英镑 [4] - 2025年4月4日发行1010.0775万股,发行价每股75.30便士,净收入737.8万英镑 [10] 投资组合 新增投资 - 对Latent Technology Group等7家公司进行新投资,总计267万英镑 [5] 追加投资 - 对Mondra Global等5家公司进行追加投资,总计259万英镑 [5] 前十大持仓 - 截至2025年3月31日,前十大持仓包括Quantexa等公司,Quantexa持仓价值5.1401亿英镑,占净资产值18.7% [6] 股份回购 - 期间公司因处于禁售期未进行股份回购,董事会政策是在符合公司利益的情况下在市场回购股份,意图在市场条件和流动性允许时以较净资产值约5%的折扣进行回购 [8][9] 其他信息 - 可在公司网页获取历史和当前财务业绩及其他股东信息 [11]
NVIDIA (NVDA) Conference Transcript
2025-06-11 20:45
纪要涉及的公司 NVIDIA 纪要提到的核心观点和论据 1. **量子计算** - 核心观点:量子经典结合是发展方向,未来所有超级计算中心都会采用这种模式 [9][15] - 论据:量子计算机需连接GPU超级计算机进行控制和纠错,纠错方面的突破性工作意义重大;预计每五年逻辑量子比特数量增加10倍,五年后可能有20 - 100个逻辑量子比特,可用于早期生物分子或化学材料研究 [10][12] 2. **主权投资与欧洲市场** - 核心观点:欧洲主权AI建设将代表各国GDP,未来几年全球将有价值约1.5万亿美元的建设投入 [17][18] - 论据:欧洲信息技术产业相对美国较轻,但重工业更发达,机器人和工业数字双胞胎将有很大发展;欧洲有20个由政府支持的AI工厂正在建设,部分为超级工厂,主要用于本地消费 [16][17] 3. **物理AI模型** - 核心观点:物理AI模型与大语言模型不同,将是多模态的,能使机器人更易被中小企业使用 [19][23] - 论据:机器人可根据指令生成动作并进行推理,如将苹果放入抽屉的过程;欧洲多个国家有强大的机器人能力,但缺乏软件能力,物理AI模型可弥补这一不足 [20][21][22] 4. **市场供需与限制因素** - 核心观点:供应虽受限但仍在快速增长,终端市场受本地语言等因素限制 [30][33] - 论据:公司产品供应需提前预测,但不受关键组件限制;不同地区人们偏好使用母语与设备交互,需要针对当地语言训练大语言模型,每个模型微调约需一个月超级计算机工作时间 [30][33][35] 5. **AI模型评估与应用** - 核心观点:推理模型和智能体将不断改进,企业模型效果良好 [39][41] - 论据:推理模型能解决未见过的问题,智能体可从上下文受益;与ServiceNow、SAP和Cadence等合作的企业模型是狭义超级智能体,经过微调后能在特定工作中表现出色 [39][40][41] 6. **数据中心增长** - 核心观点:欧洲市场将成为NVIDIA数据中心业务增长的强大驱动力 [44] - 论据:欧洲大部分地区服务不足,当地云服务提供商有机会尽快部署最新技术,增量市场潜力大 [46][47] 7. **业务模式与机会** - 核心观点:后训练是重要机会,推理业务成功,边缘计算有四个主要应用场景 [49][53][56] - 论据:后训练通过强化学习和人类反馈进行,可用于编码和科学模拟等;NVIDIA是全球最大的推理平台;边缘计算的四个主要应用场景为自动驾驶汽车、机器人、设施和基站 [49][50][56] 8. **供应链与风险** - 核心观点:公司将在多个大洲进行制造,降低对台湾的依赖;华为在AI芯片制造方面有一定进展,但与公司存在差距 [64][67] - 论据:公司计划在美国建设价值50万亿美元的AI超级计算机,同时在韩国的三星也有部分组件制造;华为在AI芯片制造方面落后公司几年,但中国电力成本低,可通过增加芯片使用量弥补性能差距 [64][67][68] 9. **产品相关** - 核心观点:GB 300过渡顺利,NVLink有潜在机会,RTX Pro服务器市场机会巨大 [82][87][98] - 论据:GB 300按计划出现,过渡窗口更短,且包装未改变;很多人对使用NVLink感兴趣,公司正在打造相关生态系统;RTX Pro服务器可集成到传统企业IT组织,市场规模达数百亿美元 [82][89][98] 10. **产品使用寿命与财务** - 核心观点:产品的会计寿命由客户决定,但实际使用寿命可达五到七年;公司在追求增长的同时注重成本和价格平衡 [113][119] - 论据:过去两年Hopper性能提升了四倍,软件优化可在购买硅片后长期提高性能;公司从总拥有成本(TCO)价值角度确定价格,注重战略投资以推动平台全球增长 [114][119] 11. **AI包装与价值交付** - 核心观点:NIMS和NEMO是现代AI包装方式,有助于公司向客户交付价值 [126][128] - 论据:NIMS和NEMO将大量软件集成在一个容器中,类似AI盒子,方便客户使用;公司通过整合GPU、NVLink等系统,实现了40倍的性能提升,能向客户证明价值 [126][129][130] 其他重要但是可能被忽略的内容 1. 公司自动驾驶汽车业务年收入已达50亿美元 [56] 2. 公司从每年3040亿美元的中国业务降至零,但因全球需求强劲仍将继续增长 [70] 3. 很多ASIC项目可能会被取消,但部分人对使用NVLink感兴趣 [87][89] 4. RTX Pro服务器已投入生产 [103] 5. 主权AI建设是逐步进行的,基础设施建设已讨论一年多 [108][110]
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
量子位· 2025-06-11 13:13
模型发布与性能 - Mistral AI发布首款推理模型Magistral,包含Magistral Small(24B参数开源版本)和Magistral Medium(企业版)[4][5] - 与公司初期模型Mistral Medium 3相比,Magistral在AIME-24上的准确率提升50%[3] - Magistral Small在AIME-24准确率达70.7%,纯RL训练使AIME-24数学基准准确率从26.8%跃升至73.6%[18][20] 多语言与推理能力 - Magistral支持多语言推理,覆盖英语、法语、西班牙语等,解决欧洲语言推理效果不佳的问题[7] - 在AIME'24测试中,英语准确率73.6%,法语68.5%,西班牙语69.3%,德语66.8%[8] - 模型针对多步逻辑微调,提供可追溯的思考过程,实现大规模实时推理[10][15] 技术创新与训练方法 - 采用纯强化学习(RL)训练,改进GRPO算法,不依赖现有模型蒸馏数据[16][17] - 首创异步分布式训练架构,动态批处理优化提升训练效率,纯文本RL训练使多模态性能提升12%[20] - Magistral Medium的token吞吐量比大多数竞争对手快10倍,支持实时反馈[14] 行业对比与争议 - 官方未与最新版Qwen和DeepSeek R1对比,网友测试显示Qwen 4B性能相近,30B MoE效果更优[22][24] - 基准测试未纳入Qwen,且DeepSeek-R1数据非最新版(AIME-25准确率从70%升至87.5%)[1] - 开源权重版本Magistral Small采用Apache 2.0许可,但被质疑“欧洲OpenAI”不够开放[24]
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
量子位· 2025-05-29 12:42
核心观点 - 大模型强化学习新范式RLIF通过优化模型自身信心实现复杂推理 无需外部奖励信号或标注数据 [1][2][3] - 新方法INTUITOR使用KL散度衡量自信程度 在数学和代码任务上表现优于传统GRPO方法 [4][12][15] - 小模型(1.5B/3B)可涌现长思维链推理能力 并降低奖励黑客风险 [16][17][18] 技术方法 - 通过计算预测分布与均匀分布的KL散度作为内在奖励信号 Self-certainty$(o|q)=\frac{1}{|o|}\sum_{i=1}^{|o|}\text{KL}(U\parallel p_{\pi_{\theta}}(\cdot|q,o_{<i}))$ [12][13] - 在线学习机制使评估标准与模型能力协同进化 有效防止作弊策略 [17][18][33] - 与RENT方法的主要区别在于使用KL散度与最小化熵衡量自信程度 [6][7] 实验结果 - Qwen2.5-1.5B经INTUITOR微调后 GSM8K从0.002提升至0.711 MATH500从0.090提升至0.530 [24][25] - Qwen2.5-3B在GSM8K基准上INTUITOR(0.811)优于GRPO(0.758) 代码任务性能比GRPO高8% [25][26][27] - 模型会添加自然语言推理步骤(如"为解决X问题需先执行Y步骤") 促进自我理解 [29][30] 性能表现 - INTUITOR早期学习速度更快 在多任务泛化中表现优秀 [25][27] - 对正确答案的self-certainty显著高于GRPO 具有更好的区分度 [35] - 代码生成任务中无效响应大幅减少 响应长度有效增加 [24] 研究背景 - 由UC Berkeley团队开发 主要作者包括Xuandong Zhao和Zhewei Kang [38][41] - 基于2024年2月发表的Best-of-N策略的先验尝试 [44] - 实验受计算资源限制 未来需在更大规模模型和数据集验证 [37]
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
机器之心· 2025-05-25 11:51
电脑智能体技术突破 - 行业首次实现仅需312条人类标注轨迹即可训练出高性能电脑智能体PC Agent-E,性能提升达241%,超越Claude 3.7 Sonnet的extended thinking模式,成为Windows系统开源电脑智能体的新一代SOTA [1][10] - 关键创新在于轨迹增强(Trajectory Boost)技术,利用Claude 3.7 Sonnet为每一步合成多个动作决策,使模型性能相比仅使用人类轨迹训练提升141% [8][11] - 研究表明大模型已具备基础电脑操作能力,性能瓶颈在于长程推理(long-horizon planning)能力的激发,而该能力可通过少量高质量轨迹显著提升 [3][13] 数据收集与处理方法 - 数据来源仅需两位作者一天时间通过PC Tracker工具收集的真实操作轨迹,每条包含任务描述、屏幕截图及键盘鼠标操作 [4] - 原始轨迹经过思维链补全(Thought Completion),为每个动作步骤添加符合ReAct范式的思考逻辑 [7] - 轨迹增强阶段利用环境快照(environment snapshot)通过Claude 3.7 Sonnet为每一步合成9个额外动作决策,极大丰富数据多样性 [8][11] 模型训练与性能表现 - 基于开源模型Qwen2.5-VL-72B训练,PC Agent-E作为原生智能体模型可实现端到端任务执行,无需复杂工作流设计 [10] - 在改进版WindowsAgentArena-V2评测中表现优异,同时在OSWorld平台展现跨平台泛化能力 [10] - 实验显示模型性能随合成动作数量增加而显著提升,验证了轨迹增强方法的有效性 [11] 行业影响与未来方向 - 该方法证明少量高质量轨迹可替代海量标注数据,为构建更智能的数字代理提供新思路 [13] - 当前电脑智能体能力仍显著落后人类,在预训练和监督微调阶段引入人类认知仍是必要基础 [13] - 技术路径降低了数据需求,为未来开发自主操作数字世界的智能代理奠定基础 [13]