强化学习（RL） - 财报，业绩电话会，研报，新闻 - Reportify

强化学习（RL）

搜索文档

为何强化学习火遍硅谷？AGI的关键一步

虎嗅· 2025-08-07 15:46

强化学习技术趋势 - 强化学习在AI Agent技术架构和模型预训练中成为硅谷主流趋势，顶级人才需求旺盛[1] - 强化学习框架适用于目标驱动型任务，与监督学习形成互补[6][8] - RL pretraining（强化学习预训练）成为研究热点，但验证机制泛化仍是技术瓶颈[9][11][26] 技术架构对比 - 基于LLM的token决策架构与基于action的强化学习架构各有适用场景[5] - 监督学习适合已有标注数据的任务，强化学习适合无数据/目标驱动型任务[8][30] - 强化学习微调成本是监督学习的10倍，但复杂任务中不可替代[29] AGI发展路径 - OpenAI将AGI划分为五个层级：聊天机器人→推理型AI→Agent→创新型AI→组织型AI[13][15][16] - 第三到第四层级（Agent→创新型AI）存在最大技术鸿沟，核心是验证能力突破[16][21][24] - 创新型AI需具备反事实知识发现能力，可能产生超越人类认知的解决方案[13][27] 行业应用与商业化 - 专业领域工作流（金融、供应链、科研等）是强化学习的优势场景[10][44][45] - AI Agent商业化面临成本控制挑战，技术路径决定企业存活能力[63] - 多模态数据标注成为中期发展瓶颈，Meta收购ScaleAI旨在解决该问题[31][36][37] 人才与技术生态 - 强化学习核心人才集中在OpenAI、DeepMind、Meta等机构及少数高校[58][59] - 产业界强化学习应用从专用优化器向通用解决方案演进[60] - Richard S Sutton等先驱者奠定了强化学习理论基础，关注模型可塑性和奖励设计[55][56] 企业战略差异 - Pokee AI采用端到端模型架构，压缩工具链提升专业场景泛化能力[41][44][45] - 行业出现技术路线分化，各公司根据创始人背景形成差异化发展路径[62] - 产品体验与模型能力需平衡，专业型工作流是创业公司突破方向[46][47]

强化学习（RL）

通用人工智能（AGI）

多模态（Multimodality）

Artificial Intelligence

强化学习（RL）

强化学习（RL）

通用人工智能（AGI）

多模态（Multimodality）

Artificial Intelligence

强化学习（RL）

国内首个具身大脑+小脑算法实战全栈教程

具身智能之心· 2025-08-07 10:38

具身智能概述 - 具身智能强调智能体与物理环境的交互与适应聚焦于感知环境理解任务执行动作并反馈学习的能力 [1] - 大脑模块负责语义理解和任务规划小脑模块负责高精度运动执行构成具身机器人核心架构 [1] 产业动态 - 2024年华为启动"全球具身智能产业创新中心" 联合乐聚机器人大族机器人等企业共建大脑小脑关键技术 [5] - 京东2025年起连续投资智元机器人千寻智能逐际动力等公司强化物流科技与家庭服务场景能力 [5] - 腾讯蚂蚁集团小米通过战略投资加速构建具身智能产业生态 [5] - 国外Tesla/Figure AI聚焦工业与物流机器人 Wayve Apptronik获资本支持推进自动驾驶与仓储机器人应用 [5] 技术演进路径 - **第一阶段**：抓取位姿检测技术依赖单步决策缺乏任务上下文建模能力 [6] - **第二阶段**：行为克隆技术通过专家数据实现端到端映射但存在泛化能力弱误差累积缺陷 [6] - **第三阶段**：2023年Diffusion Policy采用扩散模型生成动作轨迹提升策略稳定性与泛化能力 [6] - **第四阶段**：2024年VLA模型融合视觉语言与动作模块支持零样本快速泛化实现"感知+推理+行动"范式跃迁 [7] - 2025年技术探索聚焦VLA与强化学习世界模型触觉感知的融合突破环境预测与多模态感知边界 [8] 商业化应用 - 技术演进推动人形机器人机械臂四足机器人在工业家居餐饮医疗康复领域落地 [9] - 行业岗位呈现爆发式增长吸引大量跨领域人才转入具身智能研究 [9] 工程化挑战 - 产业界需求推动从论文向部署转型对Mujoco IsaacGym Pybullet等仿真平台训练能力要求提升 [13] - 需解决Diffusion Policy/VLA模型训练部署强化学习反馈微调世界建模一体化架构等工程难题 [13] 人才能力需求 - 从业者需掌握Python/Pytorch基础具备3090ti及以上算力设备 [17] - 核心技能覆盖仿真环境搭建模型训练优化触觉信息融合世界模型应用等全栈能力 [17]

Vision-Language-Action（VLA）模型

通用人工智能（AGI）

强化学习（RL）

世界模型（World Model）

触觉感知（Tactile Sensing）

Vision-Language-Action（VLA）模型

通用人工智能（AGI）

强化学习（RL）

世界模型（World Model）

触觉感知（Tactile Sensing）

揭秘：OpenAI是如何发展出推理模型的？

华尔街见闻· 2025-08-04 15:02

文章核心观点 - OpenAI的ChatGPT成功被视为一次意外收获公司真正的长期战略是开发具备推理能力的通用AI智能体（AI Agents）其技术突破源于数学推理研究[1][2][3] - 公司通过结合大语言模型、强化学习和测试时计算三大技术实现推理能力飞跃关键突破内部代号为"Q*"或"Strawberry"[4][5] - 基于新方法开发的o1推理模型在2024年秋季问世该模型使OpenAI在国际数学奥林匹克竞赛（IMO）中获得金牌[3][6] - 公司面临Google、Anthropic、xAI和Meta等竞争对手的激烈追赶行业竞赛焦点在于谁能率先实现通用AI智能体愿景[9] OpenAI技术发展路径 - 数学领域被选为推理能力研究的起点因为数学是纯粹逻辑和推理的试金石 2022年MathGen团队专注训练AI模型解答高中数学竞赛题[2] - 从语言处理到逻辑推理的跨越通过三大技术结合实现：大语言模型提供知识基础强化学习通过奖惩机制优化决策测试时计算允许模型反复验证思考步骤[5] - 新技术催生"思考链"（Chain-of-Thought）方法模型展示完整解题思路而非直接输出答案研究员观察到模型具备回溯错误和情绪化反应的特征[6] 推理能力的技术本质 - 公司从计算机科学角度定义推理为"有效消耗算力得到答案"的过程强调功能实现而非形式模仿[7] - 研究文化采用自下而上模式团队只需证明想法突破性即可获得GPU和人才资源支持这种机制保障了对AGI使命的长期投入[7] - AI推理与人类思考的关系被类比为飞机与鸟类飞行不同机制可实现相同甚至更强大的结果[7] 未来发展方向 - 当前AI智能体擅长定义明确的可验证任务（如编程）但在处理主观性任务（如停车位选择或旅行规划）时仍存在瓶颈[8] - 核心挑战在于缺乏训练主观任务的数据公司已开发新的通用强化学习技术训练模型处理无标准答案的问题[8] - IMO金牌模型采用多智能体协作机制同时探索不同解题路径后选择最优解这代表未来AI演进方向[8] - 终极目标是开发能处理互联网任何事务并理解用户偏好的超级智能体所有研究均指向该方向[8] 行业竞争格局 - OpenAI曾为AI行业绝对引领者但目前面临Google、Anthropic、xAI和Meta等对手的强势竞争[9] - 行业竞争焦点转向实现"智能体未来"的时间赛跑关键在于能否在被超越前率先达到技术终点[9]

通用AI智能体

大语言模型（LLM）

强化学习（RL）

测试时计算

思考链（Chain-of-Thought

通用AI智能体

大语言模型（LLM）

强化学习（RL）

测试时计算

思考链（Chain-of-Thought

都说强化+VLA才是未来？相关工作汇总来啦

具身智能之心· 2025-08-01 08:03

视觉-语言-动作(VLA)模型与强化学习(RL)结合的新范式 - 视觉-语言-动作(VLA)模型与强化学习(RL)结合成为极具前景的新范式，能充分发挥环境试错交互和预收集次优数据的双重优势 [2] 无环境离线RL训练 - MoRE研究通过无环境离线RL训练提升四足机器人VLA模型的可扩展性，论文发表于ICRA2025 [3] - Q-Transformer通过自回归Q函数实现可扩展的离线强化学习，论文发表于2023年 [3] 有环境在线RL训练 - ReinboT通过在线RL增强机器人视觉-语言操作能力，论文发表于ICML2025 [5] - GeRM采用混合专家(MoE)架构构建通用四足机器人模型，项目已开源，论文发表于IROS2024 [5] - 离线Actor-Critic RL可扩展至大型模型，论文发表于ICML2024 [5] 基于仿真器的研究 - OctoNav致力于通用具身导航研究，项目已开源 [6] - TGRPO通过轨迹分组相对策略优化微调VLA模型 [6] - SimpleVLA-RL提供简化版VLA-RL实现，项目已开源 [6] - RFTF利用时序反馈进行具身智能体微调 [6] - VLA-RL通过可扩展RL实现通用机器人操作，项目已开源 [6] - RIPT-VLA采用交互式后训练方法改进VLA模型，项目已开源 [6] - iRe-VLA通过在线RL改进VLA模型，论文发表于RAL2025 [6] - Policy Agnostic RL支持任意类别和骨干网络的离线/在线RL微调，项目已开源 [6] - FLaRe通过大规模RL微调实现自适应机器人策略，论文发表于ICRA2025 [6] 基于真实世界的研究 - DYNA-1模型在性能和产品化方面取得突破，由Dyna公司开发 [9] - ConRFT通过一致性策略强化VLA模型微调，项目已开源 [9] - RLDG通过RL实现通用机器人策略蒸馏，项目已开源 [9] - Hume在VLA模型中引入系统2思维，项目已开源 [9] - 通过价值引导改进机器人基础模型，项目已开源 [9] RL对齐训练 - GRAPE通过偏好对齐实现机器人策略泛化，论文发表于ICLR2025 workshop [11] - SafeVLA通过约束学习实现VLA模型安全对齐，项目已开源 [12]

视觉-语言-动作（VLA）模型

强化学习（RL）

强化学习与VLA结合范式

视觉-语言-动作（VLA）模型

强化学习（RL）

强化学习与VLA结合范式

从“炫技”转向“干活”，轮子比双足更吃香......高盛总结了WAIC人形机器人最新趋势

硬AI· 2025-07-28 23:03

行业趋势 - 2025年WAIC上轮式机器人成为主流，因其更易快速部署，加速短期商业化 [1] - 行业从追求技术"完全拟人"转向优先考虑"近期商业可行性"，轮式方案在稳定性、成本和能耗上优势明显 [4] - 轮式趋势可能对行星滚柱丝杠等与双足步态强相关的零部件供应商构成利空 [4] 商业化进展 - 展会规模显著扩大：会场面积7万平方米（同比增长35%），参展商800家（增长60%），门票价格168元人民币（上涨31%） [4] - 展出机器人产品超过60款，远超去年的25款静态原型，大多数进行实时交互式任务演示 [4] - 应用场景明确化，机器人被设计用于解决特定问题，如工业、消费服务、医疗康复等领域 [6] 技术瓶颈 - 机器人手部精细操作仍是主要瓶颈，任务成功率、稳定性和操作速度距离取代人力仍有差距 [2] - 展会演示中操作失败频发，取货等简单任务需30-40秒，远慢于人类 [9] - 视觉-语言-行为（VLA）大模型与强化学习（RL）结合被视为商业化关键路径 [9] 成本与数据 - 宇树科技推出售价4万元人民币的入门级机型，但主流全尺寸机器人售价仍在40-50万元人民币区间 [11] - 高质量真实世界数据收集成本高昂，公司普遍采用10%-50%真实数据与合成数据混合的训练策略 [11] - 成本曲线下行但未现显著拐点，技术拐点临近但尚未到达强劲可见性阶段 [11] 应用场景案例 - 工业领域：电力巡检、钢铁厂"3D"环境作业（宝信软件Turin机器人） [6] - 消费服务：打冰淇淋、衣物整理、零售门店部署（盖博特系统获100家订单） [6] - 医疗康复：傅利叶智能GR-3机器人已在300家医疗机构部署 [7]

人形机器人商业化

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

轮式机器人

GR - 3机器人

人形机器人商业化

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

轮式机器人

GR - 3机器人

从“炫技”转向“干活”，轮子比双足更吃香......高盛总结了WAIC人形机器人最新趋势

华尔街见闻· 2025-07-28 18:02

行业商业化趋势 - 行业从技术"炫技"转向务实商业化阶段轮式底盘机器人成为主流设计加速短期落地[1] - 展会规模显著扩大会场面积7万平方米同比增长35% 参展商800家增长60% 门票价格168元/天上涨31%[2] - 机器人应用场景多元化超过60款产品亮相(去年仅25款静态原型) 覆盖制造业仓储物流消费零售和家庭养老等领域[1][2] 技术发展现状 - 移动能力取得进步实现自主导航和动态运动(如自主导航拳击热身演示) 但精细操作仍是核心瓶颈[1][5] - 任务成功率低且速度慢取物操作需30-40秒远低于人类水平即使远程遥控也存在动作复现困难[5] - 硬件创新聚焦灵巧手模型传统零部件公司6个月内推出人形机器人原型[3] 成本与数据情况 - 成本曲线下移但无显著拐点宇树科技推出4万元入门机型全尺寸机器人售价40-50万元小型机型10-30万元[1][6] - 数据收集采用混合策略真实世界数据占比10%-50%结合合成数据训练因高质量数据收集成本高昂[6] 应用场景落地 - 制造业应用针对性强电力巡检灯泡品控钢铁厂等"3D"(肮脏危险严苛)环境专用机器人[6] - 消费服务领域具体化冰淇淋制作衣物清洗房间整理纪念品制作等细分功能零售系统已获100家门店订单[6] - 医疗康复实现部署专用机器人提供医疗互动康复中心解决方案在300多家医疗机构落地[6]

机器人(SZ:300024)

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

人形机器人

视觉 - 语言 - 行为（VLA）大模型

强化学习（RL）

人形机器人

90%被大模型吃掉，AI Agent的困局

投中网· 2025-07-25 16:33

通用Agent行业现状 - 通用Agent面临尴尬境地，90%的市场份额可能被大模型吞噬[3][4][8] - Manus等头部公司出现收入下滑和用户活跃度下降，Manus 6月访问量1781万次，较3月峰值2376万次下降25%[5][22] - Genspark发布45天即达3600万美元ARR，但6月MRR环比下跌13.58%至295万美元[20][22] 商业化与竞争格局 - 头部产品商业化表现分化：Manus 5月ARR达936万美元，但6月MRR环比暴跌51.79%至167万美元[20][21] - 国内大厂主导市场，百度、字节等通过免费策略挤压创业公司空间[26][27][29] - 收费模式对比：Manus Pro会员199美元/月限积分制（约10次/天），Claude Opus 4同价但支持不限量使用[9][11] 技术瓶颈与场景困境 - 大模型能力溢出直接冲击Agent价值，用户更倾向使用基础模型API[9][12] - 垂类Agent在企业端优势显著，可对接内部知识库实现精准输出[15][16] - 当前通用Agent核心场景局限在PPT生成、深度研究等办公功能，但存在信息错漏和低价值输出问题[24][32][34] 技术演进方向 - MiniMax采用线性注意力机制支持100万上下文输入，强化法律文书处理能力[35] - 强化学习(RL)成为突破关键，月之暗面Agent模型在HLE测试得分从8.6%提升至26.9%[36][38] - OpenAI最新Agent产品ChatGPT Agent在HLE测试创41.6%的SOTA成绩[38] 市场趋势 - 行业呈现"模型即Agent"趋势，大模型公司直接切入Agent赛道[28][29] - 开发者生态成竞争焦点，阿里、字节等通过平台推广和比赛吸引开发者[26] - 深度研究功能因成本较低成为主流方向，多模态能力成为标配[30][32]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

90%被大模型吃掉，AI Agent的困局

36氪· 2025-07-18 18:48

通用Agent市场现状 - 通用Agent面临增长放缓困境，Manus访问量从3月2376万次下跌至6月1781万次（跌幅25%），Genspark访问量下降8% [10] - 商业化表现波动明显：Manus 5月ARR达936万美元但6月MRR环比下跌超50%至254万美元，Genspark同期ARR 3600万美元但MRR下跌13.58%至295万美元 [9][11] - 核心问题在于缺乏杀手级应用场景，当前功能集中于PPT生成、多模态处理等办公场景，用户付费持续性不足 [2][11] 竞争格局变化 - 基础模型能力溢出侵蚀市场：Claude Opus 4等模型提供不限量服务（200美元/月），相较Manus Pro会员199美元/月但限制每日约10次任务更具性价比 [4][6] - 垂类Agent在企业端形成优势：Head AI等垂类产品能对接内部知识库，准确度显著高于通用Agent [7] - 大厂主导国内市场：百度、字节等通过免费策略挤压创业公司空间，MiniMax等采用积分制但难敌大厂资源 [12][13] 技术演进方向 - 强化学习（RL）成为突破重点：月之暗面Kimi-Researcher通过RL将HLE测试得分从8.6%提升至26.9%，OpenAI ChatGPT Agent最新达41.6% [18][20] - 长文本处理能力升级：MiniMax M1模型支持100万token上下文，优于Gemini 2.5 Pro的200K上限 [17][18] - 多模态集成趋势明显：MiniMax融入视频生成能力，百度心响整合原有对话系统 [15] 商业模式挑战 - 成本转嫁矛盾突出：Manus采用积分制导致高频用户成本高企，对比基础模型API无使用次数限制 [6] - B端落地障碍：企业需求与通用Agent"黑盒"特性存在冲突，需深度集成内部系统 [7] - 大厂生态战略：阿里、字节等侧重开发者平台建设，通过比赛推广而非直接产品竞争 [11]

强化学习（RL）

Artificial Intelligence

强化学习（RL）

Artificial Intelligence

思维链开创者Jason Wei最新文章：大模型将攻克哪些领域？ | Jinqiu Select

锦秋集· 2025-07-16 15:58

大模型能力演进与验证者定律核心观点 - 大模型能力每3-6个月迭代一次，从文本生成、多模态理解扩展到复杂推理和工具调用，"模型即产品"趋势明显，模型能力边界决定产品边界 [1] - 验证者定律提出：AI解决任务的难易度与任务可验证性成正比，具备客观真实性、快速验证、可扩展验证、低噪声、连续奖励五大特征的任务将被优先攻克 [2][8][10] - 验证不对称性普遍存在（如数独验证易/解决难、数学问题验证对称、事实核查验证难），通过预研可改善不对称性 [4][6][7] 技术发展路径 - AlphaEvolve案例显示，符合验证者定律五大特性的问题（如几何优化）已被高效解决，未来所有满足条件的问题均可能被AI攻克 [13] - 可验证任务将形成"参差不齐的智能前沿"，AI在该领域表现显著优于人类，因梯度信号密集且迭代速度快 [12][14] 行业影响 - 创业者需紧密跟踪模型技术进步方向，技术敏锐度关乎生存，验证者定律为预判大模型发展提供框架 [1][2] - 科学创新领域出现范式转变：单个高价值问题的解决（train=test）优先级超过传统机器学习泛化能力 [13]

验证的不对称性

验证者定律

强化学习（RL）

验证的不对称性

验证者定律

强化学习（RL）

突发｜思维链开山作者Jason Wei被曝加入Meta，机器之心独家证实：Slack没了

机器之心· 2025-07-16 10:22

核心观点 - Meta持续从OpenAI挖走顶尖AI人才，最新目标是知名研究员Jason Wei和Hyung Won Chung [1][2] - 两位科学家在AI大模型领域贡献显著，Jason Wei是思维链（CoT）技术的主要作者，论文引用量超1.7万次 [4][6] - Hyung Won Chung是OpenAI o1系统的核心贡献者，参与多个重大项目研发 [4][29][38] 人才流动 - Jason Wei和Hyung Won Chung的Slack账号已被OpenAI停用，离职消息获多方证实 [2] - 两人均毕业于MIT，曾任职谷歌，2023年加入OpenAI后现可能同时转投Meta [6][18][27] - Jason Wei未直接回应跳槽传闻，但社交媒体评论普遍认为其将加入Meta [9][10] 技术贡献 - Jason Wei的CoT论文引用量超1.7万次，总论文引用量达77k，位列前两位的是CoT和GPT-4技术报告 [6][21] - Hyung Won Chung主导开发了OpenAI o1系列模型，强化了推理、搜索及RL策略能力 [29][38] - 两人参与OpenAI关键项目包括o1-preview、o1正式版、Deep Research及Codex mini模型训练 [18][29] 行业影响 - 人才流动反映Meta在AI领域的人才争夺策略，OpenAI面临核心团队持续流失压力 [1][41] - Jason Wei提出的RL"同策略"理念强调差异化研究路径，可能影响未来AI研发方法论 [11][12][13] - Hyung Won Chung的技术落地能力推动AI从理论到应用生态的闭环构建 [40]

思维链（CoT）

强化学习（RL）

Artificial Intelligence

思维链（CoT）

思维链（CoT）

强化学习（RL）

Artificial Intelligence

思维链（CoT）