强化学习

搜索文档
2025下半年TMT投资策略展望
2025-07-16 14:13
纪要涉及的行业和公司 - **行业**:AI算力、运营商 - **公司**:亚马逊、微软、谷歌、Meta、英伟达、华为、新一胜、中国移动、中国电信、中国联通 纪要提到的核心观点和论据 AI算力行业 - **核心观点**:AI算力景气度仍值期待,但市场对未来持续投入存在分歧,建议保持适当仓位,精选个股,关注北美链 [1][28][29] - **论据** - **资本开支强劲**:今年一季度北美四大厂商亚马逊、微软、谷歌和Meta资本开支总金额773亿美金,同比增长62%;Meta将全年资本开支由600 - 650亿美元上调至640 - 720亿美元 [2][3] - **算力需求大**:模型参数量增加、推理场景、agent应用等对算力消耗大;国内大模型商用落地日均token消耗量激增,如2024年下半年从千亿级到万亿级,月复合增长率45%;单个agent算力需求显著高于简单模型,单个用户查询token处理量预计两年内增加100倍 [5][8][9][10] - **历史复盘**:以光模块等算力公司为例,过去经历两轮大周期,当前基于PTTM计算公司估值较便宜,虽AI与云计算不同,但可作为参考 [21][22][27] 运营商行业 - **核心观点**:运营商虽面临经营压力,但业绩增速大概率可实现两到三年维度的平稳增长,是AI大赛道中有想象力的布局方向 [34][36] - **论据** - **业绩增速放缓但有望提速**:今年一季度三大运营商营收同比仅增长0.8%,但二季度开始随着政企订单恢复,预计收入和利润端业绩将提速 [35] - **收入端增长有持续性**:家庭端天照宽带用户渗透率有提升空间,宽带up值可提升;云计算等ICT项目和产品保持不错增速 [36][37] - **利润端平稳增长**:成本费用压降,资本开支持续下降,折旧和摊销占收比及绝对值可能下降,自由现金流变好,支撑净利润平稳增长 [37] - **股息充裕**:自由现金流强,可供分配股息充裕,虽一季度经济现金流下降,但全年有望平稳 [38][39] 其他重要但是可能被忽略的内容 - **AI算力行业** - **强化学习遵循scale law**:强化学习成为激发复杂推理的核心技术,遵循规模、参数量和算力的法则,agent构建也遵循此规律 [7][8] - **算力投资性价比**:英伟达和华为推出机柜方案,研究表明K = 36以上对性能提升明显,但大于72或等于5760时性价比不高 [16][17] - **估值锚点**:基于未来盈利预测的估值可信度不高,可基于历史PTTM给出合理估值锚点 [20][21] - **Agent应用** - **成为AI应用落地主要承载**:OpenAI给出agent公式,国内也在加速发展,如Manus提出通用Agent概念、智博的陈词成为国内首款公开可用的Digital Search等 [30][33] - **对算力和token消耗大**:agent从规划到执行各环节对token消耗大,如上下文窗口、验证模块、多模式场景等 [14][15] - **运营商行业** - **资本开支下降**:运营商资本开支在2023年出现拐点,2024年下降10%,今年预期下降9%,因6G商用远、AI投资可控 [39] - **资产质量高**:运营商资产质量高,坏账风险低,个人和家庭用户预付费为主,政企用户欠费少 [40]
特斯拉及国产链进展更新、港股及一级市场融资情况
2025-07-16 14:13
纪要涉及的行业和公司 - **行业**:机器人行业 - **公司**:特斯拉、富银金工、龙盛、中鼎、军普、智晟、赛力斯、莱斯科技、奇瑞汽车、三花、军胜电子、凤霄科技、广和通、岳江机器人、Figure AI、智源机器人、乐巨机器人、福利业、语数、创世纪、华睿金迷、奥比中光、熊耐利德、宏茂股份 纪要提到的核心观点和论据 1. **特斯拉** - **核心观点**:对特斯拉机器人业务保有信心,后续可能超预期,国内产业链未来几个月有机会,本周后半周可能有小高潮 [1][2][3] - **论据**:马斯克5月24日宣布回归本体工作,有望推动机器人业务全面加速;杭州TRY拿到新订单,特斯拉在机器人上尝试新改进,如万象节、旋转轴承等 [1][2] 2. **港股上市企业** - **核心观点**:港股制造业公司及机器人等高端制造标的受关注度提升 [6] - **论据**:港股流动性和估值持续改善,截止今年5月7号,港交所主板90亿动平均线成交额达2373亿港币,同比增长130%,市盈率从去年五月的十倍左右提升到12.8倍;优质基本面和高安全系数使股票有上涨势能;A股上市企业纳入港股通有资源倾斜,如岳江机器人 [6][7][8] 3. **一级市场标的** - **Figure AI** - **核心观点**:建议关注与Figure相关的国内厂商 [13] - **论据**:Figure与宝马合作有进展,虽曾遭质疑但有回击;Figure03代机器人有多项更新,有望在未来6 - 12个月集中更新发布并成为重要量产机型 [10][11][12] - **智源机器人** - **核心观点**:智源机器人是与华为合作潜力大的整机厂,估值超150亿 [13][15] - **论据**:完成B轮和B + 轮融资,有华为基因的邓总加入;与华为、中天科技合作开展抗氧人型机器人项目;自2020年底发售产品,截至今年一季度累计交付超100台人形机器人给北汽 [13][14][16] - **乐巨机器人** - **核心观点**:乐巨机器人与华为合作密切 [16] - **论据**:完成新一轮融资交割,估值不到50亿;在2025年全球人工智能中单展和去年华为云开发者大会上展示产品 [15][16] 4. **语数** - **核心观点**:语数在运动控制领域达到全球顶尖水平,表现超资本市场预期 [20][21] - **论据**:不是简单单一动作编程,有全球最顶尖的运动控制、平衡和固态调整能力;后续会有系列赛,如深圳重庆机景的新一轮系列赛 [20][21][23] 5. **行业整体** - **核心观点**:看好机器人板块,6 - 8月产业催化多,若6月海外无系统性风险,6月是板块低点 [23][24] - **论据**:国内外多家公司有新产品发布、合作签约等催化事件,如特斯拉股东大会后可能有更新、华为有相关合作及开发者大会等 [23] 其他重要但是可能被忽略的内容 - 未覆盖但有明显变化的公司,如四菱、英沃、双菱等,可私下交流 [5] - 国内机器人一级市场融资热情高涨,25Q1融资案例数达23年全年水平,巨声模型和零销售发展将推动行业应用落地 [18] - 二级市场和一级市场有密集的人资并购案例,涉及传感器、连销手等多个领域 [20]
扎克伯格:我相信AI,所以不惜一切代价,投入数千亿美元,打造最强算力和团队
华尔街见闻· 2025-07-16 14:08
Meta的AI战略布局 - 公司提出"个人超级智能"新愿景,计划将AI技术直接提供给数十亿用户,与其他科技巨头专注企业级AI应用形成差异化 [1][7] - 创始人强调AI将成为生活中最重要的技术,将支撑公司所有开发并广泛影响社会 [4] - 公司价值观始终是将技术力量直接交到用户手中,关注个人生活需求而非仅经济生产力 [7] 基础设施投资 - 正在建设多个千兆瓦级数据中心集群,包括普罗米修斯和亥伯龙项目,后者将扩展至5吉瓦规模 [2][11] - 亥伯龙项目占地面积相当于曼哈顿相当部分区域 [2][11] - 采用创新建设方法如防飓风级别帐篷以加速部署 [10] 人才竞争策略 - 为50-70位顶尖研究人员展开激烈争夺,提供高额薪酬包(报道达1-2亿美元) [5][6] - 采用"最少人员配最多GPU"策略,提供研究员人均最高算力作为核心吸引力 [12] - 白手起家建立新团队,同时从其他实验室引入关键人才 [13] 产品形态与交互 - AI眼镜被视为未来最佳交互形态,能观察用户生活并实时提供信息支持 [8] - 眼镜将具备全息显示功能,生成用户界面,未来可能成为认知必需品 [8] - 产品方向侧重娱乐、文化和个人关系,而非单纯生产力工具 [7][8] 资本优势与竞争格局 - 公司现金流可完全自主支持数千亿美元AI投资,无需外部融资 [11] - 资本实力转化为基础设施优势,可能形成对资金受限竞争对手的壁垒 [10][11] - 强化学习领域的大规模资本投入可转化为服务质量提升 [10] 技术发展预期 - 观察到AI模型自我改进迹象,认为超级智能可能在未来2-3年内实现 [3][5] - 基于Llama的模型已能自主改进公司算法和AI系统 [9] - 工程师效率将因超级智能显著提升,改变软件开发进程 [9]
打造全球首个强化学习云平台,九章云极是如何做到的?
机器之心· 2025-07-16 12:21
AI范式转变与强化学习崛起 - AI正经历从被动响应的语言模型向具备自主决策能力的智能体转变,进入"经验时代"或"软件3.0时代"[1] - 强化学习(RL)成为实现AGI的关键技术,被诺贝尔奖得主Demis Hassabis和图灵奖得主Richard Sutton视为哺乳动物智能的基础[2] - 强化学习面临高频数据交互、动态算力需求等挑战,传统云计算平台难以适配其动态多阶段特性[2] 九章云极AgentiCTRL平台突破 - 公司发布全球首个工业级强化学习云平台AgentiCTRL,支持万卡级异构算力调度[3] - 基于MoE架构实现端到端训练效率提升500%,综合成本下降60%[4] - 平台采用Serverless架构实现弹性资源调度,GPU利用率提升25%,人工介入次数减少90%[16][19] - 在OSWorld基准测试中,训练后的Alaya-UI智能体任务完成率从6.87%跃升至24.8%[21] 技术架构创新 - 重构强化学习训练流程,用户仅需极少代码即可完成训推闭环[12] - 自研异构算力操作系统突破"秒级生成百万级token"性能瓶颈,GPU利用率超95%[31] - 实现全异步解耦、多环境异构引擎等核心技术,支持智能体即服务模式[10] - 环境模拟、策略执行等复杂机制深度封装,开发效率提升数倍[14] 智能基础设施战略 - 构建三层能力体系:软件定义AI基础设施、Alaya NeW OS操作系统、Alaya NeW Cloud工具链系统[29] - 提出"1度算力"普惠化标准,采用按使用量计价模式降低AI使用门槛[28][30] - 已在政务、金融等七大行业实现部署,强化学习云领域稳居第一梯队[31] - 成立AI-STAR生态联盟及1.8亿元生态基金,加速产业落地[33] 行业竞争与未来展望 - 公司通过系统级重构实现范式跃迁,而非简单算力堆叠[37] - 开发门槛降低使RL训练如调用API般简单,端到端性能提升5倍[38] - 定位为"智能体运行的操作系统级云平台",非传统工具链供应商[40] - 预计强化学习将从实验室特权转变为AI系统常规组件[41]
我们找到3位大学教授,聊了聊越来越严重的AI幻觉
36氪· 2025-07-15 11:23
AI大模型幻觉现象 - DeepSeek模型在与用户对话中虚构"向王一博道歉"事件及不存在的判决书,引发AI幻觉讨论[1] - OpenAI o3模型发布后出现幻觉率上升现象,包括捏造代码、使用无效字符等错误[1] - PersonQA基准测试显示o3模型幻觉率达33%,是o1模型(16%)的2倍,o4-mini模型高达48%[1] - 近期发布的深度思考模型呈现推理能力增强但幻觉率同步升高的规律[1] 强化学习与幻觉关联 - 艾伦研究所科学家指出o3模型幻觉源于强化学习(RL)过度优化导致的"奖励黑客"现象[2] - 斯坦福团队发现Grok3 mini最终答案正确率71.5%,但推理过程正确率仅6.0%[2] - 上海交大教授认为强化学习优化任务性能后,人类才开始关注其输出合理性[3] - 天津大学教授指出强化学习仅对最终结果奖励导致中间推理过程错误[3] - 伦敦大学教授实验显示模型为最大化奖励会走捷径,产生冗余但正确的推理[4] 奖励函数设计挑战 - 当前奖励模型多为标量形式输出,限制表达能力和场景适用性[7] - 奖励函数可分为结果级(ORM)和过程级(PRM),但PRM实现困难且数据收集成本高[4][5] - 近两年奖励函数设计领域发展缓慢,缺乏突破性进展[6] - 未来可能采用非结构化语言反馈作为奖励形式,如教练式文字评价[8] 模型推理能力本质 - 清华大学团队发现深度思考模型与基础模型在足够采样下表现无差异[11] - UC Berkeley团队提出通过token自我确定度激发模型推理能力的方法[12] - 华盛顿大学团队观察到异常奖励信号仍能提升Qwen2.5-Math的数学能力[13] - 当前训练更多形成计算量增大或激活预训练模式,而非知识层面能力[14] 未来发展前景 - 大模型需与开放复杂环境交互生成超越人类数据才能突破成长上限[6] - 逻辑推理类问题本质是NP问题的树搜索过程,神经网络可建模为求解器[17] - 专家预测奖励函数设计将逐步改善,深度强化学习技术将融入大模型训练[18] - 尽管存在局限性,大模型在逻辑推理领域仍具备超越人类的潜力[15]
用动作分块突破RL极限,伯克利引入模仿学习,超越离线/在线SOTA
机器之心· 2025-07-14 12:08
强化学习与模仿学习结合 - 强化学习在长时间跨度和稀疏奖励任务中表现不佳,探索能力不足[2][3] - 模仿学习通过观察专家行为并模仿策略,适用于状态和动作空间巨大且难以设计奖励函数的场景[4] - 加州大学伯克利分校提出Q-chunking方法,将模仿学习中的动作分块技术引入强化学习[4] Q-chunking方法核心 - 解决两个核心问题:提升探索效率和时间连贯动作序列,实现快速值传播[5] - 使用动作分块实现快速价值回传,并通过时间连贯动作进行有效探索[6] - 在离线数据集上进行100万步预训练,再使用在线数据更新并进行另外100万步训练[6] 方法设计与实现 - Q-chunking扩展Q-learning至时间扩展动作空间,预测连续h步动作序列[15] - 块状策略和块状Q函数实现无偏的h步值传播,消除传统n步回报的离策略偏差[16][17] - 施加行为约束保证时间连贯性,使策略接近离线数据分布[18][19] 实验与性能 - 在6个稀疏奖励机器人操作任务中测试,包括OGBench和robomimic基准任务[23] - QC在离线阶段表现竞争力,在线阶段样本效率高,尤其在cube-triple和quadruple任务中性能远超基线方法[25] - 消融实验显示QC和QC-FQL显著优于n步回报基线方法,突显时间扩展动作空间学习的重要性[27] 动作分块的优势 - QC生成时间上更连贯的动作,状态覆盖和探索效果更好[28] - 定量评估显示QC动作时间连贯性明显高于BFN,解释其更高样本效率[29][32]
ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一
机器之心· 2025-07-14 10:29
人工智能研究进展 - 核心团队来自北京通用人工智能研究院机器学习实验室,负责人李庆博士专注于多模态理解、多模态智能体、具身智能等方向 [1] - 研究提出统一空间理解与主动探索的新型模型,被ICCV 2025接收并获得满分评价 [3] - 论文标题为《Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation》 [5] 技术方法与创新 - 将具身导航建模为探索与视觉落地协同进行的闭环过程,实现理解和探索互相推动、交替进行 [7][8][9] - 模型设计包括在线空间记忆构建与空间推理与决策两大核心模块,协同优化实现探索与理解的闭环融合 [18] - 采用虚实结合的数据采集策略,融合ScanNet和HM3D场景数据,覆盖超过90万条导航轨迹和上千万语言描述 [26][27] 实验结果与性能 - 在GOAT-Bench基准测试中,MTU3D成功率分别达到52.2%、48.4%和47.2%,相比现有方法最高提升超过20% [30] - 在SG3D-Nav时序任务导航中,MTU3D在s-SR、t-SR和SPL指标上均显著优于强化学习和模块化方法 [31][32] - 协同训练策略VLE在OVON、GOAT和SG3D任务中分别带来5.5%、13.9%和5.0%的性能提升 [34] 应用与前景 - MTU3D生成的探索轨迹将GPT-4V在A-EQA任务中的成功率从41.8%提升到44.2% [33] - 模型在真实机器人上完成任务,为具身导航提供新思路和更多想象空间 [40][42] - 研究标志着人工智能从虚拟空间迈向真实物理世界的关键阶段 [41]
面试了很多端到端候选人,发现还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-13 21:18
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可达百万年薪 [2] - 端到端系统实现从传感器输入到车辆规划/控制信息的直接建模 避免模块化方法间的误差累积 BEV感知打通模块化壁垒 UniAD统一感知和规划任务 [2] - 学术界和工业界聚焦端到端技术 衍生出多种算法流派 UniAD并非最终解 新算法不断涌现 [2] 端到端技术发展现状 - 技术方向包括多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂 论文数量繁多 知识碎片化 [4] - 高质量文档缺乏 提高入门难度 学习目标驱动导航需结合实战 但缺乏系统指导 难以从理论过渡到实践 [4] - 最新技术流派包括:PLUTO为代表的二段式端到端 UniAD为代表的基于感知的一段式端到端 OccWorld为代表的基于世界模型的一段式端到端 DiffusionDrive为代表的基于扩散模型的一段式端到端 [9] 端到端课程体系 - 课程特点:直击痛点快速入门 构建领域框架提升研究能力 理论结合实践学以致用 [5][6][7] - 课程大纲:端到端算法介绍 背景知识 二段式端到端 一段式端到端与VLA 课程大作业 [11][12][13][15] - 重点章节:一段式端到端与VLA为课程精华 涵盖基于感知/世界模型/扩散模型/VLA的四大子领域 [13] 技术深度解析 - 二段式端到端:分析PLUTO CarPlanner Plan-R1等经典与前沿工作 对比一段式优缺点 [12] - 一段式端到端:UniAD和VAD为奠基作 PARA-Drive为最新进展 世界模型应用广泛 扩散模型实现多模轨迹预测 VLA为当前技术皇冠 [13] - 关键技术:Transformer CLIP LLAVA BEV感知 扩散模型 RLHF GRPO等构成完整技术栈 [14] 课程实施细节 - 开课时间8月15日 三个月完成 采用离线视频教学+VIP群答疑+三次线上答疑模式 [20] - 学员需自备4090及以上GPU 具备自动驾驶基础 熟悉Transformer 强化学习 BEV感知等技术概念 [22] - 预期成果:达到1年经验算法工程师水平 掌握端到端技术框架 可复现主流算法 应用于实际项目 [22]
为什么行业如此痴迷于强化学习?
自动驾驶之心· 2025-07-13 21:18
核心观点 - 强化学习(RL)相比监督微调(SFT)能显著提升大语言模型的泛化能力,尤其在跨领域任务迁移中表现更优 [5][6][14] - 数学推理能力的提升可正向迁移至其他理科领域,验证了RL训练对机器智能发展的关键作用 [7][15] - SFT训练会导致模型在非推理任务上出现负向迁移(TI_non达113.7),而RL模型保持稳定(TI_non仅36.9) [7][12] 训练方法对比 - **模仿学习(SFT)**:依赖高质量数据集直接复制解题过程,但导致模型输出冗长(3000+重复token)且破坏原有知识结构(158-390个无关token变化) [6][13][16] - **强化学习(RL)**:仅提供最终答案奖励,模型自主探索解题路径,保持表示空间稳定(仅14-15个任务相关token变化) [10][11][16] 实验设计 - 使用相同基础模型(Qwen3-14B-Base)和数学数据集(47K问题)对比RL与SFT效果 [11] - 可迁移指数量化显示:RL模型在数学/其他推理/非推理任务的TI分别为8.5/3.5/36.9,显著优于SFT模型(21.4/10.9/113.7) [8][12] - PCA分析证实RL模型的表示漂移距离最小,知识结构保留度最佳 [10] 案例表现 - 数学问题求解:RL模型直接建立方程(简洁),SFT模型产生大量冗余检查步骤 [13] - 非推理任务:RL模型高效完成辞职邮件,SFT模型陷入过度思考循环 [13] 行业意义 - 研究为Grok 4等新一代RL训练范式提供了理论支撑,证明探索式学习更接近人类智能发展路径 [1][14][15] - 数学能力作为基础学科的迁移效应,验证了跨领域知识转移对AI系统的重要性 [7][15]
MuJoCo明天即将开课啦!从0基础到强化学习,再到sim2real
具身智能之心· 2025-07-13 17:48
具身智能技术发展 - 具身智能正在全面崛起 重新定义人类与机器的关系 从Tesla的Optimus到Boston Dynamics的Atlas 全球顶尖科技公司都在布局这一领域 [1] - 具身智能将彻底改变制造业、服务业、医疗健康、太空探索等多个行业 机器人在工厂精密装配、医院协助手术、家庭服务、危险环境救援等方面具有革命性潜力 [1] MuJoCo技术核心价值 - MuJoCo是连接虚拟世界与现实世界的重要桥梁 为机器人学习提供高保真、高效率的训练环境 [4] - MuJoCo可加速学习过程数百倍 支持极端情况测试 通过域随机化技术实现仿真到现实的策略迁移 [6] - MuJoCo采用先进接触动力学算法 支持高度并行化计算 提供视觉/触觉/力觉等多模态传感器模型 已成为学术界和工业界标准工具 [6] 行业应用与生态 - Google、OpenAI、DeepMind等科技巨头都在使用MuJoCo进行机器人研究 顶级会议ICRA、IROS、NeurIPS、ICML大量前沿研究基于MuJoCo [8] - 掌握MuJoCo意味着站在具身智能技术最前沿 获得参与技术革命的入场券 [8] 技术课程体系 - 课程包含MuJoCo技术细节与完整具身智能技术栈 涵盖物理仿真原理、深度强化学习、机器人控制理论、Sim-to-Real迁移技术 [9] - 采用项目驱动学习方式 构建机械臂控制、视觉抓取、运动技能、多机器人协作等实际应用 项目来自中国机器人企业真实场景 [11][30] - 课程工具链包括MuJoCo、Stable Baselines3、PyTorch等 培养从环境搭建到模型训练的完整工作流程 [13] 职业发展路径 - 技术专家方向:机器人算法工程师年薪30-60万 一线城市可达80-150万 涵盖控制算法、感知算法、规划算法研发 [34] - 产品经理方向:机器人产品经理年薪30-80万 需具备技术细节理解与市场洞察能力 可发展为技术总监或创业者 [34] 课程结构设计 - 六周进阶式学习模块:MuJoCo基础→高级建模→强化学习→机器人控制→多智能体系统→Sim-to-Real迁移 [15][17] - 六个实战项目:智能机械臂→视觉抓取→强化学习运动技能→自适应控制→多机器人协作→Sim-to-Real验证 [16][19][21][23][25][27][29]