强化学习

搜索文档
自研算法是否将成为主机厂的必选项?——第三方算法厂商的“护城河”探讨
2025-05-13 23:19
纪要涉及的行业和公司 - **行业**:自动驾驶行业 - **公司**:华为、小鹏、理想、文远知行、小米、吉利、长安、长城、比亚迪、上汽、一汽、蒙塔、大疆、元戎启行、地平线、蔚来、德赛、智行科技、蘑菇车联、轻舟智航、小马智行、百度、博世、奇瑞新纪元 纪要提到的核心观点和论据 1. **主机厂自研算法难点**:技术能力上传统主机厂弱于新势力及头部第三方,与领军人物水平有关且多为集成适配而非自研;开发周期上新势力及头部第三方迭代快,传统主机厂慢;资金投入大,如头部企业人均薪酬超 50 万元,算力储备和租赁年投入数亿元;数据闭环能力方面,传统车企智能化渗透率低,数据积累不如新势力和第三方 [3] 2. **主机厂自研芯片难点**:技术能力上传统主机厂在车端芯片核心架构 IP 选择和自研能力建设等领域落后;开发周期上传统主机厂开发模式僵化,与新势力及第三方比有劣势;资金支持上自研芯片流片成本超 1.5 亿元,持续研发投入大;芯片与算法协同优化方面,传统车企算法方向不明,优化难度高 [4] 3. **主流主机厂梯队排名**:第一梯队华为、小鹏、理想、文远知行全栈自研且量产,有自研芯片计划;第二梯队小米、吉利、长安、长城、比亚迪自研加第三方联合开发,未来计划用自研替代第三方;第三梯队上汽、一汽及外资合资品牌完全依赖第三方 [5] 4. **中间梯队发展可能**:既有机会向上发展,需提升研发实力、加大资金投入、缩短开发周期、引入先进技术合作伙伴;也可能向下滑落,若不能应对挑战会依赖外部供应商失去竞争优势 [6] 5. **企业自研芯片条件**:能开发中等算力芯片,如 200 多 TOPS 或 80 多 TOPS;满足数据、算力和算法三要素,数据上需有量产乘用车数据闭环能力,累计销量超 100 万且含相关域控制器功能数据量,通常达 600 万以上,算力最低 3 亿 FLOPS,算法需有懂业务且具前端思考能力的领军人物和支持快速迭代开发的组织结构 [7] 6. **IP 收费模式**:包括一次性支付的授权费和年度维护费,还按芯片销量收取版税,如 BPU IP 授权费约 3000 万元,年维护费约 200 万元,版税按 5%比例提成 [8][9] 7. **第一二梯队算法厂商能力差异**:数据迭代速度与效率上第一梯队快于第二梯队;算法架构预判能力上第一梯队在端到端架构表现突出;工程量产能力上第一梯队保证车型一致性和适配新车型速度优于第二梯队 [12][13] 8. **数据稀缺性及影响**:数据稀缺性重要,地平线虽通过数百台车路测部署端到端能力,但因比亚迪和理想未开放数据反补渠道,数据获取有限,限制其优化和扩展潜力 [14] 9. **端到端技术路线**:业内共识向一段式发展,但有 VRAK 路线和纯端到端路线分歧,除特斯拉外大多采用两段式,传统主机厂有必要做规则算法,要追赶一梯队效果需投入端到端模型 [16] 10. **算法迁移难度**:跨平台迁移难度中等,需重构部分模型并适配工具链;同品类产品间算法迁移可能性高,可复用大量代码;从大算力平台向低算力平台迁移难度高 [17][18][19] 11. **工信部新规影响**:对头部智能驾驶企业影响不大,理想等一梯队企业数据积累丰富,迭代有优势,新规可能拉开二梯队差距,比拼车数量和内部测试、迭代发版投入成本 [20][21] 12. **解决 corner case 数据量少问题**:微调少量关键 corner case 数据在强化学习环境中学习,提高泛化能力,行业内强化学习刚起步,完善需时间 [22] 13. **端到端版本迭代周期**:工信部标准出台前一个月迭代两次并上车两个版本,新规出台后如比亚迪每月发版一次 [23] 14. **声称可做算法的公司类型**:车企自研、域控厂商(自家域控盒子)、传统第三方纯软件商(算法厂商) [24] 15. **主机厂和域控厂商分工**:主机厂分完全自研、尝试自研但集中低端方案、完全依赖第三方三类;域控供应商提供基于与芯片厂商合作的感知算法;纯软件算法供应商大多自主研发 [25][26] 16. **国内公司世界模型和强化学习表现**:世界模型方面国内无公司达特斯拉水平,理想、Momenta、华为、小鹏大致相同;强化学习方面 Momenta、大疆(卓玉)、小马智行表现不错;L4 级自动驾驶公司部分进入 L2 级市场 [26] 17. **自动驾驶算法供应商收费模式**:一般为一次性开发费加根据销量收取 license 费或仅收取 license 费,目前多数两种费用都收,主机厂渐倾向只付 license 费;城市 NOA 每辆车 license 费 2000 元以上,高者 3000 元左右,高速 NOA 每辆车约 600 - 800 元 [27] 18. **国内公司世界模型能力评价**:总体差异不大,以特斯拉 100 分标准,理想、文远知行、华为等在 60 - 70 分之间,评估看云端模型泛化能力及对车端表现影响 [28] 19. **世界模型及强化学习发展方向**:预计两年内取得显著成果,技术格局稳定后主机厂持续投入研发有机会追赶领先者,长期看自研能力强的主机厂能跟上或反超 [29] 20. **自动驾驶技术发展趋势**:未来两年经历优胜劣汰,竞争者包括世界模型和强化学习领先企业及部分主机厂,预计最终两家主机厂、五家以内供应商保持竞争力,技术路线进入新迭代阶段 [29] 21. **端到端大模型发展前景**:目前基于 2019 年 Transformer 架构,若 2026 年后出现更优新型基座模型如 Disformer 技术路线演进,否则传统架构两到三年迭代后达边际效益低点,主机厂有跟随新型架构创新和追赶现有方向上限两个机会 [30][31] 22. **学术界自动驾驶技术探讨方向**:利用强化学习生成模型并通过合成数据训练;探索新架构如 Mamba 架构;补充世界模型通过生成式 AI 更新 [32] 其他重要但可能被忽略的内容 - 蒙塔自研芯片为中算力约 270 TOPS,对标 Dow X,实现城市微循环点对点功能,NPU 自研,2025 年流片完成,预计 2026 年第一或二季度量产上车,已有具体客户合作 [10] - 地平线通过数百辆车跑半年时间收集通用数据训练可开发端到端系统,但效果不如 Momenta、华荣和华为等用专门采集车辆收集精华数据的公司 [15] - 数据收集需经许可,通过收集触发信息即关键案例数据进行迭代获取相关数据 [16]
文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
量子位· 2025-05-13 12:45
港中文MMLab团队 投稿 量子位 | 公众号 QbitAI "先推理、再作答",语言大模型的Thinking模式,现在已经被拓展到了图片领域。 近日,港中文MMLab团队发布了第一个基于强化学习的推理增强文生图模型:T2I-R1。 △ 文生图进入R1时刻:港中文MMLab发布T2I-R1 大家都知道,OpenAI o1和DeepSeek-R1这类的大语言模型(LLMs),已经在解数学题和写代码这些需要"动脑筋"的事情上面展现出了较 高的水平。 这些模型通过强化学习(RL),先使用全面的思维链(CoT)逐步分析问题,推理后再提供答案。 这种方法大大提高了答案的准确性,很适合用于处理一些复杂问题。 同理,如果能把强化学习应用在图片理解的多模态大模型中(LMMs),像是图片理解或者文生图这样的任务就能解决得更加出色。 想法是好的,但在实际操作中总会碰到一些问题: 比如,该如何将语义和生成结合起来,让语义理解服务于图像生成? 又比如,如何对图像生成的结果进行质量评估,让模型在生成中学习? 目前 CoT推理策略如何应用于自回归的图片生成 领域仍然处于探索阶段,港中文MMLab之前的工作Image Generation ...
最先进的AI大模型,为什么都在挑战《宝可梦》?
虎嗅· 2025-05-12 14:57
AI在游戏领域的应用进展 - 游戏作为AI的天然试验场,从AlphaGo到Gemini 2.5 Pro,科技公司持续通过AI通关游戏展示技术突破[2][3][4] - 2023年英伟达开发出能玩《我的世界》的VOYAGER,2025年谷歌Gemini因独立通关初代《宝可梦》引发关注[2][4] - 莫拉维克悖论指出:对人类简单的任务(如游戏通关)对AI反而更困难,这凸显了AI在感知和行动力上的挑战[6][7] 技术实现差异 - 早期AI(如AlphaGo)采用强化学习,依赖预设规则和奖励函数[15] - 大语言模型(如Claude、Gemini)直接操作游戏,需从画面中自主理解规则,类似人类新手学习过程[16][17] - Claude 3.7通关失败(仅获3枚徽章),耗时1年迭代,早期版本甚至无法走出初始城镇[11][12] AI决策能力展示 - Claude能理解属性克制系统并调整策略,如电系技能对岩石系"效果一般"的快速应用[19] - AI决策过程透明化:Claude同步显示思考步骤(如选择技能"翅膀攻击"的分析)[22][23] - 拟人化行为:迷路时主动选择战败回城,或误认NPC后修正[26][28][29] 行业技术演进方向 - Gemini操作步数(10.6万次)比Claude(21.5万次)少50%,但测试条件不同,差异源于代理执行框架优化[30][33][35] - 目标从单一游戏专精(围棋)转向通用能力:感知环境、模糊目标理解和长线规划[37][38] - 《宝可梦》等游戏被选为训练载体,因其模拟现实世界的规则学习和复杂问题解决潜力[39]
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心· 2025-05-12 12:31
多模态奖励模型R1-Reward的核心创新 - 提出StableReinforce算法解决现有RL方法训练不稳定的问题,通过Pre-CLIP策略和优势过滤器(Advantage Filter)优化数值计算过程[21] - 引入一致性奖励(Consistency Reward)机制,使用裁判模型(Qwen2.5-VL-7B-Instruct)验证分析过程与最终答案的逻辑一致性[25][26] - 采用渐进式训练策略:先用GPT-4o生成20万条带思考链的SFT数据,再筛选高难度样本进行RL训练[27][30][39] 技术实现细节 - 将奖励建模转化为基于规则的RL任务,设计包含格式奖励、结果奖励和一致性奖励的复合奖励函数[26][31] - 改进PPO/Reinforce++算法存在的两大问题:概率比值(ratio)计算导致的数值溢出,以及优势归一化引发的训练不稳定[18][19] - 训练数据集R1-Reward-200k包含20万条多模态偏好数据,通过GPT-4o标注难度分级[12][27] 性能表现 - 在VL Reward-Bench等基准测试中超越SOTA模型8.4%-14.3%,推理时采用多次采样投票策略可进一步提升至85.3%(K=5)和86.47%(K=15)[12][35] - 模型输出长度减少15%显示推理效率提升,展现出类似人类的反思纠错能力[12][36] - 已在快手短视频/电商/直播场景实现工业化应用,包括标签识别、多视频相关性判断等[2] 算法比较 - PPO通过min/clip操作限制策略更新幅度,但直接应用于奖励模型会导致数值不稳定[15][17] - Reinforce++在PPO基础上增加KL散度惩罚和奖励归一化,但仍存在冷启动问题[16][19] - StableReinforce创新性地在指数计算前进行Pre-CLIP,并采用3-sigma规则过滤异常优势值[21] 未来方向 - 探索更先进的推理时扩展方法超越简单投票策略[38] - 优化训练策略以进一步释放模型潜力,如Any Correct策略在K=15时接近100%准确率[35] - 增强奖励模型基础能力,解决长思考链冷启动问题[27][30]
人形机器人到底是产业革命还是资本泡沫?
机器人大讲堂· 2025-05-11 12:26
人形机器人行业现状 - 人形机器人成为科技创新的重要代表,吸引大量资本投入,部分成立不足一年的企业估值迅速突破数十亿[1] - 资本市场对新兴技术盲目追捧,2024年人形机器人概念崛起吸引大量资本,但技术仍处于初步发展阶段[2] - 商业化进展与规模化落地不理想,技术滞后导致市场表现远未达预期[2] 技术瓶颈与挑战 - 感知环境方面存在精度不足问题,现有算法受光照、反射等因素干扰,难以应对动态变化环境[8] - 运动控制稳定性与精准度是发展瓶颈,高自由度机器人的动态平衡与运动协调仍是难题[10] - 缺乏智能决策能力,依赖预设程序和硬编码指令,未达到自主决策和灵活适应环境的能力[11][13] 历史案例与行业问题 - 本田Asimo机器人因高昂成本和技术依赖于2018年终止,成为技术理想化与市场需求不匹配的典型案例[4] - 波士顿动力"BigDog"和"Atlas"等产品均未能实现长期商业化成功[4] - 资本大量流入未必促进技术进步,反而可能导致市场泡沫[2] 未来技术发展方向 - 强化学习等新兴技术被引入机器人控制领域,通过模拟与学习优化动作控制策略[14] - 学徒学习方法通过试错过程提升机器人自适应能力,但需大量计算资源和时间投入[16] - 技术突破核心在于提升环境感知能力,实现复杂环境中的自主决策[16] 行业时间预期 - 短期乐观预计3-5年内人形机器人将开始小批量规模化落地[20] - 技术发展需循序渐进突破感知、运动控制、智能决策等多方面挑战[20] 相关企业列举 - 工业机器人企业包括埃斯顿自动化、埃夫特机器人等12家[22] - 服务与特种机器人企业包括亿嘉和、晶品特装等7家[22] - 医疗机器人企业包括元化智能、天智航等12家[22] - 人形机器人企业包括优必选科技、宇树等20家[22] - 具身智能企业包括跨维智能、银河通用等16家[24] - 核心零部件企业包括绿的谐波、因时机器人等21家[25]
前谷歌CEO:千万不要低估中国的AI竞争力
虎嗅· 2025-05-10 11:55
创始人心理与团队建设 - 创始人类型分为"远见型"和"放大器型",前者擅长技术突破,后者擅长规模化与公司治理 [3][4] - 优秀人才往往具备"验证游戏"特质,通过解决具体问题证明价值后被大公司收购 [6][7] - 顶尖人才的核心动力是解决复杂问题的成就感而非金钱或头衔 [18][20] 初创公司成功要素 - 关键成功组合:出色产品+可扩展的盈利模式,如谷歌的PageRank与AdSense系统 [16][17] - AI初创公司需构建"边做边学"能力,学习速度决定市场主导权 [17][33] - 竞争是检验领导力的核心场景,优秀创始人会主动迎接大公司挑战 [10][11] AI行业发展趋势 - AI发展受三大技术弧线驱动:算力缩放定律、强化学习规划、测试时计算 [33][34] - 中国在开源AI领域快速崛起,DeepSeek以500万美元训练出对标顶级闭源的模型 [45][46] - 未来十年硬件瓶颈在于电力与系统构建能力,芯片行业可能面临繁荣-萧条周期 [48][49] 人才管理与组织文化 - "天后型"员工是变革推动者,需重点保留;"中庸型"员工需淘汰 [21][22] - CEO的核心职能是协调创造性人才,通过短期项目测试工程团队执行力 [24][25] - 初创公司应鼓励冒险文化,成熟公司反而因资源丰富而趋于保守 [14][15] 技术战略与竞争格局 - 开源与闭源模式并存,中国通过开源策略打破西方技术封锁 [42][43] - 强化学习是未来最具潜力方向,奖励函数设计是关键突破点 [50][51] - 行业颠覆常由创始人推动,旧企业易被协议锁死难以转型 [30][31]
9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
机器之心· 2025-05-10 11:42
核心观点 - OpenAI研究科学家Dan Roberts预测强化学习将在未来AI模型构建中发挥更大作用,并最终可能创造出能够发现新科学的模型 [2] - 通过扩展强化学习规模,AI模型可能在未来9年内实现AGI(人工通用智能),甚至重现爱因斯坦级别的科学发现 [57][56] 模型性能与扩展 - OpenAI发布的o1和o3模型展示了测试时间扩展的重要性,模型表现随思考时间增加而提升 [6][7][9][12] - o3模型能够在一分钟内完成复杂的物理计算(如量子电动力学问题),而人类专家需要3小时 [14][19][31] - 模型性能与训练量呈正相关,强化学习将成为未来训练的主导方法 [34][37][40] 强化学习的未来方向 - OpenAI计划颠覆传统预训练与强化学习的比例,将强化学习从“樱桃”变为“超大樱桃” [42] - 公司计划筹集5000亿美元用于大规模计算基础设施扩建,以支持强化学习的扩展 [46][48] - 测试时间计算和强化学习训练将成为扩展科学的新方向 [53] AI科学发现的潜力 - 当前AI模型已能重现教科书级计算,但目标是为科学前沿做出贡献 [31] - 提问方式可能是限制AI科学发现的关键因素,需要优化问题设计 [54] - 根据趋势预测,到2034年AI可能具备8年连续计算能力,相当于爱因斯坦发现广义相对论的时间 [56][57]
21对话|卓驭陈晓智:用有限算力做极致性能,这是我们血液里的东西
21世纪经济报道· 2025-05-10 08:36
公司技术路线与产品策略 - 公司定位为软硬一体供应商,通过自研硬件和软件实现极致成本控制,如补盲雷达成本控制在千元以内[1][5] - 采用7V+32TOPS低算力配置实现城市记忆领航、高速领航驾驶功能,对比行业主流254TOPS方案显著降低成本[1][7] - 推出基于英伟达Thor平台的VLA大模型,单颗700TOPS域控成本低于双OrinX(500TOPS×2)方案[3][6] - 2024年推出"成行平台"提供7V/9V方案,通过BEV+双目视觉技术降低对高精地图与激光雷达依赖[2] 市场定位与客户拓展 - 聚焦8万-15万元中低端市场,已实现8万元车型标配高阶智驾功能[1][3] - 2024年合作客户包括一汽、大众、比亚迪等9大车企,20余款车型量产+30款待量产[2] - 计划拓展豪华品牌及海外客户,推进本土化车型合作[7] 核心技术突破 - 强化"视觉优先"策略,认为激光雷达主要起安全冗余作用,2024年将量产激目1.0系统[5] - 世界模型技术实现"千人千面"个性化驾驶,通过思维链推理生成N种未来场景进行决策[12][15] - 强化学习与模仿学习结合提升安全性,可使长尾场景处理能力提升一个数量级[13][17] - 2024年技术重点为强化学习与世界模型落地,预计年内实现L2级更自然的车位自主寻找功能[12][20] 行业趋势判断 - 中低端市场将成为2025年智驾主战场,公司在该领域具备先发优势[3] - 世界模型将成为2024-2025年行业技术升级方向,推动端到端驾驶体验革新[19] - L3落地需以L2功能完善为前提,当前重点为硬件预埋而非商用推广[9][10]
【重磅深度】AI+汽车智能化系列之十一——以地平线为例,探究第三方智驾供应商核心竞争力
东吴汽车黄细里团队· 2025-05-09 20:01
行业趋势与机遇 - 头部第三方智驾供应商有望占据50%新车市场份额,成为二三线车企智驾平权最优方案[2][8] - 智驾平权需求加速城市NOA普及,2026年将迎来大规模智驾平权时代[28][29] - 国产芯片方案成为高阶智驾成本最优解,系统降本成为暗线[2][8] 国产芯片竞争优势 - 国产芯片经过5年追赶,在性能、量产验证和客户获取方面已比肩英伟达[3][39] - 地平线J6P芯片性能较竞品提升17-40倍,采用四芯合一设计实现560TOPS算力[117][119] - 7nm智驾芯片出货150万片时全生命周期成本可打平直接采购成熟方案[55][57] 第三方供应商核心价值 - 芯片研发需3年以上周期,持续迭代能力是关键[54][55] - BEV+Transformer算法框架降低Tier1路径选择风险[60][62] - 强化学习技术突破模仿学习局限,提升智驾模型性能上限[63][67] 地平线公司分析 - 软硬一体商业模式实现NPU与算子最优适配,芯片性能利用率最大化[5][77] - 征程6系列覆盖从80TOPS到560TOPS全场景需求,已获多家车企定点[114][125] - 2024年汽车解决方案营收占比97%,授权及服务业务毛利率达92%[130][132] 技术发展路径 - E/E架构迭代推动车企能力边界外溢,集中式架构赋能软件研发权[16][18] - 智能化时代强调软硬一体适配,车企自研芯片需兼具大出货量和快速迭代能力[55][57] - 地平线BPU架构实现CNN性能提升200倍,Transformer性能提升20倍[83][84]
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 17:35
阿里巴巴通义团队开源ZeroSearch解决方案 - 仅需70.8美元在4块A100 GPU上运行140亿参数模型,即可获得媲美谷歌搜索的AI搜索能力 [1] - ZeroSearch是由大模型驱动的生成式搜索引擎框架,训练过程无需调用外部搜索接口,实现低成本高性能检索能力构建 [1] - 解决方案通过强化学习框架在不与真实搜索引擎交互的前提下训练出"搜索能力" [2] ZeroSearch技术原理 - 采用轻量级监督微调将大模型转化为检索模块,能根据查询生成相关与干扰文档 [2][8] - 引入基于课程学习的rollout策略,逐步降低生成文档质量,挑战模型推理和检索能力 [8] - 训练过程中由模拟引擎直接生成文档模拟搜索结果,完全无需调用真实搜索引擎 [6] 性能表现与成本优势 - 在多个实验场景中实现80%-90%训练成本降低 [10] - 使用14B参数模型训练成本仅70.8美元,相比传统方法成本降低高达88% [16] - 7B参数模型已可与谷歌搜索媲美,14B参数版本甚至超越谷歌搜索结果质量 [15] 实验结果 - 在NQ、TriviaQA等7个公开问答数据集上均超过或持平使用真实搜索引擎训练的模型 [15] - ZeroSearch-inst版本在多个任务中表现最佳,平均得分达40.54 [11] - 在TriviaQA任务中得分高达63.54,显著优于谷歌搜索的61.22 [11][15] 应用与扩展性 - 方案已开源代码、数据集和预训练模型 [15] - 可广泛兼容各类LLM,包括Qwen 2.5与LLaMA 3.2等基础版与指令微调版 [16] - 显示出极强的可泛化性和扩展能力 [16]