Workflow
强化学习
icon
搜索文档
21对话|卓驭陈晓智:用有限算力做极致性能,这是我们血液里的东西
21世纪经济报道· 2025-05-10 08:36
公司技术路线与产品策略 - 公司定位为软硬一体供应商,通过自研硬件和软件实现极致成本控制,如补盲雷达成本控制在千元以内[1][5] - 采用7V+32TOPS低算力配置实现城市记忆领航、高速领航驾驶功能,对比行业主流254TOPS方案显著降低成本[1][7] - 推出基于英伟达Thor平台的VLA大模型,单颗700TOPS域控成本低于双OrinX(500TOPS×2)方案[3][6] - 2024年推出"成行平台"提供7V/9V方案,通过BEV+双目视觉技术降低对高精地图与激光雷达依赖[2] 市场定位与客户拓展 - 聚焦8万-15万元中低端市场,已实现8万元车型标配高阶智驾功能[1][3] - 2024年合作客户包括一汽、大众、比亚迪等9大车企,20余款车型量产+30款待量产[2] - 计划拓展豪华品牌及海外客户,推进本土化车型合作[7] 核心技术突破 - 强化"视觉优先"策略,认为激光雷达主要起安全冗余作用,2024年将量产激目1.0系统[5] - 世界模型技术实现"千人千面"个性化驾驶,通过思维链推理生成N种未来场景进行决策[12][15] - 强化学习与模仿学习结合提升安全性,可使长尾场景处理能力提升一个数量级[13][17] - 2024年技术重点为强化学习与世界模型落地,预计年内实现L2级更自然的车位自主寻找功能[12][20] 行业趋势判断 - 中低端市场将成为2025年智驾主战场,公司在该领域具备先发优势[3] - 世界模型将成为2024-2025年行业技术升级方向,推动端到端驾驶体验革新[19] - L3落地需以L2功能完善为前提,当前重点为硬件预埋而非商用推广[9][10]
【重磅深度】AI+汽车智能化系列之十一——以地平线为例,探究第三方智驾供应商核心竞争力
行业趋势与机遇 - 头部第三方智驾供应商有望占据50%新车市场份额,成为二三线车企智驾平权最优方案[2][8] - 智驾平权需求加速城市NOA普及,2026年将迎来大规模智驾平权时代[28][29] - 国产芯片方案成为高阶智驾成本最优解,系统降本成为暗线[2][8] 国产芯片竞争优势 - 国产芯片经过5年追赶,在性能、量产验证和客户获取方面已比肩英伟达[3][39] - 地平线J6P芯片性能较竞品提升17-40倍,采用四芯合一设计实现560TOPS算力[117][119] - 7nm智驾芯片出货150万片时全生命周期成本可打平直接采购成熟方案[55][57] 第三方供应商核心价值 - 芯片研发需3年以上周期,持续迭代能力是关键[54][55] - BEV+Transformer算法框架降低Tier1路径选择风险[60][62] - 强化学习技术突破模仿学习局限,提升智驾模型性能上限[63][67] 地平线公司分析 - 软硬一体商业模式实现NPU与算子最优适配,芯片性能利用率最大化[5][77] - 征程6系列覆盖从80TOPS到560TOPS全场景需求,已获多家车企定点[114][125] - 2024年汽车解决方案营收占比97%,授权及服务业务毛利率达92%[130][132] 技术发展路径 - E/E架构迭代推动车企能力边界外溢,集中式架构赋能软件研发权[16][18] - 智能化时代强调软硬一体适配,车企自研芯片需兼具大出货量和快速迭代能力[55][57] - 地平线BPU架构实现CNN性能提升200倍,Transformer性能提升20倍[83][84]
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 17:35
阿里巴巴通义团队开源ZeroSearch解决方案 - 仅需70.8美元在4块A100 GPU上运行140亿参数模型,即可获得媲美谷歌搜索的AI搜索能力 [1] - ZeroSearch是由大模型驱动的生成式搜索引擎框架,训练过程无需调用外部搜索接口,实现低成本高性能检索能力构建 [1] - 解决方案通过强化学习框架在不与真实搜索引擎交互的前提下训练出"搜索能力" [2] ZeroSearch技术原理 - 采用轻量级监督微调将大模型转化为检索模块,能根据查询生成相关与干扰文档 [2][8] - 引入基于课程学习的rollout策略,逐步降低生成文档质量,挑战模型推理和检索能力 [8] - 训练过程中由模拟引擎直接生成文档模拟搜索结果,完全无需调用真实搜索引擎 [6] 性能表现与成本优势 - 在多个实验场景中实现80%-90%训练成本降低 [10] - 使用14B参数模型训练成本仅70.8美元,相比传统方法成本降低高达88% [16] - 7B参数模型已可与谷歌搜索媲美,14B参数版本甚至超越谷歌搜索结果质量 [15] 实验结果 - 在NQ、TriviaQA等7个公开问答数据集上均超过或持平使用真实搜索引擎训练的模型 [15] - ZeroSearch-inst版本在多个任务中表现最佳,平均得分达40.54 [11] - 在TriviaQA任务中得分高达63.54,显著优于谷歌搜索的61.22 [11][15] 应用与扩展性 - 方案已开源代码、数据集和预训练模型 [15] - 可广泛兼容各类LLM,包括Qwen 2.5与LLaMA 3.2等基础版与指令微调版 [16] - 显示出极强的可泛化性和扩展能力 [16]
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了
AI前线· 2025-05-09 13:18
核心技术突破 - 阿里巴巴研究人员发布名为"ZeroSearch"的新技术,可完全消除对昂贵商业搜索引擎API的需求,大幅降低AI系统训练成本和复杂度[1] - 该技术采用强化学习框架,允许大语言模型通过模拟方式开发高级搜索功能,无需在训练过程中与真实搜索引擎交互[2] - 使用3B参数的LLM作为模拟搜索引擎即可有效提升搜索能力,70亿参数模块性能媲美谷歌搜索,140亿参数模块甚至超越谷歌[3] 性能表现 - 在七个问答数据集测试中,ZeroSearch性能与真实搜索引擎训练模型相当或更优[3] - 表格数据显示ZeroSearch-inst在Qwen-2.5-7B模型上平均得分达40.54,显著高于传统方法[5] - 14B参数的SFT模型平均得分33.97,超越Google搜索引擎的32.47[6] 成本优势 - 使用64000个搜索查询训练时,Google API成本586.7美元,而14B参数模拟LLM仅需70.8美元,成本降低88%[7] - 技术消除了大规模RL训练中数十万次API调用产生的高额费用[2] 技术实现原理 - 通过轻量级监督微调将LLM转化为检索模块,生成相关和不相关文档响应查询[9] - 采用基于课程搜索模拟的推出策略,逐步增加训练难度[11] - 使用基于F1分数的奖励信号作为强化学习监督[12] 行业影响 - 技术突破可能改变AI开发经济模式,减少对大型技术平台的依赖[14] - 为预算有限的小型AI公司和初创企业创造公平竞争环境[14] - 显示AI系统可不依赖外部工具实现能力提升,未来技术格局或将重塑[15] 适用性与扩展性 - 技术适用于Qwen-2.5和LLaMA-3.2等多个模型系列[2] - 兼容PPO、GRPO等各种RL算法,无需单独监督预热阶段[2] - 增加GPU数量可显著提升模拟LLM生成吞吐量,实现高效大规模部署[4]
深度|前谷歌CEO谈全球AI竞赛:AI竞争核心是系统能否自我演化;AI不仅没有泡沫,反而被严重低估了
Z Potentials· 2025-05-09 11:35
创始人心理与团队建设 - 创始人分为两种类型:天赋型创始人具备独到远见,职业经理人型则擅长规模化扩张和制度建设[4] - 优秀人才往往最终选择创业,初创公司创始人参与的是"验证游戏",10家公司中9家不会成功,4家彻底失败,5家成为"活死人"[6] - 领导力核心是在压力下迎难而上,CEO角色被严重低估,需要每天处理各种挑战并坚持12-14小时工作[12] - 天后型人才是公司真正推动者,需要重点保留和支持,而中庸型员工本质自利应被淘汰[20] AI行业竞争格局 - AI领域尚未出现泡沫,反而被严重低估,技术曲线还未触顶,临界点尚未到来[9][28] - 中国将AI视为国家级战略,投入数十亿美元,DeepSeek等开源模型已取得世界领先地位[34][35] - 美国面临开源与闭源路线选择,顶级模型多为闭源,但大学应继续推动开源创新[36][37] - 硬件瓶颈将成为未来十年主要限制因素,电力资源和系统构建能力是关键挑战[40] 技术发展趋势 - AI核心竞争力在于系统持续学习和自我演化能力,学习速度最快者将获胜[9][15] - 强化学习是当前最难也最有前景的方向,特别是控制AI规划能力的发展[42][44] - 三大技术趋势驱动AI进步:缩放定律、强化学习规划、测试时计算[28] - 基础模型可应用于各学科领域,将知识体系化并实现问题建模与解答[43] 公司运营与管理 - 初创公司成功需同时满足多个条件:正确时机、真实市场需求、强大技术方案[14] - 谷歌成功靠两大支柱:PageRank搜索引擎技术和AdSense广告拍卖系统[15] - 招聘顶尖人才需强调解决重要难题的机会而非金钱或头衔[17][19] - 组织管理中应给予人才短期项目测试其能力,工程管理者需随时掌握项目细节[22] 全球AI治理挑战 - 超级智能系统可能带来灭绝性威胁,需要建立人类与AI共处的思维体系[32][33] - 开源模型面临安全监管难题,需平衡代码公开与防止有害信息传播[38] - 中美在AI领域形成竞争格局,中国开源方案可能吸引多数国家采用[38][41]
文生图进入R1时刻:港中文MMLab发布T2I-R1
机器之心· 2025-05-09 10:47
核心观点 - 提出T2I-R1模型,基于双层次CoT推理框架(Semantic-CoT和Token-CoT)与强化学习,显著提升文本生成图像的质量和语义对齐 [1][3][9] - 首次将思维链(CoT)推理策略应用于自回归图片生成领域,解决跨模态对齐和细粒度视觉细节生成问题 [1][7] - 通过BiCoT-GRPO强化学习方法联合优化Semantic-CoT和Token-CoT,利用多专家模型集成作为奖励机制提升生成效果 [11][12] 方法架构 Semantic-CoT - 在图像生成前进行文本推理,设计全局结构(如对象外观和位置),显式规划Prompt以降低生成难度 [7][9] - 示例:生成冰屋时推理其"空气动力学穹顶形状""光滑半透明表面""入口斜坡隧道"等语义细节 [6][14] Token-CoT - 在离散空间中逐块生成图像Token,专注于底层像素细节和视觉连贯性 [7] - 与文本CoT类似,基于先前Token输出后续Token,维持相邻Patch的一致性 [7] 技术突破 - 统一理解与生成能力:基于ULM(Janus-Pro)框架整合双层次CoT,避免独立模型带来的计算成本增加 [8][9] - 奖励机制创新:集成多专家模型(如目标检测器、VQA模型)从提示对齐、美学吸引力、对象存在性等维度综合评估 [12] 性能表现 - 定量结果:在T2I-CompBench和WISE Benchmark上分别比基线模型提升13%和19%,部分子任务超越FLUX-1 [16] - 定性优势:处理非常规场景(如"火车底部的小猪")时展现更强鲁棒性,生成结果更符合人类意图 [13][14]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅APP· 2025-05-08 21:13
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕创立于2023年 核心团队包括首席科学家张祥雨和系统负责人朱亦博 形成技术研发与AI基础设施建设的铁三角架构 [5][7] - 公司员工规模达400余人 其中80%为技术研发人员 采用扁平化管理模式 员工可通过私信直接与CEO沟通 内部设有技术协同会和见闻分享群 [5][6] - 商业模式聚焦ToB服务和开发者API接口 2024年下半年多模态API调用量增长超45倍 2024年12月完成B轮数亿美元融资 [5][7] 技术战略 - 核心主张"理解生成一体化架构" 将原生成小组和理解小组整合为统一团队 认为这是实现多模态突破的关键路径 [2][3][4] - 建立Step系列通用大模型矩阵 覆盖语言模型和原生多模态模型 是国内少数坚持预训练路线的公司之一 [14][15] - 2025年1月发布推理模型Step R1-V-Mini 性能超越OpenAI早期版本 计划未来三个月推出满血版Step-R1 [17] 行业趋势判断 - 模型演进遵循三阶段路径:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) 与OpenAI的AGI五级划分逻辑一致 [9][12] - 当前竞争焦点转向"智能上限" OpenAI等五大厂商半年内发布超8款新品 国内月之暗面等公司同步发力 [7][9] - 多模态领域尚未出现"GPT-4时刻" 核心卡点在于缺乏可扩展的理解生成一体化架构 需突破predict next frame技术难题 [2][28] 产品应用 - 推出Step 1X-Edit图片编辑模型 实现初级理解生成一体化 对原图忠实度达90%以上 正在开发更先进版本 [31] - 布局智能终端Agent生态 与手机/汽车/机器人领域头部企业合作 提供云端Agent构建平台和运行环境 [36] - 落地巡店等商业场景 通过规则Prompt实现操作规范检测 准确率超90% 显著提升连锁门店管理效率 [19] 发展路线 - 短期聚焦强化学习在预训练模型的应用 提升长思维链推理能力 解决奖励函数定义等工业界难题 [17] - 中期突破视觉领域理解生成一体化 构建可扩展架构以处理高维连续空间 最终实现世界模型 [24][28] - 长期通过"超级模型+超级应用"双轮驱动 形成从云到端的Agent生态体系 重点布局智能硬件场景 [33][36]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅· 2025-05-08 19:50
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕于2023年创立,总部位于上海,北京办公室距离微软中国办公地仅504米 [1] - 公司核心管理团队包括CEO姜大昕(战略与技术研发)、首席科学家张祥雨(技术研发)、系统负责人朱亦博(AI基础设施) [1] - 公司员工规模达400余人,其中80%为技术研发人员,采用扁平化管理模式,员工可通过私信直接与CEO沟通 [2] - 2024年12月完成B轮数亿美元融资,是"AI六小虎"中少数坚持预训练路线的公司 [3] 技术战略 - 核心聚焦多模态基础模型研发,坚持"理解生成一体化架构"技术路线,认为这是实现AGI的必经之路 [1][11] - 已建立Step系列通用大模型矩阵,涵盖语言模型和多模态模型,2024年下半年多模态API调用量增长超45倍 [1][11] - 2025年1月发布推理模型Step R1-V-Mini,计划未来三个月推出满血版Step-R1 [14] - 近期将算法团队重组为"生成理解"团队,体现对理解生成一体化架构的重视 [1] 行业趋势判断 - 多模态领域尚未出现"GPT-4时刻",核心瓶颈在于缺乏统一的理解生成一体化架构 [1] - 模型演进路径分为三阶段:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) [5][7] - 当前两大技术趋势:1) 将长思维链推理能力融入语言/多模态模型 2) 视觉领域理解生成一体化 [18][19] - 智能体(Agent)发展需要两个条件:多模态能力和慢思考能力,2024年这两方面取得突破性进展 [31] 产品应用 - 主要收入来源:面向品牌客户的ToB服务和面向开发者的API接口业务 [3] - 已推出Step 1X-Edit图片编辑模型,采用初级理解生成一体化技术,未来几个月将发布更先进版本 [30] - 重点布局智能终端Agent生态,与手机、汽车、机器人领域头部企业合作,提供云端Agent开发平台 [34][35] - 实际应用案例包括茶百道/瑞幸门店巡店系统,通过视觉推理实现90%以上的操作规范检测准确率 [17] 竞争格局 - 基础模型领域竞争激烈,过去半年仅OpenAI/Google/Meta/Grok/Anthropic就发布不少于8款新品 [3] - 国内竞争对手包括月之暗面、MiniMax等,但阶跃星辰在多模态覆盖广度和原生多模理念上具有差异化优势 [3][12] - 公司认为当前竞争焦点仍是"追求智能上限",将持续投入强化学习和多模态前沿技术研发 [4][15]
98年清华小伙,如何带着一群草根在机器人马拉松中逆袭?
混沌学园· 2025-05-08 19:08
公司发展历程 - 2023年9月公司成立时面临融资困境,团队由草根创业者组成,缺乏顶尖学历和行业资源,初期接触的投资机构均无果而终[6][7][8] - 团队自筹100万资金在北京顺义别墅实验室开发出首台人形机器人样机,凭借实物展示获得清华系投资机构760万元种子轮融资[11] - 2024年初公司经历技术瓶颈和人才危机,现金仅够支撑10个月运营,通过重组团队转向强化学习算法路线,5个月内实现机器人跑跳动作并在世界机器人大会展示,获得5000多万元pre-A轮融资[13][14][15][25] - 2025年通过"后空翻"技术展示和39900元定价策略实现商业化突破,抖音投放1小时获得数百条销售线索,随后在机器人马拉松比赛中包揽二三名,订单总量突破1000台[28][30][31][34] 技术突破路径 - 初期用1个多月时间完成从硬件样机到嵌入式系统全跑通,实现机器人行走功能,创造行业速度记录[11][13] - 技术路线从传统模型预测控制(MPC)转向深度强化学习(DRL),通过专项算法题筛选潜力工程师,5个月内实现机器人跑跳单腿跳等高级动作[20][22][24][25] - "后空翻"技术成为关键突破点,该动作对硬件爆发力、结构稳定性、电池放电能力和极限工况算法提出综合挑战[28][30] 商业化策略 - 采用"技术+流量+极致性价比"组合拳:空翻技术展示制造噱头,39900元定价仅为行业均价的60%,形成市场冲击[30][31] - 通过抖音1小时精准投流获得首批销售线索,快速搭建销售团队实现闭环,两个月内从零订单到产能满载[31][34][35] - 借力机器人马拉松赛事获得媒体曝光,三轮车测试辅助设备成为创新亮点,包揽比赛名次带来持续流量[34] 团队建设经验 - 早期面临"三无团队"(无顶尖学历/明星履历/行业资源)困境,通过实物demo打破投资机构对豪华团队的迷信[6][7][39] - 资金危机时逆向操作:在现金仅剩10个月时仍投入重组团队,通过算法题筛选理论基础扎实且热爱行业的潜力人才[18][22][24] - 建立"技术验证-资本注入"良性循环:用世界机器人大会展示获得pre-A轮融资,用商业化突破稳定现金流[25][31][35]
学海拾珠系列之二百三十四:利用强化学习和文本网络改进相关矩阵估计
华安证券· 2025-05-08 16:07
量化模型与构建方式 1. **模型名称**:RL-TBN(基于文本网络的强化学习模型) - **模型构建思路**:通过融合强化学习的动态优化与文本网络(TBN)的结构化先验,构建数据驱动的协方差矩阵估计框架。强化学习采用近似策略优化(PPO)算法,TBN用于衡量企业间的产品相似性[3] - **模型具体构建过程**: 1. **收缩方法**:将样本协方差矩阵向目标矩阵收缩,公式为: $$\widetilde{\mathbf{R}}_{t}=(1-\alpha)\widehat{\mathbf{R}}_{t}+\alpha\mathbf{\widetilde{R}}_{t}$$ 其中$\alpha$为收缩强度,$\widetilde{\mathbf{R}}_{t}$为目标矩阵(如TBN或单位矩阵)[32][33] 2. **TBN构建**:解析公司10-K报告中的产品描述,计算企业间相似性得分。通过归一化词向量和余弦相似度构建TBN矩阵: $$B_{t}={\frac{M_{t}M_{t}^{\mathsf{T}}}{\|M_{t}\|_{F}^{2}}}$$ $M_t$为归一化后的企业产品描述矩阵[37][38] 3. **强化学习优化**: - 状态定义为股票收益向量$s_t = (r_{1,t}, r_{2,t}, ..., r_{N,t})$ - 动作为收缩强度$\alpha_t$ - 奖励函数采用指数效用:$r_t = \frac{1 - e^{-\gamma r_{p,t}}}{\gamma}$,其中$r_{p,t}$为投资组合收益率[48] - 使用PPO算法更新策略,目标函数为: $$J(\theta) = \mathbb{E}[\min(\rho_t(\theta) A_t, \text{clip}(\rho_t(\theta), 1-\epsilon, 1+\epsilon) A_t)]$$ $\rho_t$为策略比率,$A_t$为优势函数[53] - **模型评价**:RL-TBN结合了TBN的低波动性优势和RL的动态适应性,能有效降低估计误差并提升投资组合稳健性[4][5] 量化因子与构建方式 1. **因子名称**:基于文本网络的相似性因子(TBN因子) - **因子构建思路**:通过分析公司10-K报告中的产品描述,量化企业间产品相似性,作为股票相关性的先验信息[36] - **因子具体构建过程**: 1. 提取每家公司10-K报告中描述产品的非通用名词(约200个/公司) 2. 构建二进制词向量$P_i$并归一化: $$V_{i}={\frac{P_{i}}{\|P_{i}\|_{2}^{2}}}$$ 3. 计算企业间余弦相似度,形成TBN矩阵$B_t$[37][38] - **因子评价**:TBN因子具有低波动性和基本面关联性,能捕捉行业结构和供应链关系,优于传统相关性矩阵[23][24] --- 模型的回测效果 1. **RL-TBN模型**: - 年化波动率:0.088 - 夏普比率:1.351 - 风险价值(VaR):0.129 - 换手率:未明确数值(但提及考虑20bps交易成本)[4][77][79] 2. **基准模型对比**: - 样本协方差法(Sample):波动率0.186,夏普比率0.805 - TBN固定收缩法(TBN_Half):波动率0.186,夏普比率0.805 - 等权重组合(Naive):波动率未明确,夏普比率低于RL-TBN[77][79] --- 因子的回测效果 1. **TBN因子**: - 预测股票相关性:滞后一期的TBN相似性得分对下一期股票相关性的回归系数为0.349(显著)[106] - 矩阵范数稳定性:TBN的Frobenius范数波动显著低于样本相关性矩阵[100][101] - 经济周期敏感性:高收缩强度($\alpha>0.773$)与低投资者情绪(-0.106)和高宏观经济不确定性(0.938)显著相关[94][95] --- 补充分析 - **面板向量自回归(PVAR)**:验证TBN与股票相关性的动态关系,过渡矩阵显示TBN对相关性有持续影响[109][110] - **脉冲响应分析**:TBN相似性得分每增加1单位,未来股票相关性下降0.133单位(统计显著)[106][110]