强化学习

搜索文档
喝点VC|Greylock解读DeepSeek-R1,掀起AI革命和重构经济秩序
Z Potentials· 2025-03-04 13:33
开源与闭源模型 - DeepSeek-R1 缩小了开源模型与闭源模型的差距 在关键推理基准测试中与 OpenAI 最新模型持平 尽管其规模更小 [2] - 开源模型在质量上已与最先进的闭源模型持平 标志着开源将模型层商品化的转折点 [2] - 开源模型的进步将推动 LLM 市场的竞争 企业将拥有多样化的实用选项 在计算能力、成本和性能之间进行权衡 [2][3] AI 基础设施与开发者使用 - DeepSeek-R1 利用强化学习(RL)提升推理能力 采用广义策略优化强化学习(GRPO)技术 是首个成功大规模实施并取得可测量增益的开源模型 [3] - 强化学习的突破被视为游戏规则的改变者 但当前 AI 工具尚未完全支持这一新范式 [3] - 开源模型的普及消除了“最大最好模型必须封闭”的护城河 企业可以完全掌控前沿模型 [4] 新应用与行业影响 - DeepSeek 增强的推理能力开启新应用浪潮 包括自主 AI 代理、专业规划系统和企业 AI 助手 [5] - 高度监管行业将受益于开源模型 因为企业可以完全控制数据的使用方式和发送目的地 [6] - 数据质量仍是关键优势 特定领域的标注和奖励函数对模型性能至关重要 [6] GenAI 经济学 - DeepSeek 降低了推理和训练成本 改变了 GenAI 部署的经济性 企业将更多地使用 AI 并部署多个特定领域模型 [7] - 开源模型的成本比使用 OpenAI 或 Anthropic 便宜多达 7 倍 解锁了更多经济上不可行的案例 [7] - 生成器的商品化趋势将推动标注技术的进步 包括 RLHF 和奖励函数等方法的优化 [8] 行业展望 - DeepSeek 标志着开源模型首次真正达到与专有替代品竞争的水平 开启了 AI 发展的新时代 [8] - 高质量、特定领域的数据和标注仍是 AI 未来的关键 尽管 DeepSeek 代表了有意义的进展 [8]
日入过万,第一批买到宇树机器人的赚麻了
36氪· 2025-03-04 08:11
宇树机器人市场表现 - 宇树H1和G1人形机器人在京东线上首发售罄,G1起售价9.9万元,H1起售价65万元 [4] - 二手市场G1机器人价格被炒至14万元,溢价超过40% [8] - 租赁市场单台日租金高达5000元至1.5万元,档期紧张出现"一机难求" [5] 产品功能与技术特点 - G1机器人身高127cm,体重35kg,拥有23~43个关节电机,关节最大扭矩120N·m,但AI能力仅限快速建模和行走避障 [9] - 目前G1动作库有限,开发完整舞蹈成本高昂,更多作为展示道具 [10] - 英伟达和卡内基梅隆大学团队基于G1提出ASAP模型,缩小仿真与现实差距,实现流畅全身控制动作 [15][16] - 上海AI实验室联合高校开发的BeamDojo框架使G1能在复杂地形中稳健移动,包括平衡木、梅花桩和20厘米宽踏脚石 [18][19] 应用场景与用户反馈 - 租赁用途覆盖新店开业、广告引流、科技展览、教育科普等多样化商业场景 [7] - 海外用户将G1用于抽象艺术、街头整活和情景喜剧,美国主播Kai Cenat相关视频播放量飙升至400万,账号涨粉10万 [11][12] - 意大利博主Jakidale的G1情景剧视频获89万播放量 [13] 行业影响与未来展望 - 波士顿动力创始人Marc Raibert购入宇树机器人测试性能,称其"相对便宜" [20] - 宇树科技开源G1操作数据集,吸引全球开发者扩展功能 [14] - 公司计划未来将机器人价格降至三四千元,目标进入家庭场景 [21]
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 18:15
强化学习研究发展 - 强化学习作为AI领域重要分支持续创新,在推荐系统、广告竞价等领域展现应用潜力[2][3] - 汪军团队从信息检索转向强化学习研究,成立RL China培养青年人才,推动国内强化学习发展[4][13][46] - 深度强化学习突破始于2013年DQN算法,结合深度学习处理复杂任务[21] 多智能体强化学习突破 - 多智能体强化学习面临三层黑盒挑战(深度学习、环境交互、多智能体博弈),研究难度大[28] - 温颖开发BiCNet用于星际争霸协同作战,比AlphaStar早两年但受限于资源规模[33][34] - 杨耀东首创平均场论RL算法,处理百万级智能体系统,降低计算复杂度[37][38] 产业应用与商业化探索 - MediaGamma公司探索广告期权交易所、需方平台等商业模式,首次实现强化学习在广告实时交易商用化[16][17] - 华为诺亚方舟实验室合作项目探索5G网络控制、自动驾驶仿真等场景[54] - 决策大模型MAT和DB1验证多模态决策潜力,参数量达十亿级但泛化效果待突破[55][56] 学术生态建设与人才培养 - RL China暑期课覆盖30+讲师,累计十万人次观看,推动国内强化学习教育[49][50][52] - 《动手学强化学习》教材销量超2.5万册,配套代码实践解决教学脱节问题[53] - 汪军学生群体形成学术网络,覆盖北大、上交大、中科院等多所机构研究力量[71] 前沿技术融合与AGI探索 - 强化学习与大模型结合成为新方向,团队研究语言智能体统一语义空间[62] - 杨耀东团队复现RLHF对齐技术,布局具身智能领域灵巧手操作研究[67][68] - 因果世界模型、芯片优化等跨学科研究拓展强化学习边界[64][65]
Deepseek背景综述及在金融领域应用场景初探
中邮证券· 2025-02-26 19:07
根据研报内容,以下是量化模型与因子的总结: 量化模型与构建方式 1. **模型名称:DeepSeek-R1** - **模型构建思路**:通过混合专家(MoE)架构与动态路由技术,结合强化学习提升推理能力,实现低成本高性能的模型训练[16][38] - **模型具体构建过程**: 1. 采用MoE架构,通过门控网络动态分配任务给专家模型,实现稀疏激活[28] 2. 引入GRPO(Group Relative Policy Optimization)算法,舍弃Critic模型降低训练成本[31] 3. 使用FP8混合精度训练框架提升计算效率,减少内存占用[36] 4. 通过多令牌预测(MTP)技术增强模型预测能力[34] 5. 结合冷启动数据(高质量长思维链数据)提升训练初期稳定性[42] - **模型评价**:在极低训练成本下实现与主流大模型相当的性能,推理成本仅为GPT-4 Turbo的17%[16][43] 2. **模型名称:DeepSeek-V3** - **模型构建思路**:基于6710亿参数的混合专家模型,优化架构与训练方法以提升开源模型性能[33] - **模型具体构建过程**: 1. 延续DeepSeek-V2的MLA(多头潜在注意力)机制,减少KV缓存数量[25] 2. 扩展MoE架构至更大参数量级,结合动态路由技术[33] 3. 引入FP8混合精度训练框架[36] 3. **模型名称:DeepSeek-V2** - **模型构建思路**:设计经济高效的混合专家语言模型,平衡性能与成本[23] - **模型具体构建过程**: 1. 创新提出MLA(Multi-head Latent Attention)替代传统MHA,降低KV缓存[25] 2. 采用MoE架构实现模型容量扩展[28] 3. 使用GRPO算法优化强化学习流程[31] 4. **模型名称:DeepSeek LLM** - **模型构建思路**:基于扩展法则(Scaling Laws)研究模型规模、数据与计算资源的优化分配[21] - **模型具体构建过程**: 1. 通过小规模实验预测大规模模型性能,指导资源分配[22] 2. 验证高质量数据对模型扩展的倾斜效应[22] 量化因子与构建方式 (注:研报中未明确提及传统量化因子,主要聚焦AI模型技术) 模型的回测效果 1. **DeepSeek-R1** - 推理成本:GPT-4 Turbo的17%[16] - 训练成本:显著低于传统大模型(未披露具体数值)[43] - 日活跃用户:上线10天突破2000万[15] 2. **DeepSeek-V3** - 参数量:6710亿[33] - 支持FP8混合精度训练[36] 3. **DeepSeek-V2** - MLA机制:KV缓存减少50%以上(对比MHA)[25] - MoE架构:激活参数量仅为全模型的1/4[28] 关键公式与技术 1. **扩展法则(Scaling Laws)** $$ \text{模型性能} = f(\text{模型规模}, \text{数据规模}, \text{计算资源}) $$ 指导资源分配时需优先考虑数据质量[21][22] 2. **GRPO算法** 舍弃Critic模型,通过群体分数估计基线: $$ \text{优势函数} = \text{奖励值} - \text{群体基线} $$ 降低RL训练成本[31] 3. **多令牌预测(MTP)** 同时预测未来多个令牌: $$ P(y_{t+1}, y_{t+2}, ..., y_{t+k} | x) $$ 增强训练信号密度[34] 4. **FP8混合精度框架** 将部分计算精度降至8位浮点,内存占用仅为FP32的1/4[36]
晚点播客丨硅谷怎么看 DeepSeek?与 FusionFund 张璐聊开源、Agent 和除了 AI
晚点LatePost· 2025-02-13 21:01
开源生态与AI模型发展 - DeepSeek发布开源推理模型R1,以较低成本在部分Benchmark上比肩甚至超越闭源模型o1,引发全球讨论[7] - DeepSeek的成功被视为开源生态的胜利,其创新建立在开源社区积累的基础上,同时推动了无监督强化学习和合成数据应用[11][12] - 开源生态有利于初创企业,促进多样性创新,而闭源更有利于大企业[13] DeepSeek的影响与行业反应 - DeepSeek改变了国际对中国AI公司的认知,展示底层架构创新能力而非仅工程优化[14] - AMD宣布与DeepSeek合作,但开源模型降低行业使用门槛可能长期增加算力需求而非利空英伟达[8][15] - Meta面临压力,其Llama架构受益于DeepSeek的结构探索,但品牌公关层面受到挑战[16] 闭源模型与开源模型的竞争 - OpenAI和Anthropic仍为行业Benchmark,但开源模型追赶速度超预期[16] - xAI凭借特斯拉和SpaceX的3D产业数据优势,内部迭代速度惊人[17] - 开源生态的多样性可能催生新架构,使AI模型在CPU上高效运行,改变芯片市场格局[19] Agent应用与行业机会 - OpenAI的Operator和Anthropic的Computer Use展示了智能体应用的潜力,但当前速度慢且存在信息编造问题[21] - Agent应用在医疗、金融、保险、太空科技等领域有垂直机会,与传统RPA的区别在于交互革新[24][23] - 用户对AI的信任度高于人类服务提供者,尤其在隐私信息分享方面,年轻一代行为模式变化显著[25] 中美AI投资差异 - 美国生态中巨头聚焦基础模型,初创企业在应用层与巨头形成协同,垂直领域受监管行业更倾向与初创合作[26][27] - 国内投资人担忧单一环节公司易受巨头挤压,而美国初创企业在高度监管行业有更多合作机会[26] 非AI领域的热点方向 - BioTech方向从延长寿命转向提升生命质量,AI加速医疗技术创新如数字化诊断和治疗[28] - SpaceTech因SpaceX降低发射成本,未来3-5年可能迎来爆发,洛杉矶形成太空科技聚集地[28][30] - 美国创新核心分布在硅谷、波士顿、纽约、奥斯汀和洛杉矶[30]
AI 月报:10 亿美元训练不出 GPT-5;低成本中国开源大模型走红;AI 幻觉不全是坏处
晚点LatePost· 2025-01-07 22:59
技术进展 - OpenAI训练GPT-5遇阻,已投入20个月和至少10亿美元算力成本,但性能提升未达预期,两次从头训练均未突破博士生水平目标[4] - 数据短缺迫使OpenAI采用人工生成数据(工程师/科学家每日5000字)和模型生成数据(o1模型)补充,但规模仍远低于GPT-4的10万亿字训练量[5] - o3模型在CodeForces编程竞赛得分比o1提升44%,数学测试EpochAI解决25.2%问题(其他模型<2%),但AGI评测得分因数据预训练存在争议[7][9] - 强化学习重要性提升,OpenAI推出RFT微调方法,LangChain报告显示人类反馈强化学习应用增长18倍[5][9] - 世界模型取得突破:DeepMind的Genie 2生成可交互虚拟场景,李飞飞团队实现AI图片转3D场景,CMU/英伟达开源机器人模拟系统Genesis[14] 行业竞争 - Google Gemini 2.0 Flash系列模型抢占Chatbot Arena前三,OpenAI首次失去榜首地位[18][21] - 中国开源模型崛起:DeepSeek-V3以578万美元训练成本逼近GPT-4o性能,Qwen2.5-plus超越Meta Llama 3.1[23][26] - 芯片领域博通市值破万亿美元,2024年AI收入增长220%至122亿美元,为Google/Meta等提供自研芯片方案[29] - 英伟达推出B300 GPU适配o系列模型,算力/显存提升50%,xAI计划将H100算力中心从10万张扩展至100万张[33][34] 应用与商业化 - OpenAI推出12项ChatGPT升级:订阅费最高2000美元/月,集成Sora视频生成、电话交互、生产力工具插件等功能[36] - Agent成为新趋势,Google Gemini 2.0专为Agent优化,YC预测其市场规模将比SaaS大10倍[12][13] - 大模型嵌入传统行业:Salesforce招聘2000人推广AI Agent,微软Phi-4模型(140亿参数)性能超越更大模型[38][12] - AI硬件进展:Meta计划为Ray-Ban眼镜增加屏幕,OpenAI重组机器人团队,中国预计2025年出现"百镜大战"[40] 投融资动态 - 21家AI公司获超5000万美元融资:中国智谱AI获30亿元(估值200亿元),阶跃星辰聚焦多模态模型,Liquid AI开发新型神经网络架构[42][43] - 基础设施领域Databricks融资86亿美元(估值620亿美元),Tenstorrent获7亿美元开发RISC-V架构AI芯片[44] - 应用层公司多成立于ChatGPT前:Zest AI(金融风控)、Tractian(工业设备监测)、Speak(语言学习)等获大额融资[46][47][48] 科学价值 - 大模型"幻觉"被科学家重新定义:加速抗生素研发(MIT)、生成全新蛋白质(诺奖得主Baker实验室获100项专利)[50][51]
晚点独家丨月之暗面探索 o1,跟字节抢来华为刘征瀛
晚点LatePost· 2024-11-28 22:57
月之暗面技术动态 - 月之暗面发布新数学模型k0-math 创始人杨植麟在发布会上23次提到强化学习 17次提到推理 7次提到o1模型[2] - k0-math测评评分与OpenAI的o1模型对比 两者均采用强化学习和思维链技术[3] - 公司半年前已开始研发k0-math 内部代号"胖胖" 年初将"多阶段推理"纳入年度规划[5] 技术团队建设 - 引入华为诺亚方舟实验室原AI研究员刘征瀛 带队探索o1方向 刘曾拒绝字节跳动邀请[3][4] - 刘征瀛专业背景为北大物理数学双学位 巴黎萨克雷大学AutoML博士 专注AI for Math领域[5] - 公司现有100多人 技术团队包括Transformer专家苏剑林 微软亚研院多模态专家谭旭等[6] - 创始人杨植麟发表过XLNet等重磅论文 联合创始人周昕宇有单篇引用超9000次的CNN论文[6] 模型能力进展 - 10月推出Kimi探索版 实现多步思考和深度检索功能[6] - 杨植麟认为o1模型代表范式转换 从Next-Token Prediction转向强化学习Scaling[3] 行业竞争态势 - 大模型竞争焦点从算法技术扩展到产品设计 投放效率 留存转化等综合能力[6] - 字节跳动等大公司在商业化资源和经验方面具有优势[6]
灵初智能获高瓴、蓝驰领投天使轮融资,志在挑战具身领域的「不可达三角」
IPO早知道· 2024-11-13 09:57
强化学习开启具身智能初纪元。 本文为IPO早知道原创 作者|Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,灵初智能日前完成天使轮融资,本轮融资由高瓴创投(GL Ventures)和蓝驰创 投(Lanchi Ventures)领投。 本轮融资完成后,灵初智能将继续推进基于强化学习算法的机器人技能集训练、场景化的数据生成及 采集、端到端解决方案的研发及落地,打造业界领先的通用灵巧操作智能体。 灵初智能创始人王启斌博士在手机、智能音箱、机器人领域有近20年的成功操盘经验,多次实现产 品从定义、开发、到上市、再到全球化0-1-N的产业闭环,是一名深谙机器人商业化落地的"老兵" 。联合创始人柴晓杰博士,在机器人及无人驾驶领域从业15年,擅长算法、仿真、工程、全栈技 术,有L4产品落地的数据闭环经验,是量产经验丰富的研发专家。 此外, 灵初智能还被称为"科学家密度最高"的具身智能公司 。灵初与北京大学成立北大-灵初智能 具身灵巧操作联合实验室,由人工智能研究院杨耀东博士担任首席科学家开展横向课题合作。杨耀东 博士是强化学习领域的知名青年学者,他博士毕业于UCL, 是现代深度强化学习的发源地 ...
晚点播客丨OpenAI o1 如何延续 Scaling Law,与硅基流动袁进辉聊 o1 新范式
晚点LatePost· 2024-09-20 23:22
OpenAI新模型o1的技术突破 - o1通过强化学习、思维链(CoT)和推理阶段算力分配(test-time compute)三大技术方法显著提升逻辑推理能力,尤其在科学、数学和编程任务上表现突出[3][8][9] - 模型在推理阶段采用"系统2"式多步反思机制,平均需调用10次单模型推理,算力消耗增至10倍[19][24] - 技术组合验证了推理端算力投入的边际收益,开辟新优化方向,可能推动行业从单纯追求训练规模转向训练-推理协同优化[20][22] 行业应用与开发者生态 - AI应用开发呈现"草根化"趋势,个人开发者和小微企业占比提升,典型场景包括教育玩具、编程辅助、遗嘱撰写等垂直领域[40][41][42] - 开源模型加速应用创新,国内开发者主要调用通义千问(Qwen)、DeepSeek和GLM-4,其中Qwen因版本齐全受青睐,DeepSeek以编程能力见长[45] - 应用爆发呈现"巷战"特征,大量小型AI功能嵌入钉钉等工作流,日调用量达数亿tokens,但尚未形成超级应用[46][47][48] 算力市场与公司战略调整 - 国内GPU算力价格下降,主因基础模型训练需求减少和电力成本优势,但超大规模训练集群仍稀缺[38][39] - Meta等开源策略改变行业格局,多数公司转向基于开源模型开发,仅资源充沛或AGI目标明确的公司继续自研基础模型[36][37] - o1推动推理优化基础设施需求,硅基流动等公司探索并行推理、依赖关系优化等技术降低计算延迟[34] 技术演进与竞争格局 - 模型架构可能出现"小推理核心+大知识库"的分化设计,专业化场景采用参数更少的推理模块[26][29] - 苹果Siri、微信等现有入口产品在整合AI能力上具优势,但尚未出现原生AI超级应用[49][51] - 技术扩散速度加快导致先发优势窗口期缩短,企业需在效果优化与商业化节奏间寻找平衡[37][52]
OpenAI 再次给大模型 “泡沫” 续命
晚点LatePost· 2024-09-13 23:58
OpenAI o1模型发布 - OpenAI发布新型推理模型o1系列,包括o1-preview和o1-mini,性能在数学、编程等领域大幅超越GPT-4o [3][5][7] - o1采用强化学习和思维链技术,通过自我纠偏和分步推理提升逻辑能力,解题时处理字符量达6632个,是GPT-4o的4.2倍 [8][9][19][25] - 模型响应时间显著延长,o1-preview回答简单问题需32秒,是GPT-4o的10倍,且目前功能受限,开发者API调用被限制为每分钟20次 [25][29] 技术路径革新 - o1突破传统Scaling Laws瓶颈,通过增加"答题时思考"的算力分配(test-time compute)实现性能跃升,AIME数学竞赛得分达GPT-4o的4倍 [5][19][26][27] - 训练数据来源扩展至三类:公开数据集、合作伙伴专有数据和内部定制数据,研发团队规模与GPT-4o相当(212人) [21] - 模型架构可能向"推理核心+知识存储"方向演进,OpenAI暗示将把o1技术整合至下一代GPT模型 [27][29] 行业影响 - o1发布刺激英伟达股价两天累计上涨10%,缓解市场对AI进步停滞的担忧,此前英伟达市值从6月高点已下跌20% [3][4][29] - 红杉研究显示AI领域2023年投入产出差达1200亿美元,2024年可能扩大至5000亿美元,除英伟达外多数公司未实现收入大幅增长 [4] - 中国部分科技公司已暂缓基础模型训练转向应用开发,o1发布可能重启算力竞赛,OpenAI借此时机以1500亿美元估值寻求70亿美元融资 [4][6][30] 产品特性对比 - o1在数学/编程测试中表现突出:Codeforces编程竞赛成绩超GPT-4o 5.6倍,但语言创作能力弱于GPT-4o [19][22][24] - 相比GPT-4o,o1系列暂缺网页浏览、文件处理等功能,付费用户使用频次受限(每周30次o1-preview) [25][29] - 下一代o1模型在物理/化学等学科测试表现预计达到博士生水平,当前模型相当于硕士生水平 [21]