Workflow
强化学习
icon
搜索文档
0产品估值100亿美元!前OpenAI CTO的“明星创业项目”:要做“企业定制AI模型”
华尔街见闻· 2025-06-24 16:39
公司概况 - OpenAI前首席技术官Mira Murati创立的AI初创企业Thinking Machines Lab(TML)成立不到五个月已完成20亿美元融资,估值达到100亿美元 [1] - 公司目标是通过定制化AI模型助力企业实现收入增长 [1] 商业模式与技术 - TML聚焦于通过强化学习技术开发定制化AI模型,将AI模型与企业追踪的具体KPI挂钩,旨在帮助客户直接提升营收或利润 [2] - 公司采用"RL for businesses"策略,为企业提供更精准的解决方案,可能在客户支持、投资银行或零售等细分市场具备竞争优势 [2] - TML计划通过结合开源模型的特定层级缩短开发周期,采用"模型合并(model merging)"技术整合多个模型的优势,无需额外训练即可快速推出产品 [2] - 公司策略旨在更快进入市场,与现有闭源模型竞争,尽管开源模型性能稍逊,但能力已接近闭源模型 [2] 团队与潜在收购 - TML组建了一支由20多名顶尖研究人员和工程师组成的团队,成员来自OpenAI和Anthropic等领先AI公司,包括OpenAI联合创始人John Schulman等 [3] - 团队实力使TML成为大型科技公司的潜在收购目标,Meta首席执行官扎克伯格曾与Murati讨论投资或收购可能性,但谈判未取得实质进展 [3] - 谷歌云为TML提供英伟达驱动的服务器租赁服务,可能促使谷歌进一步投资,类似十多年前DeepMind被谷歌收购的模式 [3] 市场竞争与挑战 - 市场上已有其他AI初创企业(如Scale AI和Turing)涉足定制化AI咨询服务,为特定行业或企业开发专属模型 [4] - 咨询服务的规模化难度较大,利润率和增长速度可能受限,TML也在探索开发其他AI应用或软件以提供更高利润空间 [4] - 公司计划推出面向消费者的产品,具体形式尚未明确,曾考虑开发与OpenAI的ChatGPT竞争的聊天机器人 [5]
强化学习新发现:无需数学样本,仅游戏训练AI推理大增
机器之心· 2025-06-24 14:46
研究团队与背景 - 第一作者谢云飞是莱斯大学博士生,导师为通讯作者魏晨教授,研究方向包括多模态生成与理解 [1] - Project Leader 肖俊飞是约翰斯・霍普金斯大学博士生,导师为 Bloomberg Distinguished Professor Alan Yuille [2] - 第二作者马崟淞是约翰斯・霍普金斯大学博士生 [3] - 第三作者兰石懿是英伟达 Research Scientist [4] 核心发现 - 强化学习领域出现颠覆性发现:AI仅通过玩简单游戏(如贪吃蛇)就能显著提升数学推理能力,无需大量数学训练样本 [5] - 研究团队提出ViGaL (Visual Game Learning)方法,在多个主流视觉数学基准测试和MMMU系列基准测试中超越此前在数学等领域数据上训练的强化学习模型 [5] - 论文标题为"Play to Generalize: Learning to Reason Through Game Play",强调不用数学样本,游戏训练在数学基准取得突破 [6] 研究方法与结果 - 使用7B参数的Qwen2.5-VL模型进行训练,仅通过强化学习训练模型玩贪吃蛇和旋转游戏 [11] - 在数学推理基准上平均提升2.9%,在多学科推理基准上平均提升2.0%,超过专门在数学或多学科数据上训练的强化学习方法 [11] - ViGaL在MathVista等数学推理基准上平均提升2.9%,相比之下在高质量数学数据集上进行强化学习的方法仅提升2.4% [15] - 在MMMU系列多学科推理任务上,ViGaL超越在多学科数据上进行RL训练的R1-OneVision-7B模型5.4个百分点 [15] 游戏设计原理 - 贪吃蛇游戏:在10×10网格上训练路径规划、避障决策和空间导航能力,对应数学中的坐标几何和函数图像理解 [18] - 旋转游戏:自主设计的3D空间推理游戏,训练空间几何理解能力,对应角度和长度相关的数学推理问题 [19] - 两款游戏设计哲学互补:贪吃蛇提升2D坐标相关数学表现,旋转游戏更适合角度和长度推理,联合训练效果更佳 [20] 理论依据与意义 - 游戏训练符合认知科学规律,类似儿童通过搭积木、躲猫猫等游戏活动构建抽象思维基础 [16] - 认知科学研究证实游戏常被用作探索人类心智的实验平台,如"四子连珠"游戏研究规划能力 [17] - ViGaL揭示潜在新趋势:当高质量人类数据枯竭时,精心设计的游戏可能为多模态推理能力发展开辟新道路 [22] - 游戏化训练范式优势:成本极低、效果显著、拓展性强、通用性好 [25]
光大证券:L4纯视觉或再掀技术变革 持续关注智驾主题
智通财经· 2025-06-24 11:15
行业前景与渗透率 - 2025E国内城市智驾渗透率拐点显现 2026E及之后将进入高速增长阶段 [1] - L2+市场聚焦10-20万元平价智能化推进 L4市场聚焦Robotaxi商业化规模上量拐点突破 [1] - 2025E全球Robotaxi商业化落地加速 规模上量拐点临近 [1] 技术路径与方法论 - L4核心突破点在于处理长尾场景(系统自动处理vs L2+司机兜底) [2] - 强化学习+世界大模型或为实现L4的核心方法论(L2+以模仿学习为主) [2] - L4落地复杂难度依次为数据(构建世界大模型)、算法(信号机制)、算力+带宽 [2] - VLA+世界大模型为当前智驾行业主流趋势 但L2+与L4在安全冗余性和模型构建难度上存在本质区别 [4] 硬件方案与成本 - 激光雷达技术路径存在延迟性、多传感器融合矛盾、挤占车端算力等弊端 [3] - L4硬件成本增加 技术升级/降本决定商业化上量规模 [3] - 激光雷达vs纯视觉双路并行或从L2+延续至L4 [3] 重点公司推荐 - 推荐L4纯视觉Robotaxi商业化上量的特斯拉、线控转向供应商耐世特(01316) [1] - 推荐小鹏汽车-W(09868) 建议关注理想汽车-W(02015)、蔚来-SW(09866)、小马智行(PONYUS) [1]
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 12:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]
00后投身具身智能创业,剑指机器人界「Model 3」!已推出21个自由度灵巧手
量子位· 2025-06-22 12:46
产品技术 - 灵初智能推出自研灵巧手,每只手21个自由度,支持16主动自由度,具备高精度操作能力,远超常见的6自由度抓取器 [1][2] - 人类一只手27个自由度,特斯拉Optimus Gen-3灵巧手22个自由度,21个自由度意味着机械结构复杂,硬件制造难度高 [3] - 灵巧手在夹持、旋转、精准插拔等精细操作上能力突出,能完成转笔、翻书、调方向等高自由度操作 [1][10] - 公司采用分层端到端快慢脑架构技术路线,快脑S1专注操作,慢脑S2专注推理规划,通过Action Tokenizer隐式连接 [22] - 推出分层端到端VLA+强化学习算法模型Psi-R1,结合历史动作与环境状态,理解动作长期影响,避免误差积累 [22] 团队背景 - 首席科学家杨耀东是北京大学人工智能研究院助理教授,强化学习领域知名学者,曾带领团队获NeurIPS 2022具身灵巧操作冠军 [13] - 联合创始人陈源培师从李飞飞和Karen Liu,曾首次实现强化学习在真实世界同时控制双臂、双手多技能操作 [14] - 团队在机器人领域采用强化学习冷启动训练,解决高自由度训练难度大、开放场景长程任务误差累积、跨任务泛化能力差等挑战 [15][16][17][18][19][20][21] 商业模式 - 目标将机器人整机价格打到10000美元(约71885元)级别,对标特斯拉Model 3定价策略 [3][29] - 自研灵巧手不单卖,采用软硬件深度耦合策略,所有硬件为算法、模型服务,强调系统闭环与数据链条完整性 [26][27] - 整机采用轮式+双手设计,紫色外观,动作系统迭代至Psi-R1,数据逐步积累,任务交付以ToB为主,聚焦3C制造和仓储物流 [4][29][39] 行业对标 - 借鉴特斯拉Model 3产业破局之路,通过降低价格、提升体验推动出货量增长,Model 3累计销量超百万辆 [32][33][34] - 特斯拉硬件+FSD+数据生态一体化构建护城河,灵初智能同样强调可靠硬件平台、一体化软件体验与数据回传机制 [35][36] - 预计2030年硬件成本降至10万元人民币级,单场景出货量突破百万台将触发生态爆发 [37][38]
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心· 2025-06-22 12:26
强化学习技术发展 - 强化学习已成为LLM领域不可或缺的核心技术 覆盖大模型对齐、推理模型训练及智能体强化学习等方向 [1] - Unsloth团队发布强化学习教程 从吃豆人案例切入 系统讲解RLHF、PPO至GRPO的技术演进路径 其开源项目GitHub星数超4万 [2][5] - GRPO(组相对策略优化)由DeepSeek开发 通过移除价值模型、采用多轮采样统计替代传统PPO架构 显著降低显存消耗 [22][25][26] GRPO技术原理 - GRPO核心创新在于用采样答案的Z分数标准化替代价值模型 通过计算8-16次生成结果的平均奖励及标准差生成优势值A [27][28] - 技术优势体现在:支持自定义奖励函数 适用于数学验证/代码执行等场景 显存需求最低仅需5GB(1.5B参数模型) [30][44] - 训练机制采用多答案生成策略(每问题8-16变体) 通过奖励函数动态调整权重 需300-1000训练步数见效 [45][49] 应用场景与案例 - 适用领域包括数学推理(GSM8K数据集)、邮件自动化、法律医学等专业任务 准确率提升依赖可验证的阶段性奖励设计 [30][55][61] - Unsloth提供实战案例:在Qwen3基础模型上实现推理功能 通过邻近度评分、XML标签计数等定制化奖励函数优化输出质量 [62] - 典型奖励函数设计包含关键词匹配(+1)、格式合规性(-1)、答案接近度(梯度奖励)等多维度评估体系 [58][59][60] 实施要点与资源 - 硬件要求:17B参数模型需15GB显存 推荐使用QLoRA 4-bit量化技术降低资源消耗 [44][49] - 关键成功要素包括:500+行训练数据、12小时以上训练时长、基于指令微调的预训练模型(概率非零) [41][49][57] - 学习资源涵盖Nathan Lambert的RLHF专著、Yannic Kilcher视频解析及Unsloth提供的Colab实战笔记本 [63]
VR-Robo:real2sim2real,机器人视觉强化学习导航和运动控制新范式!
具身智能之心· 2025-06-20 08:44
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Shaoting Zhu等 编辑丨具身智能之心 近年来,得益于强化学习与高性能仿真器的结合,足式机器人在自主运动控制方面取得了显著进展。然 而,当这些策略部署到现实世界中时,往往因"仿真到现实(Sim-to-Real)"存在差异而表现不佳。现有方 法难以复现真实场景中的复杂几何和视觉细节,限制了基于视觉感知的高层次任务(如目标导航)的开 展。为解决这一难题,我们提出了VR-Robo:一个面向足式机器人视觉导航与运动控制的"真实-仿真-真实 (Real-to-Sim-to-Real)"统一框架。 作者单位包括清华大学、普林斯顿大学、星海图、上海期智研究院和上海交通大学。 项目主页/代码(现已开源):https://vr-robo.github.io/ 相关工作 以往研究为缩小Sim-to-Real差距做了大量探索。包括: 但这些方法多依赖特定传感器,难以在高保真渲染和真实几何建模之间取得平衡。此外,许多方法仅支持 低层次的运动控制,尚未形成完整的感知-理解-行动闭环。 解决方案 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术 ...
小鹏想要的,不止“留在牌桌上”
虎嗅APP· 2025-06-20 07:55
出品丨虎嗅汽车组 作者丨李赓 头图丨视觉中国 在所有造车新势力中,今年1-5月依旧保持高速增长的只有两家:小鹏和零跑。 两家车企的销量都保持了大幅的提升 (1-5月零跑相比去年同期增长161%,小鹏增长293%) ,今年 一季度的营收也实现了大幅增长 (零跑同比增幅187%,小鹏同比142%) ,净亏损则实现了大幅的 收窄 (零跑净亏损缩小87%,小鹏净亏损缩小52%) 。除去数据上的略微不同,更加不同的是两家 心态的外露。 零跑依旧保持了自己不怎么开发布会不怎么大力做营销的状态 (今年正式发布会也就两场,而且全 是车型更新) ,而去年刚"触底反弹"的小鹏显然更加"珍惜"市场给的又一次机会,在方方面面都选 择了投入到"极点",几乎每个车型都要按着"曝光、预热、预发布、实际发布、会后沟通"的充分流程 走下来,更是在一众车企中罕见地结合产品发布会搞了几次针对实际车主的品牌文化活动。 就拿4月中,上海车展开幕前夕的关键时刻,何小鹏就跑到了香港去,不仅豪横地再次定下了香港启 德邮轮码头的场地 (2021赴港上市,也是这块场地) ,请了近500家中外媒体看新款X9发布。在主 活动之外,小鹏还在香港独立地举办了两场媒体沟 ...
小鹏想要的,不止“留在牌桌上”
虎嗅· 2025-06-20 07:13
销量与财务表现 - 零跑和小鹏1-5月销量同比分别增长161%和293%,一季度营收同比分别增长187%和142%,净亏损分别收窄87%和52% [2] - 两家车企营销策略差异显著:零跑保持低调仅举办两场车型发布会,小鹏则采用高强度营销流程包括多阶段产品发布和车主文化活动 [2][3] 产品策略与市场定位 - 小鹏MONA M03以10万元定价实现销量占比超50%,核心优势为620公里CLTC续航(实际450-500公里)、智能泊车等刚需配置,同时削减非核心功能如后桥扭力梁悬架、热泵空调等控制成本 [7][8][9][10][11] - 产品调整高效:小鹏在6-8个月内完成滴滴C1车型改造,通过用户需求调研优化配置,形成差异化竞争力 [12] 用户画像与营销创新 - MONA M03女性用户占比达38.6%(行业平均21.3%),年轻化(平均28.5岁)和未婚用户(76.5%)特征显著,通过白色内饰等快速响应提升女性占比至50% [18][19][20][21] - 营销活动精准定位:邀请欧阳娜娜等明星强化新手司机视角,打造"MONA小镇"场景化展示,发布会风格年轻化 [23][24][25] 技术研发与自动驾驶 - 小鹏自研"图灵AI芯片"单颗算力超700TOPS,G7搭载3颗实现2200TOPS算力,远超行业主流300TOPS配置,目标验证自动驾驶领域Scaling Law效应 [27][30][31] - 基座大模型采用思维链推理(CoT)技术,已训练720亿参数模型,累计处理2000万条30秒视频数据,结合强化学习实现自动驾驶能力持续进化 [36][40][42] - 实际路测显示复杂场景处理流畅,如无保护左转、多车道变道等,计划通过OTA升级将点对点智驾成功率提升至70% [44][45][47][48] 公司战略与行业竞争 - 小鹏明确"卷科技"路线,避免与传统车企价格战,聚焦智驾和AI技术差异化 [26][27] - 通过引入传统汽车人才优化供应链和成本控制,为技术创新提供支撑,目标建立体系化能力而非依赖单一爆款 [50][51]
羽毛球机器人如何“看得清”“动得准”?(创新汇)
人民日报· 2025-06-20 05:51
机器人技术突破 - 瑞士苏黎世联邦理工学院研发的新型足式机器人系统能够仅凭机载感知设备预测羽毛球飞行轨迹、调整自身位置并精确完成击球动作[2] - 该机器人展示了足式机器人执行复杂、动态、由感知驱动任务的能力,为整合机器人高速感知和全身协调能力提供新思路[2] - 研究团队选择羽毛球作为实验对象,通过设置不同难度击打目标渐进式检验和提升机器人性能[2] 感知与运动协调技术 - 研究团队开发感知噪声模型量化机器人运动状态对目标追踪影响,使机器人能适应动态模糊、目标遮挡等干扰[3] - 机器人可基于历史运动轨迹持续预测目标位置,并主动调整身体俯仰角度优化追踪效果[3] - 通过基于强化学习的统一控制框架,同步协调机器人周身18个关节运动,自主调整步态和击球方式[3] 性能表现与改进方向 - 机器人在测试条件下可与人类对手进行10次连续对打,对球场中心区域的球达到近100%拦截成功率[3] - 目前机器人从发现击球到挥拍动作平均需约0.35秒,感知和反应能力仍有提升空间[4] - 计划通过集成更多传感器、融合多种传感模式并优化视觉算法进一步升级性能[4] 应用前景与行业影响 - 该技术未来可应用于灾难响应、人机协作等需要快速响应和全身协调的复杂场景[4] - 足式机器人具有更强通用性,能适应更广泛应用场景,与人工智能技术融合将具备强大感知和操作功能[5] - 随着技术进步和成本下降,足式机器人将在工业、休闲娱乐、居家生活、养老照护等领域获得广泛应用[5]