强化学习
搜索文档
智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了
量子位· 2026-01-10 11:07
文章核心观点 - 提出了一种名为SmartSnap的新型强化学习训练方法,旨在解决GUI智能体任务完成度难以验证的挑战 [6] - 该方法的核心思想是将智能体从被动执行者转变为主动自证者,使其在执行任务时主动收集并提交“证据快照集”作为任务完成的证明 [7][8] - 该方法通过强化学习训练,引导智能体在保证任务成功率的同时,提升所提交证据的质量,从而简化验证流程,并显著提升智能体在复杂任务上的性能 [6][14] 现有智能体验证机制的挑战 - 当前LLM/VLM驱动的智能体在完成任务后,其完成度难以评估 [2] - 传统的被动验证方法依赖庞大的监督系统,包括手工设计的复杂校验机制和轨迹级验证方法 [4] - 这些方法效率较低,难以泛化到新任务;冗长且带噪的轨迹会干扰LLM/VLM评判的可靠性;且依赖持续可观测的环境反馈,易因环境变化导致验证失败 [5][6] SmartSnap方法的三大核心突破 - **角色升级:双重使命的“自证代理”**:智能体不仅负责执行任务,还承担了自我验证的第二使命,会主动思考并收集证明任务完成的证据 [11][12] - **“3C原则”:高效率的证据美学**:为证据收集制定了完整性、简洁性、创造性三项原则,确保证据足以证明任务闭环,且只包含关键快照,必要时会执行额外操作以获取证据 [13][15] - **强化学习驱动:GRPO+内在奖励反馈**:利用GRPO算法和精心设计的奖励机制进行训练,在保证任务成功率的同时提升证据质量,并尽可能减少奖励黑客行为 [13][14] 性能表现与数据 - **性能显著提升**:在AndroidLab等复杂任务上,经过SmartSnap RL训练的不同规模模型均实现了显著的性能提升,最高提升达**26.08%** [16][17] - **具体模型表现**: - **LLaMA3.1-8B-Instruct模型**:经过RL训练后,任务成功率从基线的**5.07%** 提升至**31.15%**,提升**26.08%** [16] - **Qwen3-8B-Instruct模型**:经过RL训练后,任务成功率从基线的**10.14%** 提升至**36.23%**,提升**26.08%** [16] - **Qwen3-32B-Instruct模型**:经过RL训练后,任务成功率从基线的**18.12%** 提升至**34.78%**,提升**16.66%** [16] - **“以小博大”效应**:经过训练的中等参数模型(如Qwen3-32B),其表现可持平DeepSeek-V3、Qwen3-235B等更大规模的开源模型 [17] - **举证高效**:平均每个任务只需提交**1.5张**快照证据,极大降低了后端验证成本 [18] - **交互高效**:训练后智能体交互轮数不断减少 [18] 方法的价值与意义 - **简化RL训练准备**:在手机、OS等时效性强的操作环境中,传统外部验证器难以捕捉瞬时成功信号,SmartSnap让智能体自己边做边收集证据,无需预先撰写复杂校验脚本或全程监控轨迹,从而简化了训练准备工作 [19] - **便于拓展训练场景**:允许基于合成任务轻松拓展训练场景,并依据有限的证据链判断成功与否,使RL训练更加便捷 [20] - **推动AI发展**:标志着GUI智能体从“蛮力执行”走向“认知协同”,其主动寻找证据的能力提升了AI的可靠性,为未来大规模、低成本AI部署铺平道路 [21]
斯坦福最新的全身运控方案,跨地形泛化!
具身智能之心· 2026-01-09 08:55
研究背景与核心挑战 - 传统类人机器人移动方法主要聚焦于腿部步态,但自然双足动物(包括人类)在复杂环境中会主动利用手、膝盖、肘部等肢体建立额外接触点,以增强稳定性和支撑力 [2] - 在低间隙椅子下方、及膝高度的墙壁/平台、陡峭楼梯等场景中,仅依赖脚部移动要么不可行,要么需要剧烈动作,而全身协同的爬行、攀爬等策略能更高效地克服障碍 [2] - 当前类人机器人全身移动面临两大核心挑战:一是复杂环境导航需解决“接触丰富”的运动规划与鲁棒控制问题,即如何协调多肢体接触以维持平衡;二是不同地形需要完全不同的运动技能,需实现技能的灵活切换与跨场景泛化 [3][5] 核心方法 - 斯坦福大学研究团队提出一套融合物理接地关键帧动画与强化学习的分层框架,通过九种核心运动技能的链结,实现机器人在极端复杂地形中的稳定移动 [3] - 系统核心架构包含四大组件,形成“关键帧生成→策略训练→技能选择→分层执行”的完整闭环 [4] - **物理接地关键帧运动生成**:采用基于MuJoCo物理引擎的GUI工具,允许用户交互式指定机器人姿态、执行顺序与到达时间,再通过线性插值生成完整轨迹,工具内置功能可快速验证单关键帧的静态稳定性与全轨迹的平滑性 [7] - **运动跟踪策略**:将策略分为移动技能、过渡技能和地形技能三类,所有策略均训练为以四种标准姿态(站立、爬行、俯卧、仰卧)启动和结束,确保技能间无缝过渡,采用PPO算法训练,并引入大量领域随机化以保障仿真到真实环境的零样本迁移 [9][10] - **视觉技能分类器**:实现基于环境感知的自主技能选择,核心是从深度图中识别适配的运动技能,模型采用ResNet,并通过TensorRT量化与分辨率下采样实现3.1Hz的实时推理,精度损失极小(像素级MAE从59mm增至62mm) [11][15] - **分层策略执行**:框架分离视觉规划与底层控制,高层视觉规划基于深度图与IMU数据,每3.1Hz输出技能预测;底层控制以50Hz运行的运动跟踪策略快速响应局部扰动;并设有通过IMU检测跌倒并自动触发恢复技能的故障恢复机制 [12][15] 实验验证 - **实验平台与设置**:使用开源类人机器人ToddlerBot(30个自由度)进行测试,测试障碍包括低间隙椅子(53cm高)、及膝平台(25cm高,腿长的44%)、及膝墙壁(25cm高,腿长的48%)、陡峭楼梯(每级16cm高,腿长的16%) [15] - **运动跟踪策略有效性**:实现了零样本仿真到真实迁移成功,机器人能完成钻椅子、翻墙壁、登平台、上下楼梯、跌倒恢复等所有场景,甚至通过几小时关键帧调优新增了“推车退出”技能 [18] - **视觉分类器性能**:在真实测试集上总体准确率达到93.9%,误分类主要发生在技能过渡时刻 [21] - **系统鲁棒性与泛化能力**:地形技能可泛化到设计尺寸外的障碍,例如为12cm墙设计的策略可泛化至9-14cm墙,为11cm平台设计的策略可泛化至8.5-13cm平台;在五种不同障碍顺序的测试中均实现了零样本成功穿越 [23][24] 结论与核心贡献 - 提出“关键帧+强化学习”的混合框架,既利用关键帧编码人类运动知识,又通过强化学习赋予自适应能力,解决了复杂地形的接触丰富型运动规划问题 [28] - 设计分层执行架构,分离视觉规划与底层控制,平衡了决策鲁棒性与扰动响应速度 [28] - 实现了类人机器人在极端复杂地形中的全身移动,验证了零样本仿真到真实的迁移能力,且系统完全开源 [28] - 该方法强调了全身多肢体接触,扩大支持多边形(地面接触点的凸包),从而提升了在复杂地形中的稳定性,与现有主要依赖腿部策略的类人机器人或四足机器人形成对比 [15]
亲身体验后,我们总结了全网首份AI语音输入法红黑榜|锦秋AI实验室
锦秋集· 2026-01-08 22:57
文章核心观点 - 语音输入法的核心价值在于能否将口语准确、忠实地转换为可供信息接收者理解的书面文本,而不仅仅是省事 [1] - 当前AI语音输入法在基础听写准确率上普遍达标,但在会议纪要、中英混输、数字单位、专有名词等复杂场景下表现分化显著,分水岭在于能否“忠实转写”而非“自作聪明”地改写 [36] - 经过5轮7款产品的测评,typeless在综合表现上断层领先,豆包输入法为全能省心型选择,而部分产品在关键场景存在语义级错误的高风险 [37][38] 横评工具与测评方法 - 测评涵盖7款产品:搜狗输入法、智谱输入法、Whisper flow、闪电说、讯飞输入法、豆包输入法、typeless [6] - 测评采用5个真实场景的统一题库,包括日常聊天、会议纪要、中英混输、数字与单位、专有名词 [2] - 测评维度包括文本一致性、局部质量和整体体验,评分标尺为0-5分 [7][11] - 所有工具均采用最新版默认配置,不调参数,不手动修正结果 [11] 各场景测评结果 日常聊天转写(基础准确率) - 第一梯队(几乎可直接发)包括搜狗、讯飞、豆包、typeless、智谱,关键信息转写稳定 [10] - 搜狗、讯飞、豆包更忠实保留“哈/那个/哦对了”等口语词,聊天味浓 [12] - 智谱会轻微“去口语化”,使文本读起来更干净 [13] - typeless在忠实转写基础上会主动进行自动分段和补全标点,提升可读性 [14] 会议纪要(长句与结构化) - 此场景考验长句、多层结构、专有名词和分工列表的准确转写与结构化能力 [16] - 第一梯队为typeless和豆包输入法 [17] - typeless能在忠实转写的基础上,自动将内容整理成编号清晰的会议纪要模板 [19] - 豆包输入法则近乎逐字忠实转写,标点断句自然 [19] - 搜狗、讯飞、闪电说出现明显翻车,如将“不再加了”误转为“不在家了”,导致语义事故 [18][25] 中英混输(技术口述) - 此场景对英文术语、数字状态码、URL、邮箱等硬字段的准确率要求极高,一处错误即可导致指令失效 [21] - 第一梯队为豆包输入法和typeless,核心术语与指令逻辑保持准确 [26] - typeless还能将信息自动结构化成清单,便于技术沟通 [26] - 搜狗输入法出现致命误转,如将“login callback”转写为“logan comeback”,导致整段内容不可用 [26] - 智谱输入法在关键指令顺序上翻车,如将“fix”和“test”的先后顺序转反 [26] 数字、单位与时间 - 此场景对数字、金额、时间、比例等数据的准确性要求极为严格,错误可能导致执行事故 [28] - 第一梯队包括豆包、搜狗、智谱、typeless,关键数字和单位几乎全对 [31] - 搜狗和豆包将“35到45分钟”转写为“35~45”,更符合书面表达 [31] - typeless自动将预算、流程等拆分成清单,适合直接作为通知发布 [31] - 闪电说出现预算级事故,如将“4200”误转为“3200” [31] 专有名词(人名、机构名、品牌名) - 此场景是语音输入法的“照妖镜”,专有名词错误会严重影响文本可信度且难以自动纠正 [33] - typeless表现最佳,RL、Agent、Meta、斯坦福、Pokee AI、朱哲清等专有名词几乎全部准确,标点段落舒适,可直接作为引用稿 [37] - 智谱输入法整体准确,主要瑕疵为公司名拼写(如Pokee→poke) [37] - 豆包输入法出现人名同音错字(朱哲清→朱泽清)和品牌名漂移(Pokee→Poky) [37] - 搜狗、闪电说、Whisper flow、讯飞错误较多,如将RL听成url、概念听成数字(“期望回报”→“7万回报”),导致专业感丧失 [37] 产品总结与定位 - **typeless**:被定位为“纪要型天花板”,结构化、排版和长句稳定性强,会议纪要、通知等场景几乎可直接使用,但对链接、邮箱等硬字段偶尔会进行智能补全,需核对 [40] - **豆包输入法**:被视作“全能型助手”,整体最忠实于原话,会议纪要、数字、技术口述等场景稳定,断句自然,是省心的全场景选择 [38][40] - **智谱输入法**:在聊天场景会轻微优化口语,使文本更干净,多数轮次稳定,但技术口述中可能出现指令顺序错误,适合表达整理而非严格记录 [40] - **讯飞输入法**:基础听写可靠,但格式感一般,在会议纪要和中英混输场景下编号、大小写、字段格式容易混乱,适合随手记 [40] - **Whisper flow**:排版和结构化能力突出,但专有名词和技术词汇错误密集,甚至出现语义级误听,属于格式满分但内容需严格校对的类型 [40] - **搜狗输入法**:日常聊天和数字场景表现优秀,口语保留自然,但专业场景易出现语义事故级错误,适合聊天而非记录 [40] - **闪电说**:多轮出现关键否定句翻转、预算数字错误、技术字段乱码,不推荐用于任何高风险场景 [40]
当我们把端到端量产需要的能力展开后......
自动驾驶之心· 2026-01-08 17:07
自动驾驶端到端技术趋势与行业现状 - 端到端是当前自动驾驶行业最受欢迎的职位方向 [1] - 地平线HSD的成功促使行业重新审视一段式端到端架构的重要性 该架构使车辆能直接感知环境并生成动作序列 极大降低系统复杂度以应对更复杂场景 [2] - 纯模仿学习的端到端本质是复制数据分布 在实际落地中面临轨迹不稳定等问题 核心原因在于模型缺乏基于环境反馈的持续修正能力 [3][5] 端到端技术演进与解决方案 - 强化学习为端到端提供了从模仿走向优化的关键机制 通过引入奖励或价值信号对动作策略进行闭环优化 弥补模仿学习在分布外状态和误差累积上的不足 [4] - 行业头部公司已形成完整的模型迭代思路:模仿学习训练→闭环强化学习→规则兜底 并涉及导航信息引入 [6] - 量产落地面临诸多挑战 包括拥堵加塞、静态偏航、碰撞等复杂场景的数据挖掘与清洗问题 端到端是一个系统性问题而非单点技巧 [8] 端到端人才市场与课程内容 - 行业人才壁垒高导致薪资水平显著提升 五年以上的头部人才薪资在100万人民币起步且上不封顶 [7] - 大量从业者仅有论文基础 缺乏量产落地的系统经验 解决实际场景的能力较弱 [8] - 相关实战课程涵盖从任务概述、两段式与一段式算法框架、导航信息应用、强化学习算法到轨迹输出优化与时空联合规划兜底方案的全流程 并分享量产经验 [12][14][15][16][17][18][19][20][21] - 课程面向进阶学员 建议具备自动驾驶BEV感知、视觉Transformer、强化学习、扩散模型等算法基础 以及Python、PyTorch和MMDet3D框架的实践能力 并自备算力在4090及以上的GPU [22][23][25]
随到随学!端到端与VLA自动驾驶小班课(视频+答疑)
自动驾驶之心· 2026-01-08 13:58
课程核心定位与目标 - 课程为端到端与VLA自动驾驶进阶实战教程,旨在推动端到端技术在工业界落地,助力学员理解端到端自动驾驶 [8] - 课程联合工业界专家开设,内容涵盖学术界与工业界最前沿的技术栈,包括BEV感知、视觉语言模型、扩散模型、强化学习等 [1] - 课程目标是使学员学完后能达到约1年经验的端到端自动驾驶算法工程师水平,掌握技术框架并能够复现主流算法 [13] 课程内容架构 - **第一章:端到端算法介绍** 概述端到端自动驾驶发展历史、概念起源、从模块化到端到端的演进,并分析一段式、二段式及VLA范式的优缺点与适用场景 [4] - **第二章:端到端的背景知识** 作为课程重点,详细讲解VLA涉及的大语言模型、扩散模型及强化学习,以及一段式端到端涉及的BEV感知,为后续学习奠定基础 [4][9] - **第三章:二段式端到端** 聚焦二段式端到端,解析其定义与出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,对比其与一段式端到端的优缺点 [5] - **第四章:一段式端到端与VLA** 作为课程精华部分,涵盖基于感知、世界模型、扩散模型及VLA的一段式端到端子领域,探讨各方法如何解决端到端终极目标 [6] - **第五章:课程大作业 - RLHF微调** 提供RLHF微调实战,涉及预训练与强化学习模块搭建及实验,该技术可迁移至VLA相关算法,具有良好延展性 [7] 关键技术深度解析 - **BEV感知** 讲解其基础知识,以及如何基于BEV实现自动驾驶核心感知任务,如3D检测、车道线识别、OCC及轨迹预测与规划 [9] - **扩散模型** 讲解其理论知识,并指出基于扩散模型输出多模轨迹是当前学术界与工业界热点,多家公司正尝试落地 [9] - **视觉大语言模型与强化学习** 讲解VLM相关的强化学习技术,包括RLHF及其在VLM训练中的作用,以及上半年热门技术GRPO [9] - **一段式端到端细分领域** 详细讲解基于感知的方法(如UniAD、地平线VAD、CVPR'24的PARA-Drive)、基于世界模型的方法(如AAAI'25的Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(如DiffusionDrive、Diffusion Planner、DiffE2E)以及基于VLA的方法(如小米ORION、慕尼黑工大OpenDriveVLA、ReCogDrive) [10] 课程实战与前沿应用 - 课程包含配套实战,例如在扩散模型小节配套讲解Diffusion Planner实战,在VLA小节选择小米ORION作为实战,该开源项目截至2025年7月已开放推理与评测模块 [10] - 世界模型被强调为近两年非常热的技术方向,因其应用广泛,可用于场景生成、端到端驾驶及闭环仿真 [10] - VLA被视为目前端到端自动驾驶的皇冠,上限高且难度大,因此行业招聘需求旺盛,代表了新一代自动驾驶量产方案的预研方向 [10] 讲师资质与课程特色 - 讲师Jason拥有C9本科与QS50博士学历,已发表2篇CCF-A论文及若干CCF-B论文,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研与量产,并主持完成多项自动驾驶感知与端到端算法的产品量产交付 [2] - 课程内容基本为工业界和学术界的Baseline,兼顾经典工作与最新前沿进展 [1] - 课程为小班课,随到随学,提供视频与答疑服务 [1] 学员收获与面向人群 - 学员将掌握端到端技术框架,涵盖一段式、两段式、世界模型、扩散模型等方法 [13] - 学员将对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻了解,并可复现扩散模型、VLA等主流算法框架 [13] - 学员能够将所学应用到项目中,真正搞懂如何设计自己的端到端模型,并可在实习、校招、社招中受益 [13] - 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并具备概率论、线性代数及Python、PyTorch语言基础的学员,学习需自备GPU,推荐算力在4090及以上 [11] 行业趋势与技能需求 - 端到端自动驾驶是学术界与工业界的前沿方向,VLA范式是目前发展的焦点 [1][10] - 第二章所涉及的背景知识被总结为未来两年求职面试频率最高的技术关键词 [5] - 基于扩散模型输出多模轨迹能更好地适应自动驾驶不确定的环境,是当前热点 [10]
人工智能测评初创企业LMArena新一轮融资后估值达17亿美元
新浪财经· 2026-01-07 17:30
融资与估值 - 在新一轮融资中筹集到1.5亿美元资金,投后估值达到17亿美元 [2][8] - 本轮投后估值较2025年5月披露的种子轮融资估值增长了近两倍 [2][8] - 本轮融资由现有投资方菲利斯资本以及加州大学投资部门联合领投,安德森・霍洛维茨基金、众议院基金等多家知名机构参与 [2][6][11] - 至此,LMArena的融资总额已突破2.5亿美元 [6][11] 业务模式与运营数据 - 公司核心业务是人工智能模型性能测评与排名,通过网站让用户对模型进行两两对比评分 [2][3][9] - 每月有数百万人访问其网站,在全球150个国家和地区拥有超500万月活跃用户 [2][9] - 测评客户涵盖OpenAI、谷歌、xAI、微软等行业巨头 [2][8] - 平台汇总评分结果,形成涵盖代码生成、图像生成、视频生成等多个类别的模型排行榜 [3][9] - 有时会在模型正式发布前提前接入平台供用户测评,以帮助开发商获取早期反馈 [3][9] 财务与增长指标 - 2025年9月,公司年化营收规模为数百万美元 [2][8] - 公司估算,按照近期客户使用量推算的“年化消费营收额”已于上月突破3000万美元 [2][8] 发展历程与团队背景 - 公司脱胎于近三年前启动的一个名为“聊天机器人竞技场”的开源项目 [5][10] - 项目早期资金完全来自科研资助与社会捐赠,直至2025年5月才正式转型为营利性企业 [5][10] - 联合创始人包括加州大学伯克利分校计算机科学教授、Databricks联合创始人扬・斯托伊卡,以及伯克利分校研究生阿纳斯塔西奥斯・安杰洛普洛斯和江伟霖 [5][10] 行业地位与竞争 - 随着AI模型性能差距缩小,模型开发商开始将产品在LMArena上的排名作为对外宣传的重要亮点 [3][9] - 公司首席执行官表示,头部AI实验室选择与其合作是因为他们很难自行判断旗下模型的优劣水平 [3][9] - 部分竞争对手(如Scale AI)采用聘请律师、教授等专业人士进行评估的模式,与LMArena的大众测评模式形成对比 [3][9] 战略与未来规划 - 本轮融资所筹资金将用于为公司AI模型测评业务购置算力资源,以及招募技术人才 [2][8] - 公司正考虑拓展业务边界,计划利用平台积累的数据,通过强化学习技术训练AI模型 [5][11] - 向强化学习相关服务领域拓展,或将帮助公司持续贴合客户的核心需求 [5][11] - 领投方认为,其核心价值在于与AI实验室建立深度合作,将实验室内部数据与平台的外部对比数据相结合 [6][11] 方法论争议与公司回应 - 部分模型开发商质疑其依靠无偿互联网用户提供反馈的测评模式,认为其容易被人为操纵且无法反映专家意见 [3][9] - 公司回应称,普通用户在评判与自身相关的问题时往往具备更精准的判断力,且不支付报酬的模式能获取更真实客观的反馈 [4][10] - 联合创始人扬・斯托伊卡表示,最高质量的测评“黄金标准”往往来自人们对自己熟悉领域的评价 [5][10]
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
量子位· 2026-01-07 13:17
行业趋势:大模型竞争焦点转向后训练 - 大模型竞争的下半场焦点已从“暴力预训练”转向“后训练”战场[1] - 决定模型天花板的因素不再只是算力堆砌,而是更精准的微调和强化学习迭代[2] - 强化学习在低数据量下即可实现模型能力大幅跃升,例如DeepSeek-R1仅通过RL训练,在AIME数学推理基准上的pass@1从15.6%提升至77.9%[7] 核心痛点:后训练面临的高门槛 - 复杂的分布式基建、高昂的显卡租金和繁琐的架构调优构成了高墙,阻碍算法工程师进行后训练[3] - 强化学习涉及复杂的系统设计,包括多模型优化、数据与权重传递,工程化工作对基础设施要求极高[9] 解决方案:潞晨云微调SDK - 公司推出国内首个全面开放、兼容Tinker范式的Serverless微调平台[5] - 核心目标是提供一套更具成本优势的工业级解法,以应对复杂且昂贵的强化学习[6] - 核心思路是实现算法设计与底层算力架构的解耦,开发者只需定义数据与损失函数,底层基础设施实现全托管与无感支持[10] 产品优势:易用性与人力效能 - 产品兼容Tinker接口,在零代码微调与裸机全手写之间找到平衡点,提供“训练即服务”的流畅体验[11] - 将大模型训练拆解为一组标准函数原语,打通从监督微调到强化学习的全链路[14] - 颠覆性提升人力效能比,将原本需要庞大团队配合的工作简化为一名算法工程师的独立闭环[12][16] - 用户可在本地IDE中使用标准Python语法自由组合训练逻辑,成为驾驭大规模训练流的主动设计师[16][17] 技术架构:实现丝滑体验 - 采用控制面与计算面分离设计,通过统一API Server管理跨地域的多个GPU计算集群,实现多云部署能力[22] - 核心采用基于Future模式的异步API,所有训练操作支持非阻塞调用,用户无需等待GPU计算完成[23] - 具备智能队列系统,资源洪峰期任务进入持久化队列,等待期间0计费,仅对实际产生计算的有效Token量收费[25] 商业模式:按Token计费的算力零售 - 引入Serverless架构,推行“按Token计费”的商业模式,将算力服务切分到最细颗粒度[29] - 用户仅为前向传播、推理输出和训练产生的有效计算Tokens量付费,本地调试、数据预处理等环节全部免费[29] - 实测基于官方Cookbook跑通包含Rollout采样、Reward评分和PPO更新的完整RL流程,总算力成本仅8.61元[29] - 提供具体模型计费示例,如Qwen3-4B模型的前向传播、推理输出和训练单价分别为每百万Token 0.42元、1.4元和1.4元[31] 应用场景:覆盖多领域工作流 - **科研场景**:支持“白盒级”科研探索,研究人员可自定义评估逻辑与控制训练流程,无需关心底层分布式实现,大幅降低实验复现成本[32][34] - **创业与独立开发**:利用Serverless特性,无需等待资源排期,实测从安装到跑通一个包含1000条样本的微调实验仅需数分钟,实现极速MVP验证和低成本试错[35][36] - **工业级落地**:允许工程师自由定义损失逻辑与强化学习奖励函数,拥有对模型权重与训练细节的完整控制权,可应对金融、医疗等领域的复杂异构架构需求[37] 使用与生态 - 使用流程极简,仅需安装、初始化客户端和定义训练循环三步,像写普通Python脚本一样简单[38][39] - 目前已支持Qwen3系列模型,并准备了开箱即用的HPC-AI Cookbook,提供包括DeepSeek-R1 GRPO算法等复杂RL场景的完整代码实现[40][41] - 开发者无需从零构建复杂流水线,复制Cookbook中的“配方”运行本地脚本即可驱动云端复杂的分布式RL训练流[41]
OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅
机器之心· 2026-01-07 13:16
行业趋势:从预训练到后训练的范式转移 - 大模型能力突破的核心战场正从预训练转向后训练,特别是强化学习[3] - 强化学习能以低数据量实现模型能力的大幅跃升,例如DeepSeek‑R1仅通过RL训练,在AIME数学推理基准上的pass@1从15.6%提升至77.9%[3] - 行业正经历从“作坊式炼丹”到“工业化微调”的升级[1] 核心技术创新:算法与基础设施解耦 - OpenAI前CTO创立的Thinking Machines Lab推出的Tinker,将大模型训练抽象为forward、backward、optimizer step等一系列基本原语[1] - 该创新分离了算法设计与分布式训练基础设施的关联,把训练大模型变成了简单的“函数调用”[1] - 潞晨云微调SDK基于Tinker SDK构建,实现了算法设计与基础设施的解耦,开发者只需定义数据与Loss函数,底层复杂工程由平台全托管[4] 产品核心功能与优势 - 提供从监督微调到强化学习的全链路训练原语,包括Forward & Backward、Optimizer Step、Sample (Rollout)、Save State[6] - 开发者可在本地Jupyter Notebook或IDE中,使用标准Python语法像搭积木一样自由组合训练逻辑[8] - 采用控制面与计算面分离设计,通过统一API Server管理跨地域GPU集群,支持多云部署[10] - 基于Future模式的异步API支持非阻塞调用,用户无需等待GPU计算完成即可执行后续逻辑[10] - 具备智能队列系统,资源洪峰期任务进入持久化队列,等待期间0计费,仅对实际计算Token收费[12] 颠覆性商业模式:按Token计费 - 引入Serverless架构,推行“按Token计费”模式,颠覆传统云主机的“包机/时租”模式[13][15] - 用户只需为Prefill、Sample和Train产生的有效计算Tokens量付费,其他如本地调试、环境配置、数据预处理等环节全部免费[18] - 提供了具体模型的计价示例,例如Qwen3-4B模型的Prefill价格为¥0.42/百万Token,Sample和Train价格为¥1.4/百万Token[17] - 该模式大幅降低了实验成本,实测跑通一个包含Rollout采样、Reward评分和PPO更新的完整RL流程,总算力成本仅8.61元[18] 提升人力效能与工作流变革 - 将原本需要运维、Infra、平台和算法工程师紧密配合的庞大团队,简化为一个算法工程师的独立闭环,带来颠覆性的人力效能比提升[5][8] - 为科研场景降低实验复现成本,研究人员可进行“白盒级”探索,无需关心底层分布式实现[19] - 助力创业与独立开发极速验证MVP,从pip install到跑通一个包含1000条样本的微调实验仅需数分钟,实现低成本试错[20] - 支持金融、医疗等垂直领域的工业级落地,允许工程师自由定义Loss逻辑与强化学习奖励函数,实现端到端定制[21] 产品易用性与生态 - 使用极简,仅需三步:安装SDK、初始化客户端、定义训练循环并运行[23] - 目前已支持Qwen3系列模型,包括4B、8B、14B、32B[23] - 平台提供开箱即用的HPC-AI Cookbook,包含DeepSeek-R1 GRPO算法、基于Verifier的数学推理等复杂RL场景的完整代码实现,开发者可复制“配方”快速启动[24] - 前150名注册用户可获得30元Token使用额度进行体验[5][28]
东方港湾黄海平2025年年报与展望:进化的底色!AI应用的算力需求空间巨大 容得下GPU与TPU一起共治天下
新浪财经· 2026-01-07 10:19
文章核心观点 - 2025年AI行业在激烈竞争中实现了显著的技术进化与应用普及,其经济价值被市场低估,主要体现在云厂商分销、企业业务改造及AI应用开发三个层面,且未来将引发模型性能、软件范式、公司形态、内容产业等多方面的深刻变革 [3][7][13][23] 一、竞争:泡沫之本、活力之源 - **模型能力重大进化**:2025年末,谷歌Gemini 3在多模态可交互能力上实现重大突破,大幅超越ChatGPT,通过结合图片、视频、声音、小程序等方式实时生成交互式答案,反击了预训练见顶的怀疑论 [3][45] - **引发行业连锁反应**:OpenAI为应对竞争匆忙发布GPT 5.2并计划推出GPT 5.3,Meta使用100万亿token数据集训练下一代模型“牛油果”,XAI计划在2026年一季度发布Grok 5,行业竞争加剧 [4][46] - **硬件端激烈竞争**:为应对谷歌TPU的竞争,英伟达斥资200亿美元收购一家预期年营收仅5亿美元的芯片团队,以补齐专用推理芯片领域的短板 [4][46] - **跨界竞争与生态重构**:科技巨头业务边界模糊,相互侵入对方核心领域,例如OpenAI携8亿用户进军广告与电商,谷歌在搜索引擎引入“AI模式”拦截第三方流量,初创企业在AI应用收入份额从2024年的36%大幅提升至2025年的63% [5][47] - **竞争驱动行业活力**:庞大的AI资本开支很大程度上源于FOMO(错失恐惧症)情绪,这既是泡沫的根源,也是行业创新与活力的根源 [7][48] 二、进化的经济价值 - **技术能力四大进步**: - **推理成为常态**:2025年底,长时间思考成为大模型标配,思考时间从1分钟扩展至半小时甚至数小时,前沿模型百万输入token单价下调50%,输入“缓存”成本从每百万token 1.25美元降至0.125美元,降幅达90% [9][50] - **长期记忆初生**:模型开始具备记住一年前话题及任务最佳策略的能力,为解锁“个人超级助理”及构建应用壁垒奠定基础 [9][50] - **初具工匠智能**:AI从提供“准确答案”转向交付“满意结果”(如PPT、财务模型),并学会使用人类工具,将软件解构为能力与数据库 [10][51] - **超越文字交互**:Gemini将多模态数据压缩进同一向量空间,实现真正的看、听及跨模态表达,AI生成图片、视频内容在社交媒体普及 [11][52] - **AI经济价值的三重分布**:价值散落于云厂商分销AI Token的利润、企业利用AI改造传统业务带来的增收降本利润,以及其他企业二次开发AI应用所获利润,市场过度关注第三部分而忽略前两者 [16][57] - **云厂商与企业自用AI的经济账**:2025年,北美三大云厂商收入约2700亿美元,同比新增约600亿美元,假设EBITDA利润率为60%,对应新增EBITDA约360亿美元;谷歌、Meta、微软、亚马逊的非云业务收入约1万亿美元,同比新增约1000亿美元,按50% EBITDA利润率计算,新增EBITDA约500亿美元;四大企业当年资本开支约3800亿美元,以8年折旧计新增折旧约475亿美元;以475亿折旧驱动860亿新增EBITDA,显示生产AI Token原材料具备经济性 [18][59] - **AI应用市场高速增长**:2025年北美企业AI开支达370亿美元,同比增长3.2倍,其中AI软件开支超190亿美元,占3000亿SaaS市场的6%,76%的企业选择从外部购买AI应用,而非自建 [19][60] - **下游需求验证**:北美三大云厂及中国阿里云的收入增速持续上行,证明下游对AI Token的采购和加工有利可图,第三块经济价值成立 [21][63] 三、未来的样子 - **基于五大本质的六大变革推断**: - **模型性能飞跃**:2026年,Transformer注意力机制将迎重大升级,上下文窗口长度和处理效率大幅提升,解决“平方复杂度”难题,降低推理与生成成本,加速AI应用普及 [24][66][67] - **强化学习解锁任务能力,冲击传统软件**:大模型通过强化学习在更多领域积累“任务能力”,AI编程、导购、内容制作等能力将普及,信息操作从“固定形态”转向“指令化”与“生成化”,传统软件应用及操作系统范式面临危机 [25][26][67][68] - **“无扩员增长”重塑公司形态**:AI经济价值的本质是低成本扩展人类智力资源,其目标市场空间是人类50万亿美元劳动薪酬的延伸,企业利用AI实现不增加人员下的收入增长与利润率提升,例如罗宾逊物流通过AI Agent使人均货运量提升40%,在收入下滑11%背景下营业利润逆势增长22%,利润率达31%,EPS大涨67.5% [28][30][70][72] - **原生多模态推动内容产业升级为“体验产业”**:视频原生多模态预训练成为标配,视频生成成本大幅下降,效率提升,例如AI漫剧成本降至600元/分钟,较传统动画1.5万元/分钟的成本大幅降低,制作周期缩短80%-90%,未来内容将按需甚至实时生成,从“产品”变为“体验” [32][34][74][76] - **任务进化速度分层**:强化学习数据获取效率决定进化速度,自博弈驱动的领域(如数学编程、芯片设计)为快车道,拥有大量用户反馈的场景(如广告推荐)为中速带,试错成本高、反馈慢的领域(如具身机器人)为慢车道 [35][36][77][78] - **算力需求巨大,GPU与TPU共治天下**:算力潜在需求是当前供给的百万倍乃至十亿倍,需求增长是主要矛盾,谷歌TPU正在推理市场撼动英伟达GPU地位,但面临产能、适配、竞争与商业模式四重挑战,市场空间足以容纳两者共存 [37][38][79][80]
北大90后副教授董豪出任上纬启元首席科学家, 研究方向聚焦具身智能
新浪财经· 2026-01-06 21:28
公司核心人事与战略布局 - 北京大学90后长聘副教授、科技创新2030国家重大项目负责人董豪加入上纬新材的个人机器人业务品牌上纬启元,出任首席科学家,将聚焦具身智能模型领域的技术研发与战略布局 [1] - 董豪的研究方向聚焦于具身智能、大模型、强化学习、计算机视觉及开源系统,核心目标是探索并构建兼具成本效益与通用性的机器人系统,长期深耕开源AI系统并牵头多个开源项目 [1] - 业内分析认为,董豪在具身智能领域的深厚积淀与上纬启元的技术研发需求高度契合,其加入将强化公司在核心算法、通用机器人系统等关键领域的竞争力,表明公司正在强化消费级人形机器人的顶层科研布局 [4] 公司业务与产品进展 - 上纬启元是上纬新材重点打造的个人机器人业务品牌,公司以该品牌进军个人机器人赛道 [4] - 2025年12月31日,上纬启元正式发布首款全身力控小尺寸人形机器人“启元Q1”,该产品在关节系统、整机尺寸与应用场景上实现多项突破,将实验室级人形机器人能力浓缩至背包大小体量 [4] - 启元Q1主要面向三类核心人群:科研人员、创作者与家庭用户 [4] 公司控制权变更与市场表现 - 2025年7月8日,智元机器人拟通过其与核心团队共同出资设立的持股平台,以“协议转让+要约收购”组合方式获取上纬新材控制权 [4] - 2025年11月25日,上纬新材董事会选举彭志辉(稚晖君)担任公司第四届董事会董事长 [4] - 智元机器人致力于研发和生产通用人形机器人,其创始人彭志辉此前因华为离职“天才少年”身份受到关注 [5] - 因智元机器人入主,上纬新材在资本市场备受热捧,截至2025年12月31日收盘,公司一年以来累计涨幅达1820.29%,成为2025年涨幅榜冠军 [5]