Workflow
潞晨云微调SDK
icon
搜索文档
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
量子位· 2026-01-07 13:17
行业趋势:大模型竞争焦点转向后训练 - 大模型竞争的下半场焦点已从“暴力预训练”转向“后训练”战场[1] - 决定模型天花板的因素不再只是算力堆砌,而是更精准的微调和强化学习迭代[2] - 强化学习在低数据量下即可实现模型能力大幅跃升,例如DeepSeek-R1仅通过RL训练,在AIME数学推理基准上的pass@1从15.6%提升至77.9%[7] 核心痛点:后训练面临的高门槛 - 复杂的分布式基建、高昂的显卡租金和繁琐的架构调优构成了高墙,阻碍算法工程师进行后训练[3] - 强化学习涉及复杂的系统设计,包括多模型优化、数据与权重传递,工程化工作对基础设施要求极高[9] 解决方案:潞晨云微调SDK - 公司推出国内首个全面开放、兼容Tinker范式的Serverless微调平台[5] - 核心目标是提供一套更具成本优势的工业级解法,以应对复杂且昂贵的强化学习[6] - 核心思路是实现算法设计与底层算力架构的解耦,开发者只需定义数据与损失函数,底层基础设施实现全托管与无感支持[10] 产品优势:易用性与人力效能 - 产品兼容Tinker接口,在零代码微调与裸机全手写之间找到平衡点,提供“训练即服务”的流畅体验[11] - 将大模型训练拆解为一组标准函数原语,打通从监督微调到强化学习的全链路[14] - 颠覆性提升人力效能比,将原本需要庞大团队配合的工作简化为一名算法工程师的独立闭环[12][16] - 用户可在本地IDE中使用标准Python语法自由组合训练逻辑,成为驾驭大规模训练流的主动设计师[16][17] 技术架构:实现丝滑体验 - 采用控制面与计算面分离设计,通过统一API Server管理跨地域的多个GPU计算集群,实现多云部署能力[22] - 核心采用基于Future模式的异步API,所有训练操作支持非阻塞调用,用户无需等待GPU计算完成[23] - 具备智能队列系统,资源洪峰期任务进入持久化队列,等待期间0计费,仅对实际产生计算的有效Token量收费[25] 商业模式:按Token计费的算力零售 - 引入Serverless架构,推行“按Token计费”的商业模式,将算力服务切分到最细颗粒度[29] - 用户仅为前向传播、推理输出和训练产生的有效计算Tokens量付费,本地调试、数据预处理等环节全部免费[29] - 实测基于官方Cookbook跑通包含Rollout采样、Reward评分和PPO更新的完整RL流程,总算力成本仅8.61元[29] - 提供具体模型计费示例,如Qwen3-4B模型的前向传播、推理输出和训练单价分别为每百万Token 0.42元、1.4元和1.4元[31] 应用场景:覆盖多领域工作流 - **科研场景**:支持“白盒级”科研探索,研究人员可自定义评估逻辑与控制训练流程,无需关心底层分布式实现,大幅降低实验复现成本[32][34] - **创业与独立开发**:利用Serverless特性,无需等待资源排期,实测从安装到跑通一个包含1000条样本的微调实验仅需数分钟,实现极速MVP验证和低成本试错[35][36] - **工业级落地**:允许工程师自由定义损失逻辑与强化学习奖励函数,拥有对模型权重与训练细节的完整控制权,可应对金融、医疗等领域的复杂异构架构需求[37] 使用与生态 - 使用流程极简,仅需安装、初始化客户端和定义训练循环三步,像写普通Python脚本一样简单[38][39] - 目前已支持Qwen3系列模型,并准备了开箱即用的HPC-AI Cookbook,提供包括DeepSeek-R1 GRPO算法等复杂RL场景的完整代码实现[40][41] - 开发者无需从零构建复杂流水线,复制Cookbook中的“配方”运行本地脚本即可驱动云端复杂的分布式RL训练流[41]
OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅
机器之心· 2026-01-07 13:16
行业趋势:从预训练到后训练的范式转移 - 大模型能力突破的核心战场正从预训练转向后训练,特别是强化学习[3] - 强化学习能以低数据量实现模型能力的大幅跃升,例如DeepSeek‑R1仅通过RL训练,在AIME数学推理基准上的pass@1从15.6%提升至77.9%[3] - 行业正经历从“作坊式炼丹”到“工业化微调”的升级[1] 核心技术创新:算法与基础设施解耦 - OpenAI前CTO创立的Thinking Machines Lab推出的Tinker,将大模型训练抽象为forward、backward、optimizer step等一系列基本原语[1] - 该创新分离了算法设计与分布式训练基础设施的关联,把训练大模型变成了简单的“函数调用”[1] - 潞晨云微调SDK基于Tinker SDK构建,实现了算法设计与基础设施的解耦,开发者只需定义数据与Loss函数,底层复杂工程由平台全托管[4] 产品核心功能与优势 - 提供从监督微调到强化学习的全链路训练原语,包括Forward & Backward、Optimizer Step、Sample (Rollout)、Save State[6] - 开发者可在本地Jupyter Notebook或IDE中,使用标准Python语法像搭积木一样自由组合训练逻辑[8] - 采用控制面与计算面分离设计,通过统一API Server管理跨地域GPU集群,支持多云部署[10] - 基于Future模式的异步API支持非阻塞调用,用户无需等待GPU计算完成即可执行后续逻辑[10] - 具备智能队列系统,资源洪峰期任务进入持久化队列,等待期间0计费,仅对实际计算Token收费[12] 颠覆性商业模式:按Token计费 - 引入Serverless架构,推行“按Token计费”模式,颠覆传统云主机的“包机/时租”模式[13][15] - 用户只需为Prefill、Sample和Train产生的有效计算Tokens量付费,其他如本地调试、环境配置、数据预处理等环节全部免费[18] - 提供了具体模型的计价示例,例如Qwen3-4B模型的Prefill价格为¥0.42/百万Token,Sample和Train价格为¥1.4/百万Token[17] - 该模式大幅降低了实验成本,实测跑通一个包含Rollout采样、Reward评分和PPO更新的完整RL流程,总算力成本仅8.61元[18] 提升人力效能与工作流变革 - 将原本需要运维、Infra、平台和算法工程师紧密配合的庞大团队,简化为一个算法工程师的独立闭环,带来颠覆性的人力效能比提升[5][8] - 为科研场景降低实验复现成本,研究人员可进行“白盒级”探索,无需关心底层分布式实现[19] - 助力创业与独立开发极速验证MVP,从pip install到跑通一个包含1000条样本的微调实验仅需数分钟,实现低成本试错[20] - 支持金融、医疗等垂直领域的工业级落地,允许工程师自由定义Loss逻辑与强化学习奖励函数,实现端到端定制[21] 产品易用性与生态 - 使用极简,仅需三步:安装SDK、初始化客户端、定义训练循环并运行[23] - 目前已支持Qwen3系列模型,包括4B、8B、14B、32B[23] - 平台提供开箱即用的HPC-AI Cookbook,包含DeepSeek-R1 GRPO算法、基于Verifier的数学推理等复杂RL场景的完整代码实现,开发者可复制“配方”快速启动[24] - 前150名注册用户可获得30元Token使用额度进行体验[5][28]
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
量子位· 2025-12-20 16:02
文章核心观点 - 大模型的最大价值在于千行百业的落地应用,而不仅限于聊天机器人或编程助手,许多场景的价值尚未完全发挥 [8][9][32][33] - 判断企业是否需要私有或行业大模型有明确框架:三类企业需要,即传统大型企业、拥有海量数据的中小型企业以及颠覆行业的新兴公司 [1][8][34][35] - 企业大模型落地的具体方式取决于其数据特征和业务需求,拥有海量多模态数据或强隐私要求的企业构建私有模型是较好选择 [4][5][6][36][37][38] - 在ToB领域,仅调用通用大模型API无法建立竞争壁垒,关键在于对开源基模进行专业的后训练或Agent化,以打造差异化行业专才 [17][42] - 成功部署企业大模型需平衡两大关键:最大化算力效率以控制成本,以及提供高效的微调工具以加速模型定制 [17][43][44] 潞晨科技的技术实践与成绩 - 公司自2018年起专注于大模型基础设施软件研发,涵盖编译器、CUDA及优化器等底层技术 [13] - 其研发的LAMB优化器曾将Google千卡TPU Pod上的大模型训练时间从三天大幅缩减至76分钟 [14] - LAMB优化器被微软DeepSpeed、字节Megascale及英伟达Megatron-LM等主流万卡集群系统使用,英伟达专家使用后曾取得17倍的加速效果 [15][20] - 基于LAMB的后续工作成功应用于华为盘古大模型及字节推荐模型,并获得了ACL杰出论文 [16] - 公司将大模型训推性能优化技术集成为开源软件系统Colossal-AI,旨在帮助用户降本增效地构建私有模型 [21][22] - Colossal-AI在其GitHub细分赛道中指标最高,公司提供开源版本及进阶商业支持 [23] - 公司已服务全球付费客户,包括八个世界五百强、十个世界两千强、六十个一流大学和三千家企业,覆盖汽车、互联网、手机、制药、制造业等多个行业 [25] 大模型在千行百业的落地价值与案例 - 行业案例显示大模型能解决通用文本模型无法处理的特定行业问题,如中石油的三千亿参数昆仑大模型、Bloomberg的金融大模型、华为盘古气象大模型、宝马的汽车制造优化模型等 [29] - 以石油勘探为例,打一口井成本达1000万美金,通过大模型优化即使只提升10%成功率,收益前景也非常可观 [32] - 处理PB级别地质数据时,传统算法稳定性差、速度慢,大模型能以解方程组的方式提供更好的近似解 [32][33] - 其他落地案例包括:助力世界五百强车企打造多模态自动化决策支持系统与智能座舱模型、提升世界五百强电商的自动驾驶3D点云技术、帮助制造业世界500强企业打造基于AI Agent的供应链系统 [53] 企业构建私有/行业大模型的决策框架 - **需要构建私有/行业模型的三类企业**: - 第一类:传统大型企业(如世界五百强/两千强),拥有其行业珍贵的大量信息或数据 [34] - 第二类:拥有海量数据的中小型企业,数据是其细分领域的核心竞争力 [35] - 第三类:旨在用AI技术颠覆行业的新型公司,覆盖金融、制药、社交、游戏、电商等领域 [35] - **具体落地方式选择**: - 业务仅涉及日常办公或主要处理文本数据:直接调用现成大模型API(如ChatGPT、通义千问)或采用RAG+API即可满足需求 [4][5][37] - 拥有足量文本数据:通常无需自建模型,构建RAG/Agent结合大模型API即可 [38] - 拥有海量多模态数据或对数据隐私有强要求(如石油勘探、高铁、汽车、制药、金融):构建私有模型是较好的选择 [6][38] 大模型市场趋势与ToB成功关键 - 据Grand View Research预测,大语言模型市场分为领域大模型、通用大模型和私有大模型三部分 [39][41] - 预测至2033年,领域大模型将占据最大市场份额,约40%;通用大模型和私有大模型各占约30% [47] - 在ToB赛道,企业不应追求打造通用大模型,而应专注于后训练或Agent化,利用行业数据将开源基模优化为行业专才,以建立差异性和竞争壁垒 [42] - 成功关键两点:一是最大化算力效率以控制高昂的算力成本;二是提供高效的微调模板或SDK,让用户能快速定制行业或私有模型 [43][44] - 当前市场产品存在两个极端:过度强调零代码微调导致用户控制力不足;或要求全手写裸机开发导致精力浪费。理想方案是实现工程与灵活度的最优平衡 [49][51] 潞晨云的解决方案:微调SDK与Training As A Service - 公司对标OpenAI前CTO创立的Thinking Machines Lab(估值120亿美金)及其Tinker模型微调平台 [27][28] - 公司推出潞晨云微调SDK,旨在提供标准化模板服务,实现Training As A Service的效果 [45][46] - 该方案让开发者仅需专注模型与算法创新,而将训练调度、分布式框架适配、底层云基础设施及运维交由平台完成 [17] - 方案通过函数级管理简化复杂流程,用户只需调用少数函数指令即可快速构建行业或私有模型,背后集成Colossal-AI以优化算力性能、降低成本 [49][51] - 方案支持一键式在云上训练部署,兼容Tinker等开源SDK,支持监督微调、强化学习,同时允许用户自定义框架、编程工具和任务调度方式 [51][52]