Serverless架构
搜索文档
OpenAI前CTO首个创业产品Tinker,这里全量升级开放了,还有羊毛可薅
机器之心· 2026-01-07 13:16
行业趋势:从预训练到后训练的范式转移 - 大模型能力突破的核心战场正从预训练转向后训练,特别是强化学习[3] - 强化学习能以低数据量实现模型能力的大幅跃升,例如DeepSeek‑R1仅通过RL训练,在AIME数学推理基准上的pass@1从15.6%提升至77.9%[3] - 行业正经历从“作坊式炼丹”到“工业化微调”的升级[1] 核心技术创新:算法与基础设施解耦 - OpenAI前CTO创立的Thinking Machines Lab推出的Tinker,将大模型训练抽象为forward、backward、optimizer step等一系列基本原语[1] - 该创新分离了算法设计与分布式训练基础设施的关联,把训练大模型变成了简单的“函数调用”[1] - 潞晨云微调SDK基于Tinker SDK构建,实现了算法设计与基础设施的解耦,开发者只需定义数据与Loss函数,底层复杂工程由平台全托管[4] 产品核心功能与优势 - 提供从监督微调到强化学习的全链路训练原语,包括Forward & Backward、Optimizer Step、Sample (Rollout)、Save State[6] - 开发者可在本地Jupyter Notebook或IDE中,使用标准Python语法像搭积木一样自由组合训练逻辑[8] - 采用控制面与计算面分离设计,通过统一API Server管理跨地域GPU集群,支持多云部署[10] - 基于Future模式的异步API支持非阻塞调用,用户无需等待GPU计算完成即可执行后续逻辑[10] - 具备智能队列系统,资源洪峰期任务进入持久化队列,等待期间0计费,仅对实际计算Token收费[12] 颠覆性商业模式:按Token计费 - 引入Serverless架构,推行“按Token计费”模式,颠覆传统云主机的“包机/时租”模式[13][15] - 用户只需为Prefill、Sample和Train产生的有效计算Tokens量付费,其他如本地调试、环境配置、数据预处理等环节全部免费[18] - 提供了具体模型的计价示例,例如Qwen3-4B模型的Prefill价格为¥0.42/百万Token,Sample和Train价格为¥1.4/百万Token[17] - 该模式大幅降低了实验成本,实测跑通一个包含Rollout采样、Reward评分和PPO更新的完整RL流程,总算力成本仅8.61元[18] 提升人力效能与工作流变革 - 将原本需要运维、Infra、平台和算法工程师紧密配合的庞大团队,简化为一个算法工程师的独立闭环,带来颠覆性的人力效能比提升[5][8] - 为科研场景降低实验复现成本,研究人员可进行“白盒级”探索,无需关心底层分布式实现[19] - 助力创业与独立开发极速验证MVP,从pip install到跑通一个包含1000条样本的微调实验仅需数分钟,实现低成本试错[20] - 支持金融、医疗等垂直领域的工业级落地,允许工程师自由定义Loss逻辑与强化学习奖励函数,实现端到端定制[21] 产品易用性与生态 - 使用极简,仅需三步:安装SDK、初始化客户端、定义训练循环并运行[23] - 目前已支持Qwen3系列模型,包括4B、8B、14B、32B[23] - 平台提供开箱即用的HPC-AI Cookbook,包含DeepSeek-R1 GRPO算法、基于Verifier的数学推理等复杂RL场景的完整代码实现,开发者可复制“配方”快速启动[24] - 前150名注册用户可获得30元Token使用额度进行体验[5][28]