前OpenAI CTO押注的赛道,被中国团队抢先跑通,AI「下半场」入场券人人有份
机器之心·2026-01-04 11:01

AI行业趋势:从预训练到后训练 - 过去几年AI领域的主旋律是预训练,追求更大的模型、更多的数据和更长的训练周期,但该阶段已趋于饱和[9][10] - 当前大模型部署后存在瓶颈,参数被“冻住”,无法从真实交互中持续学习进化,实际使用效果不稳定[10][23] - 强化学习被视为破局关键,能让模型从“背题”走向“推理”,带来惊人的泛化性和样本效率[11][12] - 2026年的主旋律是后训练,Gemini、DeepSeek V3.2、Kimi K2等多个前沿模型的技术报告都强调后训练仍是一片蓝海[13][14] 后训练基础设施的竞争格局 - 前OpenAI CTO Mira创立的Thinking Machines Lab押注后训练赛道,其产品Tinker定义了后训练API的新范式[16][17] - Thinking Machines在2025年7月完成了硅谷历史上最大的种子轮融资,金额达20亿美元,估值120亿美元[17] - 国内由95后青年科学家组成的Mind Lab推出了对标产品Mind Lab Toolkit,是世界第一家能够对标Thinking Machines Lab的公司[3] - Mind Lab的MinT平台比Thinking Machines更早实现了1T LoRA-RL,是业界在万亿参数模型上进行高效强化学习的第一个成果[3][25] Mind Lab与MinT平台的核心优势 - MinT是一个用CPU机器就能高效训练万亿参数模型的后训练平台,成本优化了十倍,一天即可完成一轮训练[3] - 平台兼容性强大,与Tinker API完全兼容,开发者可几乎零成本迁移[25] - 技术领先,采用LoRA技术,使多个训练和推理任务共享计算资源池,显著降低成本[31] - 在Kimi K2(万亿参数MoE)上实现端到端LoRA强化学习,仅用常规全参RL约10%的GPU资源(64块H800)即可完成训练[36] - 已支持Kimi K2 Thinking、Qwen3-VL系列等前沿开源模型,并优先支持π0等具身VLA模型,体现了中国公司在具身智能上的领先优势[31] MinT解决的核心问题与目标用户 - 核心价值是让用户只需关注数据和算法,平台自动处理集群调度、资源管理等复杂工程问题[31] - 主要解决强化学习普及的三大难题:训练不稳定、小模型难以收敛、算力成本高[35] - 目标用户是Agent领域创业公司和高校顶尖实验室,这些团队常被算力与训练框架限制[41][42] - 平台允许开发者仅用CPU机器进行训练验证,降低算法可行性验证成本[43] - 采用LoRA-RL技术将模型迭代周期从“按周”缩短到“按天”,服务于快节奏的产品开发需求[43] 团队背景与行业影响 - Mind Lab创始团队豪华,创始人Andrew毕业于MIT,首席科学家马骁腾博士毕业于清华大学自动化系[5] - 团队成员来自清华、MIT、CMU等高校,并有OpenAI、DeepMind等顶尖实验室工作经历[5] - 团队累计发表论文超100篇,总引用量超3万次[6] - MinT已获得顶尖高校和多个创业公司认可,应用场景涵盖基础研究到垂直行业[44] - 具体应用案例包括:清华大学黄高副教授团队用于RL研究、瑞铭医疗提升医疗编码准确率并落地数十家三甲医院等[51] - 2026年后训练将是中国AI弯道超车的下一个关键战场,Mind Lab致力于让中国团队在关键技术浪潮中实现自主可控[49][50]