Workflow
LAMB优化器
icon
搜索文档
“90后创业者”尤洋:解放AI生产力,潞晨科技的“颠覆者”之路
搜狐财经· 2026-01-14 20:01
公司概况与市场地位 - 公司成立于2021年,是一家专注于AI大模型底层算力基础设施的中国公司,其开源项目Colossal-AI在全球开发者社区中声名鹊起 [2] - 公司推出的开源类Sora视频生成模型Open-Sora在多项评测中表现卓越 [2] - 公司已完成从一人创业到估值近20亿元人民币的跨越,获得红杉、创新工场、真格基金、华为等一线资本投资 [2] - 公司客户覆盖8家世界500强企业、10家全球2000强企业及超过60所全球顶尖大学 [2][6] 创始人背景与创业历程 - 创始人尤洋为90后,拥有清华大学硕士、加州大学伯克利分校博士学位,师从James Demmel院士,曾任职于谷歌、微软、英伟达等科技巨头,现任新加坡国立大学计算机系校长青年教授 [2][3] - 创业动机源于对技术创新范式的观察,认为颠覆性创新常源自创业公司,且AI技术的最大价值需在工业界实现 [4] - 公司名称“潞晨”源自创始人两个孩子的名字 [4] - 公司在ChatGPT引爆AI热潮前已在大模型基础设施领域深耕多年,围绕Transformer架构的优化工作早在2017年后就已持续进行 [5] 核心技术积累与成就 - 公司团队设计的LAMB优化器在2019年被用于训练GPT-3的前期工作,成功将Transformer训练扩展到128张TPU,训练时间从3天缩短至76分钟 [5] - 开源项目Colossal-AI在GitHub上被英伟达认可为可实现“17倍加速”,并被Facebook、Snapchat、英特尔等国际科技公司采用 [5] - Colossal-AI在GitHub AI大模型软件基础设施细分赛道的开源热度与社区指标排名中位列世界第一 [5] - 基于对大模型基础设施的深刻理解,公司在Sora发布仅数月后就开源了类Sora架构的完整解决方案Open-Sora [6] 财务与商业表现 - 公司营收从2022年的740万元人民币快速增长至2024年的7,700万元人民币 [6] - 2025年前7个月合同收入已达2.5亿元人民币,预计全年收入将达到2024年的3.5倍 [6] - 公司研发投入从2022年的740万元人民币增至2024年的7,700万元人民币 [8] - 公司目前尚未盈利,但认为构建长期技术壁垒和生态地位远比短期盈利更重要 [8] - 2025年公司商业化产品线已全面落地,包括算力云平台、Video Ocean视频生成平台以及大模型定制解决方案 [8] 战略定位:国产算力生态赋能者 - 公司战略定位为“赋能者”,专注于AI基础设施栈上层的分布式计算优化与软件生态,不做芯片替代者 [7] - Colossal-AI已全面支持华为昇腾、沐曦集成电路、壁仞科技、天数智芯、摩尔线程等国产算力硬件,旨在“抹平”不同硬件底层在开发生态上的差异 [7] - 公司与国产芯片厂商合作深入,华为既是其投资人也是重要客户和合作伙伴,沐曦科技CTO曾为其早期融资提供关键背书 [7] - 公司于2025年获得华为“昇腾创新新锐奖” [8] - 公司认为需要几十、上百家类似的软件公司共同努力,才能加速国产算力生态的完善 [7] 融资与资本认可 - 公司已完成包括A4轮在内的多轮融资,投后估值已近20亿元人民币 [2][8] - 投资方包括创新工场、真格基金、红杉资本、华为等一线机构 [2][8] - 创始人认为资本是公司的“源动力”,早期启动资金对组建团队至关重要,并强调资本与创业公司是互利共赢的关系 [8] 全球化布局与市场策略 - 公司全球布局包括北京、无锡和新加坡,从一开始就放眼全球市场 [9] - 公司的算力开发平台HPC-AI.COM和视频生成平台Video Ocean已服务过来自东南亚、中东、美国的顶尖企业和研究机构 [9] - 公司核心成员多拥有海外背景,具备国际视野,且AI SaaS工具本身具备全球化属性 [9] - 公司将自己定位为PaaS提供商,与云厂商的IaaS形成互补,计划与各大云厂商建立深度合作,将平台部署在云上 [10] - 公司战略是与巨头共生而非对抗,通过合作、互补共同把蛋糕做大,避免陷入价格战 [10] 技术愿景与未来方向 - 公司认为AI基础设施的未来关键突破将集中在三个方向:极致性能优化、异构算力统一编程、AI开发流程的彻底自动化 [10] - 公司坚持开源开放战略,认为开源不仅是技术策略,更是生态策略,能吸引全球开发者共同完善产品,形成网络效应,构建持久竞争力 [10]
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
量子位· 2025-12-20 16:02
文章核心观点 - 大模型的最大价值在于千行百业的落地应用,而不仅限于聊天机器人或编程助手,许多场景的价值尚未完全发挥 [8][9][32][33] - 判断企业是否需要私有或行业大模型有明确框架:三类企业需要,即传统大型企业、拥有海量数据的中小型企业以及颠覆行业的新兴公司 [1][8][34][35] - 企业大模型落地的具体方式取决于其数据特征和业务需求,拥有海量多模态数据或强隐私要求的企业构建私有模型是较好选择 [4][5][6][36][37][38] - 在ToB领域,仅调用通用大模型API无法建立竞争壁垒,关键在于对开源基模进行专业的后训练或Agent化,以打造差异化行业专才 [17][42] - 成功部署企业大模型需平衡两大关键:最大化算力效率以控制成本,以及提供高效的微调工具以加速模型定制 [17][43][44] 潞晨科技的技术实践与成绩 - 公司自2018年起专注于大模型基础设施软件研发,涵盖编译器、CUDA及优化器等底层技术 [13] - 其研发的LAMB优化器曾将Google千卡TPU Pod上的大模型训练时间从三天大幅缩减至76分钟 [14] - LAMB优化器被微软DeepSpeed、字节Megascale及英伟达Megatron-LM等主流万卡集群系统使用,英伟达专家使用后曾取得17倍的加速效果 [15][20] - 基于LAMB的后续工作成功应用于华为盘古大模型及字节推荐模型,并获得了ACL杰出论文 [16] - 公司将大模型训推性能优化技术集成为开源软件系统Colossal-AI,旨在帮助用户降本增效地构建私有模型 [21][22] - Colossal-AI在其GitHub细分赛道中指标最高,公司提供开源版本及进阶商业支持 [23] - 公司已服务全球付费客户,包括八个世界五百强、十个世界两千强、六十个一流大学和三千家企业,覆盖汽车、互联网、手机、制药、制造业等多个行业 [25] 大模型在千行百业的落地价值与案例 - 行业案例显示大模型能解决通用文本模型无法处理的特定行业问题,如中石油的三千亿参数昆仑大模型、Bloomberg的金融大模型、华为盘古气象大模型、宝马的汽车制造优化模型等 [29] - 以石油勘探为例,打一口井成本达1000万美金,通过大模型优化即使只提升10%成功率,收益前景也非常可观 [32] - 处理PB级别地质数据时,传统算法稳定性差、速度慢,大模型能以解方程组的方式提供更好的近似解 [32][33] - 其他落地案例包括:助力世界五百强车企打造多模态自动化决策支持系统与智能座舱模型、提升世界五百强电商的自动驾驶3D点云技术、帮助制造业世界500强企业打造基于AI Agent的供应链系统 [53] 企业构建私有/行业大模型的决策框架 - **需要构建私有/行业模型的三类企业**: - 第一类:传统大型企业(如世界五百强/两千强),拥有其行业珍贵的大量信息或数据 [34] - 第二类:拥有海量数据的中小型企业,数据是其细分领域的核心竞争力 [35] - 第三类:旨在用AI技术颠覆行业的新型公司,覆盖金融、制药、社交、游戏、电商等领域 [35] - **具体落地方式选择**: - 业务仅涉及日常办公或主要处理文本数据:直接调用现成大模型API(如ChatGPT、通义千问)或采用RAG+API即可满足需求 [4][5][37] - 拥有足量文本数据:通常无需自建模型,构建RAG/Agent结合大模型API即可 [38] - 拥有海量多模态数据或对数据隐私有强要求(如石油勘探、高铁、汽车、制药、金融):构建私有模型是较好的选择 [6][38] 大模型市场趋势与ToB成功关键 - 据Grand View Research预测,大语言模型市场分为领域大模型、通用大模型和私有大模型三部分 [39][41] - 预测至2033年,领域大模型将占据最大市场份额,约40%;通用大模型和私有大模型各占约30% [47] - 在ToB赛道,企业不应追求打造通用大模型,而应专注于后训练或Agent化,利用行业数据将开源基模优化为行业专才,以建立差异性和竞争壁垒 [42] - 成功关键两点:一是最大化算力效率以控制高昂的算力成本;二是提供高效的微调模板或SDK,让用户能快速定制行业或私有模型 [43][44] - 当前市场产品存在两个极端:过度强调零代码微调导致用户控制力不足;或要求全手写裸机开发导致精力浪费。理想方案是实现工程与灵活度的最优平衡 [49][51] 潞晨云的解决方案:微调SDK与Training As A Service - 公司对标OpenAI前CTO创立的Thinking Machines Lab(估值120亿美金)及其Tinker模型微调平台 [27][28] - 公司推出潞晨云微调SDK,旨在提供标准化模板服务,实现Training As A Service的效果 [45][46] - 该方案让开发者仅需专注模型与算法创新,而将训练调度、分布式框架适配、底层云基础设施及运维交由平台完成 [17] - 方案通过函数级管理简化复杂流程,用户只需调用少数函数指令即可快速构建行业或私有模型,背后集成Colossal-AI以优化算力性能、降低成本 [49][51] - 方案支持一键式在云上训练部署,兼容Tinker等开源SDK,支持监督微调、强化学习,同时允许用户自定义框架、编程工具和任务调度方式 [51][52]