InfiR2 FP8
搜索文档
前阿里、字节大模型带头人杨红霞创业:大模型预训练,不是少数顶尖玩家的算力竞赛|36氪独家
36氪· 2025-10-30 21:37
公司核心战略与技术路径 - 公司InfiX.ai由前阿里和字节大模型核心人物杨红霞创立,致力于大模型预训练的"去中心化",旨在降低资源消耗,使中小企业、研究机构甚至个人都能参与模型预训练[7][12][13] - 公司技术路径与主流"中心化"模型(如GPT系列)截然不同,核心判断是模型知识的注入只发生在预训练阶段,后训练仅提供规则,因此企业本地化部署必须进行持续预训练才能有效利用私有数据[14][16][34][35] - 公司选择香港作为基地,主要考量包括香港产学研项目提供的丰厚资金和算力补贴(如获得香港数码港超算中心90%的算力减免折扣),以及全球领先的人才密度,使团队快速组建至40人规模[10][113][121] 核心技术成果与性能 - 公司开源全球首个FP8训练"全家桶"(InfiR2 FP8),相较于行业普遍采用的FP16/BF16,在模型性能几乎无损的情况下,最高提升训练速度22%,最高节省显存峰值14%,端到端吞吐量最高提升19%[17][18][20] - 公司推出模型融合技术InfiFusion,可将不同领域预训练的异构"专家模型"进行融合,避免模型重复训练造成的资源浪费,目前已实现四个异构模型融合,在18个推理Benchmark上平均得分从77分提升至79分,最新方法已逼近88分[17][21][92][93][95][96] - 公司推出医疗多模态大模型训练框架InfiMed,基于小规模数据(如36K RLV)和算力资源训练的小参数模型(如3B)在七大医疗基准测试中平均准确率达59.2%,显著优于同尺寸的谷歌MedGemma-4B-IT(54.8%)[17][22][23] 行业趋势与竞争格局 - "去中心化"模型训练趋势在国际上得到验证,前OpenAI CTO Mira Murati成立的新公司Thinking Machines Lab在种子轮融资20亿美元,估值达120亿美元,显示出市场对该路径的强烈信心[27][28][63] - 行业共识正转向领域模型小型化趋势,MIT Tech Review将小语言模型列为2025年十大突破性技术之一,公司早在2024年中已验证在垂直领域小模型(如30亿、70亿参数)可超越1.6万亿参数的中心化大模型[42][43][53] - 公司在模型融合技术路径上选择更具挑战的异构模型融合,区别于Sakana AI等公司的同构模型融合路线,旨在解决不同结构模型(如Llama、DeepSeek、千问)的融合难题[81][82][94] 研发资源与团队管理 - 公司采用低资源训练路径,相较于典型AI初创公司"二八原则"(80%资源投入算力),公司更注重人才质量,团队接近40人,其中一半成员背景强劲,可拿到大厂特殊offer[68][122][126] - 公司研发团队要求成员端到端负责数据、算法、AI Infra,而非按岗位严格分工,以提升全链路理解能力和创新效率,团队成员成长速度远快于在大厂时期[130][133][134] - 公司技术发布坚持高质量优先于速度,重点关注NeurIPS、ICLR、ICML三大顶级会议,并强调技术声誉的积累,认为技术断崖式领先是商业化的根本保障[102][105][141]
前阿里、字节大模型带头人杨红霞创业:大模型预训练,不是少数顶尖玩家的算力竞赛|智能涌现独家
搜狐财经· 2025-10-30 16:35
采访|周鑫雨 邓咏仪 文|周鑫雨 编辑|苏建勋 在阿里、字节接连做了近7年大模型的杨红霞,身上有一种鲜明的挑战精神。 在阿里早期,她从内部的业务阿里搜索推荐系统,投身于初期并不被看好的大模型研究之路。 后来,她带领林俊旸(现通义千问负责人)、周畅(前通义千问大模型负责人)等这一轮中国大模型的核心人才,在达摩院磕出了通义千问的前身,M6 大模型。 2024年7月,杨红霞从字节离职创业后,被曝出仍要做模型相关技术的消息。 "阿里、字节大模型核心人物"的光环,没有盖住彼时市场上悲观的声音:入局太晚,创业公司怎么和大厂争? 时隔一年零三个月,杨红霞带着她的新 AI 公司 InfiX.ai,杀回了大模型赛道。 10月初,《智能涌现》与身在香港的杨红霞,在线上交流了她的创业近况。 然而,杨红霞对我们强调:"模型知识的注入只发生在预训练阶段,后训练提供的是规则。"就好比,预训练一段是 8 年制的医学博士生涯,后训练则是临 床实习的过程。 这就导致,基于企业数据后训练的模型,在实际业务中仍然会出现不少"幻觉"。 "中心化"模型的研发经历,让杨红霞形成了创业的两个原始判断: 但仅从技术中,就能窥见 InfiX.ai 的宏大版图 ...