Workflow
模型融合
icon
搜索文档
前阿里、字节大模型带头人杨红霞创业:大模型预训练,不是少数顶尖玩家的算力竞赛|36氪独家
36氪· 2025-10-30 21:37
公司核心战略与技术路径 - 公司InfiX.ai由前阿里和字节大模型核心人物杨红霞创立,致力于大模型预训练的"去中心化",旨在降低资源消耗,使中小企业、研究机构甚至个人都能参与模型预训练[7][12][13] - 公司技术路径与主流"中心化"模型(如GPT系列)截然不同,核心判断是模型知识的注入只发生在预训练阶段,后训练仅提供规则,因此企业本地化部署必须进行持续预训练才能有效利用私有数据[14][16][34][35] - 公司选择香港作为基地,主要考量包括香港产学研项目提供的丰厚资金和算力补贴(如获得香港数码港超算中心90%的算力减免折扣),以及全球领先的人才密度,使团队快速组建至40人规模[10][113][121] 核心技术成果与性能 - 公司开源全球首个FP8训练"全家桶"(InfiR2 FP8),相较于行业普遍采用的FP16/BF16,在模型性能几乎无损的情况下,最高提升训练速度22%,最高节省显存峰值14%,端到端吞吐量最高提升19%[17][18][20] - 公司推出模型融合技术InfiFusion,可将不同领域预训练的异构"专家模型"进行融合,避免模型重复训练造成的资源浪费,目前已实现四个异构模型融合,在18个推理Benchmark上平均得分从77分提升至79分,最新方法已逼近88分[17][21][92][93][95][96] - 公司推出医疗多模态大模型训练框架InfiMed,基于小规模数据(如36K RLV)和算力资源训练的小参数模型(如3B)在七大医疗基准测试中平均准确率达59.2%,显著优于同尺寸的谷歌MedGemma-4B-IT(54.8%)[17][22][23] 行业趋势与竞争格局 - "去中心化"模型训练趋势在国际上得到验证,前OpenAI CTO Mira Murati成立的新公司Thinking Machines Lab在种子轮融资20亿美元,估值达120亿美元,显示出市场对该路径的强烈信心[27][28][63] - 行业共识正转向领域模型小型化趋势,MIT Tech Review将小语言模型列为2025年十大突破性技术之一,公司早在2024年中已验证在垂直领域小模型(如30亿、70亿参数)可超越1.6万亿参数的中心化大模型[42][43][53] - 公司在模型融合技术路径上选择更具挑战的异构模型融合,区别于Sakana AI等公司的同构模型融合路线,旨在解决不同结构模型(如Llama、DeepSeek、千问)的融合难题[81][82][94] 研发资源与团队管理 - 公司采用低资源训练路径,相较于典型AI初创公司"二八原则"(80%资源投入算力),公司更注重人才质量,团队接近40人,其中一半成员背景强劲,可拿到大厂特殊offer[68][122][126] - 公司研发团队要求成员端到端负责数据、算法、AI Infra,而非按岗位严格分工,以提升全链路理解能力和创新效率,团队成员成长速度远快于在大厂时期[130][133][134] - 公司技术发布坚持高质量优先于速度,重点关注NeurIPS、ICLR、ICML三大顶级会议,并强调技术声誉的积累,认为技术断崖式领先是商业化的根本保障[102][105][141]
前阿里、字节大模型带头人杨红霞创业:大模型预训练,不是少数顶尖玩家的算力竞赛|智能涌现独家
搜狐财经· 2025-10-30 16:35
公司概况与战略定位 - 创始人杨红霞在阿里和字节拥有近7年大模型研发经验,曾带领团队开发通义千问前身M6大模型[1] - 新AI公司InfiX.ai于2024年7月成立,选择香港作为总部,快速组建40人团队[1][3] - 公司获得香港理工大学支持,通过RAISe+计划获得政府100亿元资助,并在算力上获得90%减免折扣[73][74][76] 核心技术:低资源训练与去中心化 - 开源全球首个FP8训练"全家桶",在模型性能几乎无损下,最高提升训练速度22%,节省显存14%[6][7][9] - 提出模型融合技术InfiFusion,可将不同尺寸和结构的领域专家模型融合,避免重复训练造成的资源浪费[6][10] - 专注于异构模型融合,突破同构模型限制,在18个推理基准测试中平均得分从77分提升至79分,最新方法逼近88分[50][51][60][61][63][64] 技术应用与领域突破 - 推出医疗多模态大模型训练框架InfiMed,基于36K RLV小规模数据训练的3B模型在七大医疗基准测试中平均准确率达59.2%,超越谷歌MedGemma-4B-IT[11][12] - 多智能体系统InfiAgent在需要多步推理的复杂任务DROP上领先最佳基线3.6%[13][14] - 选择癌症领域作为技术验证场景,因其数据多模态特性复杂,能更好区分模型能力[39][41] 行业趋势与融资进展 - "去中心化"训练范式获市场认可,前OpenAI CTO新公司Thinking Machines Lab种子轮融资20亿美元,估值120亿美元[15][34] - InfiX.ai第二轮Pre-A融资仅用两周完成,目前处于超募状态,估值达数亿美元[15][37][38] - 小语言模型被MIT Tech Review列为2025年十大突破性技术,验证公司技术方向正确性[27] 研发理念与团队建设 - 公司坚持技术驱动,认为技术断崖式领先是商业化基础,不急于追求短期商业化成果[86][88][89] - 团队规模约40人,强调成员代码能力、好奇心和合作态度,实行端到端研发模式[79][80][81] - 研发节奏聚焦三大顶级AI会议,但对重大成果会立即发布,如医疗模型7B参数规模超过GPT-5的成果[67][68]
参数空间对称性:深度学习理论的统一几何框架
机器之心· 2025-10-29 17:25
文章核心观点 - 深度学习模型的有效性部分源于神经网络参数空间中广泛存在的对称性,即大量不同的参数配置可实现相同的模型函数 [2] - 参数空间对称性为理解深度学习的优化动态、损失地形和泛化性能提供了统一的数学框架和几何视角 [2][6] - 对称性研究正从理论概念转化为可操作的算法原则,影响优化方法、模型融合及权重空间学习等多个领域 [31] 参数空间对称性的定义与类型 - 参数空间对称性是指保持神经网络损失函数不变的参数变换,数学上表示为 L(g·θ) = L(θ),这些变换构成一个群并在参数空间中定义等价轨道 [6] - 离散对称性如神经元置换对称:交换隐藏层中两个神经元及其关联权重,网络函数保持不变 [4][6] - 连续对称性如ReLU网络的缩放对称和自注意力机制的一般线性对称,可将孤立极小值点拉伸成连续的平坦流形 [7][8][10] 对称性对损失地形的影响 - 连续对称性导致损失地形中出现平坦的极小值流形,沿此流形移动损失值不变,这意味着许多平坦方向由结构对称性决定而非泛化能力 [10][13] - 离散对称性会在参数空间复制大量功能相同的极小值副本,使极小值数量随网络宽度呈阶乘级增长 [13] - 对称性天然创造连接功能等价参数的连续路径,这解释了独立训练模型间观察到的模式连通性及模型融合的有效性 [10] 对称性在优化算法中的应用 - 对称性导致等损失点可能对应不同的梯度和训练轨迹,为算法设计带来新可能 [15][16] - 一类优化方法主动利用对称性在等价轨道中寻找梯度更优的点以加速收敛,另一类方法追求对称不变性使优化结果对初始变换不敏感 [16][19] - 对称性成为理解和改进优化算法的重要线索,其应用思路分为利用自由度和约简冗余两种 [19] 对称性与学习动力学 - 连续对称性对应训练过程中的守恒量,类似物理中的诺特定理,这些量在梯度流中保持恒定 [21][22] - 守恒量如线性网络中相邻层的Gram矩阵差、ReLU网络中输入输出权重的范数差,揭示了训练稳定性并帮助解释优化的隐式偏置 [22][23] - 不同的初始化对应不同的守恒量值,从而影响最终收敛点和泛化性能,参数空间的对称结构决定了学习轨迹与结果的统计分布 [23][25] 跨空间的对称性联系 - 参数空间对称性与数据空间和内部表征空间的对称性紧密相连,当数据分布具有对称性时,模型参数会继承这些结构 [27][28] - 在权重空间学习等新兴方向中,对称性成为新的数据结构,支持等变元网络在模型性质分析、生成及优化权重更新等任务中的应用 [28][29] - 等变元网络可直接在模型权重上进行学习,用于预测模型泛化能力或生成满足特定特征的新模型 [29]
腾讯研究院AI速递 20250827
腾讯研究院· 2025-08-27 00:01
生成式AI模型技术突破 - 英伟达推出Jet-Nemotron小模型系列(2B/4B参数),采用后神经架构搜索与JetBlock线性注意力模块,在数学、代码、常识等维度性能超越Qwen3、Gemma3等主流开源模型 [1] - 模型在H100 GPU上推理吞吐量最高提升53.6倍,长上下文场景优势显著 [1] - 面壁多模态模型MiniCPM-V 4.5以8B参数量超越Qwen2.5-VL 72B模型,成为首个具备高刷视频理解能力的多模态模型 [2] - 支持最大96倍视觉压缩率,可接收6倍视频帧数量,采用3D-Resampler压缩技术和统一OCR学习 [2] - 微软开源音频模型VibeVoice-1.5B,可连续合成90分钟超长语音,支持4名发言人,实现3200倍音频压缩 [3] - 采用双语音tokenizer架构解决音色与语义不匹配问题,压缩效率是主流Encodec模型的80倍 [3] 模型融合与演化创新 - Sakana AI提出M2N2模型融合进化方法,引入竞争与吸引力机制,打破预定义静态边界 [4] - 通过多样性竞争促使模型专业化,择偶机制根据互补优势配对融合,避免灾难性遗忘问题 [4] - 方法兼容不同目标训练的模型,不需原始训练数据即可保留模型能力 [4] 模型部署与运营问题 - DeepSeek V3.1存在异常插入"极/極/extreme"等token的bug,影响语法树和代理流程 [5] - 问题出现在第三方量化部署和官方全精度模型中,即使保守解码参数设置也无法避免 [6] - 对依赖自动化编码或测试流水线的团队造成重大麻烦 [6] AI商业与生态发展 - Perplexity推出全球首个AI搜索收入分成计划,设立4250万美元基金分配给出版商 [7] - 出版商可获得Comet Plus订阅收入(月费5美元)的80%,基于内容出现频率或查询次数分享收入 [7] - 马斯克旗下公司起诉苹果与OpenAI,指控通过锁定市场维持垄断地位,阻止创新者参与竞争 [8] - 诉讼索赔数十亿美元,案件可能影响AI市场范畴界定和商业合作模式 [8] 机器人硬件与算力升级 - 英伟达发布机器人专用芯片Jetson Thor,采用Blackwell架构GPU,AI算力达2070 FP4 TFLOPS [9] - 算力是上代Jetson Orin的7.5倍,内存容量128G,显存带宽273GB/s,能效提升3.5倍 [9] - 宇树科技、银河通用机器人等中国厂商首发搭载,开发者套件售价3499美元 [9] 人工智能教育与政策 - OpenAI教育负责人表示70%雇主更倾向招聘会使用AI的新人而非有10年经验的老手 [10] - ChatGPT成为全球最大学习平台,Study Mode功能以苏格拉底式方法指导学习 [10] - 国务院发布《人工智能+行动意见》,提出2027年实现AI与6大重点领域深度融合 [12] - 重点覆盖科学技术、产业发展、消费提质等领域,要求加强算力统筹、数据供给等八大基础支撑 [12]
ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通
机器之心· 2025-07-26 20:17
常规 LoRA 训练的隐藏缺陷 - 参数高效微调技术是预训练大模型在下游任务应用的关键技术,但 LoRA 仍面临训练不稳定、模型融合效果差、剪枝后性能下降等问题 [4] - LoRA 优化过程常陷入初始化点附近的次优解,限制模型泛化能力 [7] - 梯度更新集中在模型顶层适配器,导致底层适配器训练不足 [7] - 多个 LoRA 模型融合和剪枝等下游操作困难,效果不佳 [7] CoTo 策略的核心思想 - 采用渐进式激活策略,训练初期以较高概率随机失活部分 LoRA 适配器,迫使梯度更均匀流向所有层级 [5] - 训练中后期线性提高适配器激活概率,直到所有适配器完全参与训练 [8] - 该策略促进层级间均衡优化,提升模型线性模式连通性和 Dropout 稳定性 [8] CoTo 的实验结果 - 在常识推理与图像分类任务中,CoTo 模型展现优越的线性模式连通性,性能过渡平滑高效 [13] - 在 GLUE 数据集上,基于 LLaMA-2 和 DeBERTa-v3 模型的 CoTo 训练 LoRA 模块多任务合并准确率稳定超越基线 [13] - CoTo 增强模型剪枝容错能力,在结构化和非结构化剪枝中性能全面超越标准 LoRA [17] CoTo 的性能与效率 - 在视觉、语言和数学推理等多个领域基准测试中,CoTo 稳定提升多种 LoRA 变体性能 [24] - 在 HiRA 上应用 CoTo 可实现超 24% 的训练加速 [24] - 代码实现简洁,只需对现有 LoRA 训练流程做三步改动即可应用 [22] CoTo 的总结 - 通过渐进式训练策略有效解决 LoRA 训练中的层级不平衡和优化问题 [23] - 提升模型单任务泛化能力,增强 LoRA 适配器可组合性与鲁棒性 [23] - 无需修改模型架构,可作为即插即用模块与各类 LoRA 方法无缝集成 [23]
不用等R2了!第三方给新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗过2米门
量子位· 2025-04-28 14:36
DeepSeek R2传闻与模型融合技术发展 - 坊间传闻DeepSeek即将发布R2模型,参数规模达1.2T万亿,训练数据5.2PB,可能高效利用华为芯片,但信息真实性待验证 [1] - 开源社区推测R2的基础模型可能是新版DeepSeek V3-0324,发布时间或在4月底,依据是R1与V3的间隔周期 [4] R1T-Chimera融合模型特性 - 德国TNG团队推出非官方融合模型R1T-Chimera,基于MIT协议开源,结合DeepSeek V3-0324共享专家与R1/V3路由专家,能力接近R1但输出token减少40% [5][6][8][9][14] - 模型融合后表现优于预期,思考过程更紧凑有序,未出现融合缺陷,但技术细节尚未公开 [15][16] - 在三维空间推理测试中,R1T-Chimera耗时101秒(原版R1为13秒),通过计算得出解决方案,但过程中存在旋转/弯曲甘蔗等误区 [17][18][19][20][22][23] 行业模型融合技术动态 - Kimi K1.5技术报告探索长/短思维链模型权重平均融合法,无需重新训练 [27] - Sakana AI提出基于进化算法的block级融合方法,早于行业布局 [31][32] - 模型融合技术可能成为2025年大模型发展趋势,多团队跟进验证 [34] 资源与社区参与 - R1T-Chimera模型权重可通过HuggingFace下载,OpenRouter提供免费在线试玩 [13][36] - HuggingFace创始人建议关注官方更新,以获取最新动态 [3]