LoRA - 财报，业绩电话会，研报，新闻

LoRA

搜索文档

数字生命卡兹克· 2025-10-13 09:33

公司战略转型 - liblib宣布升级至2.0版本，推出新品牌、新logo、新界面和新功能[3] - 公司从专注于Stable Diffusion的开源社区转型为一站式AI创作平台[59][65] - 平台集成了多种AI绘图模型，如Seedream、Midjourney、Qwen等，以及几乎所有的AI视频模型[60] - 新增特效模板功能，用户可一键复刻效果，类似于海外平台Higgsfield[62] - 此次商业转型旨在降低使用门槛，扩大用户群，预计用户规模将增长10倍[64][67] 行业生态演变 - Stable Diffusion在2023年初处于鼎盛时期，其开源、免费、可本地运行的特点让普通人首次体验到AI绘图[11][19] - 当时生态呈现爆炸式成长，涌现出WebUI、ComfyUI等工具以及ControlNet等关键插件[28][34][36] - 社区活跃度极高，用户需要学习Prompt编写、CFG scale、Seed值、采样步骤等复杂参数[22][23][50] - 行业标志性人物包括Dynamic Wang、Nenly同学、zho、海辛、阿文、青龙圣者等[33] - 伴随技术迭代，行业向简单易用方向发展，出现了GPT-4o、NanoBanana、Seedream等更易用的模型[53][54] - 商业演进导致以SD为代表的高门槛开源生态遇冷，用户因复杂性和学习成本高而流失[50][51][55]

ChatGPT架构师，刚发布了最新研究成果

量子位· 2025-09-30 20:22

研究核心观点 - Thinking Machines发布第三篇研究博客，核心作者为OpenAI联创John Schulman，OpenAI前CTO Mira Murati为其转发站台[1] - 研究证实LoRA参数高效微调方法在抓准关键细节后，不仅能与全量微调拥有相同的样本效率，还能达到一样的最终性能[7] - 研究给出了大幅降低LoRA调参难度的简化方案[3][22] 研究背景与问题 - 当前主流大模型参数达万亿级别，预训练数据达数十万亿token，但下游任务通常只需小数据集且聚焦特定领域[6] - 全量微调更新所有参数会导致资源浪费严重，而LoRA作为参数高效微调方法，通过低秩矩阵捕捉微调信息，但始终面临能否追上全量微调性能的争议[7] 核心研究发现 - 在中小数据集微调场景下，高秩LoRA（如秩512）的学习曲线与全量微调几乎完全重合，损失值均随训练步数呈对数线性下降[9][11] - 仅在数据集规模远超LoRA自身容量的极端情况下，其训练效率才会出现下滑，但这种情况在多数后训练场景中极少出现[11] - 在数学推理类强化学习任务中，即便将LoRA的秩降低至1，其性能依旧能与全量微调持平，因为强化学习每轮训练仅需依靠scalar优势函数吸收O(1)比特信息，秩1 LoRA的参数容量已满足需求[13][14] LoRA应用优化策略 - LoRA应用需实现全层覆盖而非仅聚焦注意力层，因为模型梯度的主导权掌握在参数数量更多的层手中[15][21] - 仅作用于注意力层的LoRA表现明显落后，即便提升秩来匹配参数量，性能差距依然显著[16][17] - 当LoRA应用于模型所有层（尤其是参数占比最高的MLP层与MoE层）时，性能得到极大提升，仅在MLP层单独应用LoRA效果就与组合应用相差无几[19] 调参简化方案 - LoRA的最优学习率存在明确规律，始终约为全量微调的10倍，这一比例在14个不同模型的测试中几乎保持恒定[12][22] - 得益于1/r缩放因子的作用，不同秩LoRA的最优学习率差异极小，在秩4至秩512范围内变化幅度不足2倍，短期训练任务中甚至可忽略秩对最优学习率的影响[22] - LoRA的4个潜在超参数中有2个属于冗余参数，实际调试只需重点关注"初始更新规模"与"A矩阵偏离初始状态的步数"两个维度，这将调参难度降低了一半[25][26] 作者背景 - 研究核心作者John Schulman为OpenAI联创，在OpenAI工作9年期间领导了从GPT-3.5到GPT-4o的一系列对齐/后训练工作，被誉为ChatGPT架构师[27][28] - John Schulman学术引用近14万，其代表作PPO算法是ChatGPT核心技术RLHF中选用的强化学习算法[29] - John Schulman现以首席科学家身份加入Thinking Machines，旨在回归核心技术领域[30]

参数高效微调（PEFT）

强化学习

Artificial Intelligence

Artificial Intelligence

LoRA

FullFT

ChatGPT

Thinking Machines又发高质量博客：力推LoRA，不输全量微调

机器之心· 2025-09-30 18:38

文章核心观点 - LoRA（低秩适配）作为一种参数高效微调方法，在绝大多数后训练场景下，能以远低于全量微调的成本获得几乎同等的效果，这一优势区间被称为“低遗憾区间” [2][18] - 研究系统性地揭示了LoRA与全量微调在不同数据规模、任务类型和应用层上的性能对比关系 [7][16] LoRA的重要性与优势 - LoRA是当前最热门的参数高效微调方法，其核心思想是通过学习一个低维适配器（两个小矩阵A和B）来表示更新，而非直接改动整个模型的权重 [11] - LoRA的优势包括支持多租户部署、低显存需求、快速加载和迁移，使其自2021年诞生以来迅速流行 [13] - 在计算效率上，LoRA只更新低秩矩阵，前向+反向传播的FLOPs大约是FullFT的2/3，能用更少计算量达到相似效果 [38][39] LoRA与全量微调的性能对比 - 在小数据量任务上，LoRA与FullFT几乎没有差距，完全可以对齐 [7][22] - 在大数据量任务上，LoRA的容量不足，承载不了过多新知识，表现会落后于FullFT，这种差距主要体现在训练效率的下降 [7][16][25] - 在强化学习任务中，即使LoRA的秩极低（rank=1），也能达到与FullFT接近的效果，这与强化学习对模型容量需求较低的理论预期一致 [7][17][29] LoRA的关键应用要素 - LoRA的应用位置有讲究，仅加在注意力层并不理想，覆盖所有权重矩阵（尤其是MLP和MoE层）效果更佳 [8][16][26] - LoRA在大批量训练下，性能下降比FullFT更明显，且这种现象无法通过提升LoRA的秩来缓解 [8][16][25] - LoRA的最佳学习率约是FullFT的10倍，且学习率对秩的依赖非常弱，简化了超参数调优 [23][33][35] 实验方法与主要发现 - 研究采用LLaMA 3和Qwen3模型，在Tulu3、OpenThoughts3等数据集上进行有监督微调和强化学习任务测试，并系统调整LoRA的秩（从1到512）[20] - 实验结果表明，在小到中等数据规模下，高秩LoRA的性能几乎与FullFT无差别 [16][22] - 对于超过LoRA容量的数据集，LoRA的损失并不会达到一个无法降低的明显下限，而是会导致更差的训练效率 [25] 理论分析与未来方向 - 从信息论角度分析，在监督学习中，模型大约可存储每个参数2 bits信息；在强化学习中，每个episode约提供1 bit信息，这解释了后者对LoRA容量要求较低的原因 [38] - 未来探索方向包括精准预测LoRA性能差距的条件、建立其学习动态的理论框架、测评LoRA变体表现以及研究其在MoE层的应用方案 [42]

参数高效微调（PEFT）

低遗憾区间（low - regret region）

Artificial Intelligence

LoRA

Full Fine - tuning (FullFT)

参数高效微调（PEFT）

低遗憾区间（low - regret region）

Artificial Intelligence

LoRA

Full Fine - tuning (FullFT)

ICML 2025 | CoTo：让LoRA训练「渐入佳境」，模型融合、剪枝样样精通

机器之心· 2025-07-26 20:17

常规 LoRA 训练的隐藏缺陷 - 参数高效微调技术是预训练大模型在下游任务应用的关键技术，但 LoRA 仍面临训练不稳定、模型融合效果差、剪枝后性能下降等问题 [4] - LoRA 优化过程常陷入初始化点附近的次优解，限制模型泛化能力 [7] - 梯度更新集中在模型顶层适配器，导致底层适配器训练不足 [7] - 多个 LoRA 模型融合和剪枝等下游操作困难，效果不佳 [7] CoTo 策略的核心思想 - 采用渐进式激活策略，训练初期以较高概率随机失活部分 LoRA 适配器，迫使梯度更均匀流向所有层级 [5] - 训练中后期线性提高适配器激活概率，直到所有适配器完全参与训练 [8] - 该策略促进层级间均衡优化，提升模型线性模式连通性和 Dropout 稳定性 [8] CoTo 的实验结果 - 在常识推理与图像分类任务中，CoTo 模型展现优越的线性模式连通性，性能过渡平滑高效 [13] - 在 GLUE 数据集上，基于 LLaMA-2 和 DeBERTa-v3 模型的 CoTo 训练 LoRA 模块多任务合并准确率稳定超越基线 [13] - CoTo 增强模型剪枝容错能力，在结构化和非结构化剪枝中性能全面超越标准 LoRA [17] CoTo 的性能与效率 - 在视觉、语言和数学推理等多个领域基准测试中，CoTo 稳定提升多种 LoRA 变体性能 [24] - 在 HiRA 上应用 CoTo 可实现超 24% 的训练加速 [24] - 代码实现简洁，只需对现有 LoRA 训练流程做三步改动即可应用 [22] CoTo 的总结 - 通过渐进式训练策略有效解决 LoRA 训练中的层级不平衡和优化问题 [23] - 提升模型单任务泛化能力，增强 LoRA 适配器可组合性与鲁棒性 [23] - 无需修改模型架构，可作为即插即用模块与各类 LoRA 方法无缝集成 [23]

Artificial Intelligence

Artificial Intelligence

CoTo

充分激发模态协作，MokA量身打造MLLM微调新范式

机器之心· 2025-06-29 10:21

多模态大模型微调方法研究核心观点 - 当前多模态大模型微调方法直接沿用单模态策略（如LoRA），忽视模态异质性导致信息利用不足 [2][8] - 研究团队提出MokA方法，首次同时兼顾单模态独立建模（Unimodal Adaptation）和跨模态交互建模（Cross-modal Adaptation）[9][12] - 实验证明MokA在音频-视觉-文本、视觉-文本、语音-文本三大场景中性能显著超越现有方法 [19][20][21][22] 方法论创新 - **模态特异A矩阵**：为每种模态设置独立参数空间，避免信息压缩干扰 [15] - **跨模态注意力机制**：在低秩空间显式强化文本与非文本模态的任务关联 [16] - **共享B矩阵**：将独立模态投影至共享空间实现隐式对齐 [17] 实验结果音频-视觉-文本场景 - LLaMA2基座上MokA准确率达75.71（LoRA基线73.41）[20] - Qwen2.5-VL基座提升1.87个百分点至74.87 [20] - LLaMA3基座实现当前最高79.15准确率 [20] 视觉-文本场景 - MMEpercep评测中MokA得分1292.37（Qwen2基座），较LoRA提升21.7% [21] - SEED-Bench准确率提升2.85个百分点至58.10 [21] 架构优势 - 参数量仅需N个A矩阵+1个B矩阵，保持LoRA高效特性 [20][21] - 兼容LLaMA/Qwen等主流基座模型 [19] 行业意义 - 为多模态大模型微调提供新范式，突破单模态策略迁移的局限性 [12][23] - 开源项目已覆盖三大高频应用场景，具备商业化落地潜力 [5][19]

多模态大模型

多模态微调

Artificial Intelligence

Artificial Intelligence

MokA

LoRA

LoRA中到底有多少参数冗余？新研究：砍掉95%都能保持高性能

机器之心· 2025-05-02 12:39

核心观点 - LoRI技术通过大幅减少LoRA的可训练参数（仅5%），在数学推理、代码生成、安全对齐及自然语言理解任务上匹配或超越全量微调、标准LoRA和DoRA的性能 [1] - LoRI冻结低秩矩阵A并采用任务特定稀疏掩码训练矩阵B，通过校准过程保留关键元素，实现90%稀疏度下仍保持性能 [4] - 在Llama-3-8B和Mistral-7B模型上，LoRI-S（0.05%参数）比LoRA减少95%可训练参数，HumanEval任务性能提升17.3% [9][17] 技术原理 - LoRI将权重更新分解为低秩矩阵，固定随机投影矩阵A，仅稀疏训练矩阵B，显著降低参数干扰 [4][13] - 通过幅度选择校准提取稀疏掩码，保留B中最高幅度元素，实现跨任务参数隔离 [4] - 与IA3的区别：IA3学习缩放向量调整激活函数，而LoRI基于低秩矩阵分解并应用固定稀疏掩码 [15][16] 性能表现 - 单任务测试：LoRI-D（0.54%参数）在8项NLU任务平均得分87.3，超越LoRA（87.1）和DoRA（87.1） [19] - 代码生成：Llama-3-8B上LoRI-D在HumanEval的Pass@10达63.2%，显著高于LoRA（50.8%） [19] - 安全对齐：LoRI-S在HEx-PHI任务得分95.9%，优于LoRA（91.6%）和DoRA（93.6%） [19] 多任务应用 - 适配器合并：LoRI串联融合方案在异构任务（NLU/数学/代码/安全）中性能接近单任务基线，干扰最小化 [20] - 持续学习：LoRI-S通过90%稀疏掩码实现安全对齐遗忘率最低，安全→NLU任务中参数隔离效果显著 [22] - 两阶段训练：先安全对齐后任务适配的策略使LoRI在保持安全性的同时提升下游任务表现 [22] 实验设置 - 基准模型：Llama-3-8B（8.03G参数）和Mistral-7B（7.24G参数） [17][19] - 硬件配置：8块NVIDIA A5000 GPU完成所有实验 [17] - 对比方法：全量微调（FFT）、标准LoRA（1%参数）、DoRA（1.05%参数） [19]