模型微调 - 财报，业绩电话会，研报，新闻

模型微调

搜索文档

中国证券报· 2025-10-30 05:10

大模型应用战略 - 企业应聚焦于“模型微调”与“模型推理应用”两大环节，而非成本高昂的前期数据获取和模型训练环节[1][2] - 通过引入特定领域数据对基础大模型进行二次训练，可将通用能力转化为适用于医疗、金融、制造等行业的专业化能力[1] - 企业可直接借助DeepSeek、华为等专业科技公司提供的成熟开源基础大模型，实现技术与自身业务场景的深度融合[2] AI PC产业发展 - AI PC定义为一个大模型与一个CPU搭配一块GPU的设备，预计一两年后可能每个人手头都有一个AI PC设备[2] - 类比三四十年前计算机从大机器发展到PC机带来的巨大商机，AI PC预计会成为一个大的产业[2] - AI PC已展现出多元化落地场景，如银行业通过大模型提升客服效率，芯片设计领域实现架构设计与代码生成的自动化[3] AI对企业竞争力的影响 - 企业应将AI定位为核心基础设施，而不仅仅是IT辅助工具，AI是企业竞争力的下一战场[1][3] - AI是驱动增长的第二引擎，通过重塑产品、服务和运营模式，为企业开辟新的增长曲线并直接提升收入与利润率[3] - AI是效率与竞争力的放大器，能将数据转化为决策力，优化内部流程、降低运营成本，并构筑动态竞争壁垒[3]

微调已死！「共识机制」实现提示词自我进化，性能飙升

量子位· 2025-10-28 09:18

AI范式转变 - 人工智能领域正经历从“模型微调”向“上下文工程”的范式转变 [1] - “上下文工程”通过引入明确指令和丰富知识，无需高昂训练成本或开源模型参数，提供更强可解释性 [1] - “微调已死”成为AI领域近期广泛认可的热门话题 [2] 单一提示词的局限性 - 单一提示词表达能力有限，难以全面严谨地表述复杂任务的所有需求 [4] - 多提示词相互协作是自然解决方案，单个提示词无法处理的输入可由其他提示词弥补性能损失 [4] C-Evolve算法核心思想 - 基于“共识机制”的提示词组进化算法C-Evolve通过进化算法生成一组提示词 [6] - 该组提示词对输入信息独立处理后，通过提取所有输出结果的共识以实现最优任务性能 [6] - 算法创新性提出“共识表决得分”评估单个提示词在成组工作时的性能潜力，并采用海岛算法提升组内多样性 [6] 共识机制技术细节 - 共识机制由一组独立、同功能的提示词共同完成 [11] - 对于封闭回答类问题采用多数表决输出高频一致答案，对于开放式提问则用LLM表决筛选最具代表性的输出 [13] - 优化目标是寻找在共识机制下最优的一组提示词 [13] 基于海岛的进化算法 - 算法采用基于海岛的进化算法，在相互独立的海岛内并行迭代种群 [14] - 进化过程包含基于个体独立性能的预热阶段和基于跨海岛分组协作表现的共识进化阶段 [14] - 预热阶段将个体独立得分作为进化算法的适应度评分 [16] 共识表决阶段 - 共识表决阶段以个体组成提示组之后的性能作为进化的适应度 [23] - 算法构建提示组，从各岛屿中分别采样一个个体，并基于共识机制测试这些组的评估性能 [23] - 采用指数平滑后的共识表决得分作为适应度评分，赋予最新采样出的组更高权重以抑制早期历史结果影响 [26][28] 算法性能表现 - C-Evolve同时适用于Qwen3-8B开源模型和GPT-4.1-mini闭源模型 [29] - 在Qwen3-8B模型上，C-Evolve在IFBench任务得分为70.67，相比Baseline的50.03提升显著；在GPT-4.1-mini模型上，C-Evolve得分为70.64，相比Baseline的44.24提升显著 [30] - 算法在Hover、MATH、HotpotQA等多个任务上均取得性能提升，例如在Qwen3-8B的MATH任务上从37.66提升至50.33 [30] 算法优势与意义 - C-Evolve通过多提示词共识机制突破单一系统提示词的性能局限，显著提升系统整体性能 [7][32] - 该方法无需参数微调即可实现算法效能的显著提升，为挖掘成熟商业LLM的模型能力提供了新思路 [34] - “共识机制”模拟生物进化与群体协作，提升了提示词性能并增强了模型在复杂任务中的适应能力 [34]

海外独角兽· 2025-10-24 20:06

LoRA技术的重新评估与优势 - LoRA技术近期被重新重视，研究表明在特定条件下能以更少计算资源达到与全参数微调相当性能[2] - 使用LoRA后可在同一GPU部署上并行处理任意数量适配器，实现按Token定价而非按GPU时长计费，提升部署灵活性和成本效率[3][10] - 各大AI实验室内部进行后训练时普遍使用LoRA技术，尤其在快速验证想法的实验阶段被证明有效[14] 从模型微调向强化学习的行业转型 - 只有在必须使用小参数模型的情况下微调才有必要，约90%场景中微调的ROI不高[4][18] - OpenAI o1模型发布是行业转向RL的关键转折点，RL在前沿通用模型领域投入回报明显，尤其在智能体相关任务中效果突出[19] - 公司于2025年1月决定全面转向RL，虽然初始成功概率估计仅25%，但属于高风险高回报机会，目前胜算已提升至55-60%[20] 强化学习落地的核心挑战与环境搭建 - RL落地最大障碍是训练环境搭建，这是目前唯一尚未自动化、每个任务都需要大量人工工作的环节[4][24] - 高质量模拟环境构建难度极高，需要精确复刻生产环境行为包括故障模式和程序缺陷，大多数企业缺乏此类基础设施[24][25] - World Model可能是解决环境问题的关键，它能模拟外部世界反馈并记录操作引起的状态变化，有望成为环境搭建的解决方案[51][52] 奖励函数与评估机制的创新 - 公司发布通用奖励函数Ruler，基于GRPO核心理念让语言模型对一组结果进行相对评判，该方法与GRPO配合效果远超预期[46][47] - 实验显示使用140亿参数模型训练、320亿参数模型评估的智能体在目标任务上达到最先进水平，表明不需要特别强大的评估模型[47] - 专用评判模型在常见任务中难以超越前沿AI实验室的通用模型，除非针对特殊任务拥有足够多标注数据[50] 行业生态与商业模式演变 - 开源模型目前仅生成5%的Token且占比持续下降，但企业对开源模型需求巨大，若性能达标大多数企业更愿意选择开源模型[40][41] - 闭源模型通过Token补贴维持竞争力，例如Coding领域月费200美元可消费数千美元服务，但这种补贴模式长期不可持续[41][42] - 行业大量AI推理需求仍停留在概念验证阶段，估计潜在需求为已落地规模的十倍，约90%市场因可靠性问题尚未激活[55] 智能体部署与持续学习 - 未来所有大规模部署智能体的企业都将在某个阶段引入RL，要么在部署前训练，要么在部署后持续优化[4][21] - 生产环境部署智能体面临可靠性挑战，故障模式相似且难以通过提示词更新扩展解决，需要RL和持续学习机制[54][55] - Online RL中的奖励黑客问题可通过在奖励提示中补充约束轻松解决，模型一旦找到漏洞会反复执行同样行为易于发现[56][57]

模型微调

强化学习（RL）

奖励函数蒸馏（RFD）

在线评估（online evaluation）

Artificial Intelligence

RL（Reinforcement Learning）

模型微调

强化学习（RL）

奖励函数蒸馏（RFD）

在线评估（online evaluation）

Artificial Intelligence

RL（Reinforcement Learning）

Thinking Machines 发布 Tinker API，实现灵活的模型微调

AI前线· 2025-10-13 21:54

Tinker产品发布与技术特点 - Thinking Machines公司发布用于开放权重语言模型微调的API Tinker 旨在帮助开发者减少基础设施开销并提供托管调度 GPU分配和检查点处理等功能[2] - 该服务通过抽象化集群管理使开发者可通过简单Python调用进行微调支持从小型模型到大型混合专家系统如Qwen-235B-A22B等多种模型架构[2] - 平台集成LoRA技术可提高并行运行微调时GPU内存利用率对研究小组和资源有限团队很实用[2] 产品功能与竞争优势 - Tinker API提供forward_backward和sample等原语可作为灵活构建块用于后训练方法开发者仅需更改Python代码中字符串即可微调模型[2] - 与Hugging Face Trainer API OpenAI微调端点和MosaicML Composer等现有方案相比 Tinker侧重暴露可组合成新方法的低级原语赋予开发者更多控制权但无需管理基础设施[3] - 公司同时发布Tinker Cookbook开源存储库包含使用该API实现常见微调技术的示例如强化学习方法和偏好优化工作流[3] 市场反馈与应用案例 - 早期用户包括普林斯顿斯坦福伯克利和Redwood Research等机构已将Tinker应用于定理证明化学推理及多智能体强化学习等任务[3] - AI专业人士Ignacio de Gregorio评价该方案实现目标的同时外包了最不利于企业发展的分布式训练环节[4] - 创始人Mira Murati指出Tinker为研究人员提供清晰抽象用于编写实验和训练流程同时处理分布式训练复杂性支持创新研究和模型定制[5] 商业化进展 - Tinker目前处于封闭测试阶段早期访问免费后续将采用按使用量计费模式[5] - 开发者和研究团队可直接向Thinking Machines公司申请访问权限[5]

模型微调

开放权重语言模型

Artificial Intelligence

Artificial Intelligence

Tinker API

Tinker Cookbook

用微信聊天记录来做AI数字的你，开源了

36氪· 2025-05-16 15:19

WeClone项目概述 - 开源项目WeClone基于微信聊天记录生成数字分身，技术实现采用Python，支持阿里通义千问2.5模型，已获8.7k星标收藏 [1] - 项目通过RAG知识库原理导入微信聊天记录，结合LoRA微调方法及ASR/TTS技术实现声音克隆，默认使用Qwen2.5-7B-Instruct模型，需16GB显存 [2] 技术实现细节 - 数据预处理依赖PyWxDump工具提取微信聊天记录（不支持4.0版本），需将CSV格式聊天记录存放于./dataset/csv目录 [6] - 支持修改数字人对话场景名称及系统提示词，可设置为个性化身份而非机器人模式 [5] - 项目集成AstrBot实现与微信/企业微信/飞书的平台对接 [2] 应用场景扩展 - 客服场景：利用客服人员聊天记录自动构建话术库，降低知识整理成本并减少人员流动影响 [7] - 营销场景：通过销售聊天记录生成行业定制化数字分身，解决TO B/TO C客户培训差异化问题 [7] - 财务场景：基于财务专员聊天记录生成自动化应答数字人，处理常规财务咨询 [7] 数据价值分析 - 微信聊天记录被验证为最贴近个人特征的私密数据源，可分类不同生活/工作场景数据训练高精度数字分身 [3] - 企业场景中钉钉/企业微信的聊天记录可训练角色化数字人，准确率显著高于通用AI模型 [3][7] 社区生态 - 项目采用AGPL-3.0开源协议，当前版本v0.2.2，含6次版本发布，开发者社区活跃度指标：47人关注/675次分叉 [1][8]

万字解读OpenAI产品哲学：先发布再迭代、不要低估模型微调和评估

Founder Park· 2025-04-15 19:56

核心观点 - OpenAI采用「迭代部署」哲学先发布不完美产品再公开迭代与整个社会共同学习模型能力[4][10] - 公司坚持「模型最大化」理念避免过度构建「脚手架」因模型能力每2-3个月就有突破性进展[10][11] - 优秀AI公司必须同时是一流研究公司和产品公司研究团队与产品团队需深度协作而非接力开发[13] - 行业低估了模型微调价值未来特定用例需定制微调模型组合多个专用模型解决复杂问题[17][18] - 模型评估能力成为AI产品经理核心技能需通过结构化测试精准衡量模型在不同任务的表现[6][28] 产品发布策略 - 命名混乱反映优先级排序模型命名重要性低于快速迭代如GPT-4 1晚于4 5发布但性能更优[1][9] - 季度路线图仅作方向指引实际执行高度灵活因技术变化速度远超传统行业[5][8] - 内部使用热度是产品成功风向标如图像生成功能推出前已在员工中形成病毒式传播[24] 组织架构与人才 - 产品团队保持精简仅25名产品经理依赖产品导向型工程师自主决策[14][15] - 招聘产品经理核心标准：主动性强、适应模糊性、高情商需在技术复杂性中推动跨团队协作[15] - 研究人员嵌入每个产品团队形成「研究-产品」闭环避免沦为自身模型的API消费者[13][16] 技术发展趋势 - 模型能力呈指数级提升 GPT-4o mini成本仅为GPT-3 5 API的1/100 性能却显著增强[33] - 聊天界面仍是AI交互最佳载体非结构化沟通能最大化利用模型理解人类语言的优势[37][38] - 视频生成工具Sora改变影视制作流程导演可快速生成50个创意版本再精修成本降低90%[33] 行业机会判断 - 基础模型公司不会覆盖所有垂直领域创业者应聚焦行业特定数据和用例进行微调创新[19] - 评估体系决定产品上限需针对微调模型开发定制化测试标准如客户支持场景的准确率校准[31] - 提示工程重要性将降低未来可通过「示例植入」实现轻量级微调降低用户使用门槛[20]

Artificial Intelligence

Artificial Intelligence

ChatGPT