大模型开源
搜索文档
(经济观察)中国大模型密集开源 影响几何?
中国新闻网· 2025-03-26 00:39
中国大模型开源现状 - 阿里云通义千问在除夕夜开源视觉模型Qwen2 5-VL,并于本月初发布开源推理模型QwQ-32B,发布当日即登顶全球主流AI开源社区Hugging Face趋势榜 [1] - DeepSeek(深度求索)在2月末连续五天发布五个代码库,并于近期开源升级后的DeepSeek-V3模型 [1] - 阶跃星辰在一个月左右时间内开源三款多模态大模型,其最新开源的图生视频模型Step-Video-TI2V支持生成运动幅度和镜头运动可控的视频,并具备特效生成能力 [1] 开源成为潮流的原因 - 端侧智能需求崛起,个人单机部署AI的需求推动端侧智能快速发展 [2] - 企业行业AI部署需求激增,通用云端大模型难以满足差异化业务场景与数据隐私保护需要,开源模型凭借灵活性和定制化能力成为企业实现差异化部署的首选 [2] - AI产业生态化进入加速时刻,出现分工协作体系,头部企业聚焦模型能力强化,中小企业基于开源模型开发细分场景应用,形成产业腰部和后市场 [2] - AI大模型能力显著提升,从“可用”进入“高可用”阶段,用户和应用进入爆发性增长时刻 [3] 开源模型的影响与成果 - 截至3月25日,通义千问开源模型Qwen系列的全球下载量已超2亿,通过开发者和中小企业深入医疗、教育、金融、电力、交通、计算机等行业 [2] - 阿里通义开源模型的衍生模型数量已突破10万个,成为全球最大的开源模型族群 [3] - 中国已成为全球开源参与者数量排名第二、增长速度最快的国家 [3] - 中国大模型借助开源大势缩小与全球领先AI技术的差距,开源生态化获得极大成功,为未来发展积蓄势能 [4]
与 00 后开源者聊 DeepSeek 开源周:一直开源最强模型,可能是不想赚钱,也可能是想推动更大变化丨开源对话#2
晚点LatePost· 2025-02-27 22:03
开源策略与趋势 - DeepSeek宣布"开源周"计划,连续5天开源5个代码库,包括训练与推理工具,比技术报告和模型权重更深度[5] - 开源正成为行业趋势,部分原闭源公司开始发布首批开源模型,OpenAI CEO称"不开源是站在历史错误一边"[5] - DeepSeek通过详细技术报告(如V3达50多页)建立行业声誉,V3作为基座模型涵盖预训练、微调等完整流程[13][15][17] 开源技术层次 - 大模型开源分为四个层次:技术报告、模型权重(HuggingFace发布)、推理框架(如vLLM)、训练框架(如字节Verl)[19][26] - vLLM推理框架GitHub星数近4万,有840多位贡献者,基于PagedAttention论文优化[20][25] - 训练框架开源较少,因涉及复杂代码规范,字节开源的Verl框架支持强化学习算法如PPO和分布式策略[26][27] 工程优化与效率 - DeepSeek创新聚焦效率提升:V3采用多令牌预测、FP8低精度训练、优化流水线并行减少闲置计算单元[40] - FlashMLA开源项目实现算子层优化,类似FlashAttention通过GPU指令重组提升矩阵运算效率[45][46][48] - 工程实现难度高,如在线训练需同时处理生成与模型更新,对底层框架能力要求极高[49][50][51] 商业考量与行业影响 - 开源策略差异源于商业模式:非盈利机构Ai2开源最强模型+数据集,商业公司可能保留核心模型[54][56] - 开源可能重构行业生态,成为技术标准,但未来AI能力极强时开源最强模型或引发滥用风险[55][59] - 公司转向开源需额外投入:代码规范(如阿里代码规约)、适配外部框架(如ESFT适配耗时一周多)[36][34][35] 社区与开发者价值 - GitHub社区活跃度可通过星数(vLLM近4万)、Issues数(数千)、PR数(数百)衡量[20][25] - 开源项目需持续维护,如DeepSeek计划整合5个库功能并修复潜在bug[52] - 开发者诉求多样,包括支持FP8精度、NPU芯片适配等,反映实际应用场景需求[52]
对谈 98 年就做开源的章文嵩:要像维基百科那样,开源共建大模型数据集丨开源对话#1
晚点LatePost· 2025-02-27 22:03
大模型开源趋势与行业影响 - DeepSeek重塑全球大模型格局,扭转行业对开源的理解,推动百度、MiniMax、阶跃星辰等公司转向开源[2][3] - DeepSeek计划开源5个训练、推理相关的代码库,超越多数公司仅开放模型权重的做法[4] - 开源大模型通过降低创新成本、建立生态可能形成"事实标准",如DeepSeek模型推理成本低推动生态自然形成[5][17] 开源数据集与模型性能 - 激进主张认为真正的大模型开源需包含训练数据集,类似维基百科由非营利机构牵头共建[6][9] - 开源模型串接(Llama/Mistral/Qwen)评测表现优于GPT-4o近10个百分点,证明开源数据集潜力[10][11] - 模型能力核心依赖训练数据质量,建议采用GPL类传染性许可证强制商业公司回馈数据集[13][14] 开源商业化路径 - DeepSeek未融资使其能专注技术追求,但未来需探索开源生态商业化如Red Hat的订阅服务模式[23][24] - 开源成功案例显示商业化可通过API服务、技术支持实现,生态需允许其他玩家盈利[28][39] - 中国开源受限于企业定制化需求强、软件采购方强势,但工程师规模全球第二[25][26] 公司开源策略差异 - Meta因错过云计算选择开源AI构建生态,阿里开源驱动因素包括技术品牌建设与云计算业务协同[29][30] - 阿里通过开源委员会流程化管理,将开源贡献纳入职级评审,推动外部贡献者占比提升[35] - 字节闭源、阿里部分开源、DeepSeek全开源的分化源于商业化路径选择差异[28] 开源生态建设经验 - 阿里早期开源tair缓存系统提升技术声誉,工程师因代码公开更注重质量[34] - 开源虽可能被竞品利用(如京东使用阿里开源软件),但能积累不可复制的数据资产与人才吸引力[38] - 中国大模型开源将持续,需多方共建生态形成正反馈,类似Linux成功模式[27][37] 技术演进与行业竞争 - OpenAI闭源因商业化压力难以回头,其有限开源o3-mini模型被视作挽回关注度的举措[19][21] - 芯片禁运背景下,DeepSeek开源策略为中国大模型发展提供关键路径启示[18] - 未来行业可能并存开源非营利巨头与闭源商业巨头,中等规模玩家共存[39]