模型自研 - 财报，业绩电话会，研报，新闻

模型自研

搜索文档

搜狐财经· 2025-07-17 09:39

AI行业套壳与自研的争议 - 华为盘古大模型与阿里云Qwen大模型相似性引发行业对"原研"与"套壳"的辩论 [1] - 早期套壳行为表现为对ChatGPT的简单模仿如通过API调用配中文界面在微信平台售卖会员服务 [1] - 自主研发公司普遍采用ChatGPT生成数据微调模型利用OpenAI对齐的高质量数据成为行业公开秘密 [1] 大模型技术发展脉络 - 当前主流大模型架构均源于2017年Google Brain的Transformer 分为Decoder-only（GPT）、Encoder-Decoder（T5）和Encoder-only（BERT）三大类 [2] - ChatGPT基于GPT 3.5推出后迅速吸引数千万用户推动GPT架构成为主流同时催生国内山寨ChatGPT泛滥现象 [2] 套壳行为的演变与监管 - 早期低劣套壳如"ChatGPT在线"公众号被罚款6万元成为首例行政处罚案例 [3] - 2023年部分模型仍出现"GPT味"回复企业解释为训练数据混入ChatGPT内容或采用"数据蒸馏"技术 [3] - 字节跳动被曝使用微软OpenAI API生成训练数据引发套壳合规性讨论 [4] 开源时代的技术争议 - Meta开源LLaMA 2后超10款国产模型通过微调LLaMA 2上线引发二次开发是否构成套壳的争议 [4] - 零一万物Yi-34B模型被指套壳LLaMA 但Hugging Face工程师认为其未违反开源协议 [5] - 斯坦福LLaMA3V模型被实锤抄袭面壁智能MiniCPM-LLaMA3-V 2.59 反映国产模型开始成为被套壳对象 [8] 行业对套壳的认知分歧 - 头部企业开源可减少资源浪费百度CEO李彦宏称"重做ChatGPT无意义" [7] - 业内对道德边界存在分歧部分认为需明确技术文档说明法律层面仍属灰色地带 [8] - 头部企业通过开源套壳加速技术积淀但需平衡自研与套壳的取舍 [9]

大模型套壳

模型自研

数据蒸馏

Artificial Intelligence

Artificial Intelligence

ChatGPT

讯飞星火大模型

大模型套壳往事

虎嗅· 2025-07-14 17:26

文章核心观点 - 大模型行业存在"套壳"与"自研"的争议从早期直接包装API的简单套壳发展到利用开源架构和数据蒸馏等更复杂形式行业在争议中推动技术迭代和应用落地 [1][12][22] - 套壳行为存在灰色地带法律界定困难但技术层面可通过架构标签和文档透明度进行追溯企业宣传口径是争议焦点 [22][23][24] - 开源技术降低开发门槛促进百模齐放 92%企业通过微调开源模型提升业务效率24%-37% 但需明确区分技术使用与原创声明 [16][17][23][24] 技术演进与套壳形式 - 早期套壳表现为直接包装ChatGPT API加价售卖如上海熵云公司因仿冒被罚6万元 [4][5][6] - 数据蒸馏成为主流技术用GPT-4等教师模型生成高质量数据训练学生模型字节跳动曾因违规使用OpenAI API引发争议 [8][9][10] - 开源时代套壳争议转向架构使用如零一万物Yi-34B被指重命名LLaMA变量但未违反开源协议 [13][14] 行业生态与影响 - 2023-2024年百模大战中约90%模型基于开源架构微调仅10%为基座模型 Hugging Face平台超150万个模型多为衍生版本 [16] - 轻量化微调技术(LoRA/QLoRA)降低开发成本斯坦福团队LLaMA3V抄袭面壁智能模型事件显示国产模型亦成被套壳对象 [17][19][20] - 国内仅5家企业具备完整自研预训练框架能力多数企业通过开源技术加速垂直领域应用落地 [22][23] 合规与道德边界 - 法律层面存在举证难点套壳获利额度和行为性质界定模糊处于灰色地带 [22] - 技术层面可通过架构标签追溯原创性企业需在文档中明确开源技术使用声明 [23][24] - 行业共识强调"用开源技术不丢人但不应宣称自研" 宣传口径是争议核心 [24]

大模型套壳

数据蒸馏

模型自研

Artificial Intelligence

Artificial Intelligence

ChatGPT

阿里云Qwen大模型