Workflow
阿里云Qwen大模型
icon
搜索文档
大模型“套壳”争议:自研与借力的边界何在?
搜狐财经· 2025-07-17 09:39
AI行业套壳与自研的争议 - 华为盘古大模型与阿里云Qwen大模型相似性引发行业对"原研"与"套壳"的辩论 [1] - 早期套壳行为表现为对ChatGPT的简单模仿 如通过API调用配中文界面在微信平台售卖会员服务 [1] - 自主研发公司普遍采用ChatGPT生成数据微调模型 利用OpenAI对齐的高质量数据成为行业公开秘密 [1] 大模型技术发展脉络 - 当前主流大模型架构均源于2017年Google Brain的Transformer 分为Decoder-only(GPT)、Encoder-Decoder(T5)和Encoder-only(BERT)三大类 [2] - ChatGPT基于GPT 3.5推出后迅速吸引数千万用户 推动GPT架构成为主流 同时催生国内山寨ChatGPT泛滥现象 [2] 套壳行为的演变与监管 - 早期低劣套壳如"ChatGPT在线"公众号被罚款6万元 成为首例行政处罚案例 [3] - 2023年部分模型仍出现"GPT味"回复 企业解释为训练数据混入ChatGPT内容或采用"数据蒸馏"技术 [3] - 字节跳动被曝使用微软OpenAI API生成训练数据 引发套壳合规性讨论 [4] 开源时代的技术争议 - Meta开源LLaMA 2后 超10款国产模型通过微调LLaMA 2上线 引发二次开发是否构成套壳的争议 [4] - 零一万物Yi-34B模型被指套壳LLaMA 但Hugging Face工程师认为其未违反开源协议 [5] - 斯坦福LLaMA3V模型被实锤抄袭面壁智能MiniCPM-LLaMA3-V 2.59 反映国产模型开始成为被套壳对象 [8] 行业对套壳的认知分歧 - 头部企业开源可减少资源浪费 百度CEO李彦宏称"重做ChatGPT无意义" [7] - 业内对道德边界存在分歧 部分认为需明确技术文档说明 法律层面仍属灰色地带 [8] - 头部企业通过开源套壳加速技术积淀 但需平衡自研与套壳的取舍 [9]
大模型套壳往事
虎嗅· 2025-07-14 17:26
华为盘古大模型涉嫌套壳阿里云Qwen大模型的风波,再次将模型"原研"与"套壳"的讨论摆上了台面。 回溯三年前,在ChatGPT刚刚开启大模型航海时代时,那时候的套壳还停留在小作坊山寨ChatGPT的阶 段。调用ChatGPT的API,接口再包上一层"中文UI",就能在微信群里按调用次数卖会员。那一年,套 壳成了很多人通往AI财富故事的第一张船票。 同时,开始自主研发大模型的公司里,也不乏对ChatGPT的借力。这些企业虽然有着自研的模型架构, 但在微调阶段或多或少利用了ChatGPT或GPT-4等对话模型生成的数据来做微调。这些合成语料,既保 证了数据的多样性,又是经过OpenAI对齐后的高质量数据。借力ChatGPT可以说是行业内公开的秘密。 从2023年开始,大模型赛道进入开源时代,借助开源框架进行模型训练,成为了很多创业团队的选择。 越来越多的团队公开自己的研究成果,推动技术的交流与迭代,也让套壳开发成为了更普遍的行为。随 意之而的,争议性的套壳事件也逐渐增多,各种涉嫌套壳的事件屡次冲上热搜,随后又被相关方解释澄 清。 国内大模型行业也在"套"与"被套"中,轮番向前发展着。 一、GPT火爆的那一年:山寨 ...