Workflow
数据蒸馏
icon
搜索文档
大模型“套壳”争议:自研与借力的边界何在?
搜狐财经· 2025-07-17 09:39
AI行业套壳与自研的争议 - 华为盘古大模型与阿里云Qwen大模型相似性引发行业对"原研"与"套壳"的辩论 [1] - 早期套壳行为表现为对ChatGPT的简单模仿 如通过API调用配中文界面在微信平台售卖会员服务 [1] - 自主研发公司普遍采用ChatGPT生成数据微调模型 利用OpenAI对齐的高质量数据成为行业公开秘密 [1] 大模型技术发展脉络 - 当前主流大模型架构均源于2017年Google Brain的Transformer 分为Decoder-only(GPT)、Encoder-Decoder(T5)和Encoder-only(BERT)三大类 [2] - ChatGPT基于GPT 3.5推出后迅速吸引数千万用户 推动GPT架构成为主流 同时催生国内山寨ChatGPT泛滥现象 [2] 套壳行为的演变与监管 - 早期低劣套壳如"ChatGPT在线"公众号被罚款6万元 成为首例行政处罚案例 [3] - 2023年部分模型仍出现"GPT味"回复 企业解释为训练数据混入ChatGPT内容或采用"数据蒸馏"技术 [3] - 字节跳动被曝使用微软OpenAI API生成训练数据 引发套壳合规性讨论 [4] 开源时代的技术争议 - Meta开源LLaMA 2后 超10款国产模型通过微调LLaMA 2上线 引发二次开发是否构成套壳的争议 [4] - 零一万物Yi-34B模型被指套壳LLaMA 但Hugging Face工程师认为其未违反开源协议 [5] - 斯坦福LLaMA3V模型被实锤抄袭面壁智能MiniCPM-LLaMA3-V 2.59 反映国产模型开始成为被套壳对象 [8] 行业对套壳的认知分歧 - 头部企业开源可减少资源浪费 百度CEO李彦宏称"重做ChatGPT无意义" [7] - 业内对道德边界存在分歧 部分认为需明确技术文档说明 法律层面仍属灰色地带 [8] - 头部企业通过开源套壳加速技术积淀 但需平衡自研与套壳的取舍 [9]
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
量子位· 2025-05-27 09:07
模型压缩技术突破 - 提出新型数据集蒸馏方法NFCM,在CVPR 2025获满分评价,显存占用仅为前SOTA的1/300且速度提升20倍,仅需2080Ti显卡即可实现CIFAR数据集无损蒸馏 [2][6] - 通过引入NCFD分布差异度量,将数据集蒸馏转化为minmax优化问题,在连续学习和神经架构搜索任务中展现优异性能 [6] - 数据压缩与参数压缩结合成为新趋势,通过高质量数据合成降低训练成本,内部验证节省成本/挑选成本>1的可行性 [7][8][9] 多模态模型加速实践 - 在扩散语言模型中实现最高9倍加速且无性能损失,多模态大模型可删除80%-90% token仍保持高精度 [10][11] - 提出Token-wise Caching(Toca)方法,首次在图像/视频生成中实现无需训练即2倍加速,解决Diffusion Transformer计算瓶颈 [13][14] - TaylorSeer技术将特征缓存从复用转向预测,在DiT等模型实现5倍加速,八卡GPU推理使视频生成速度逼近实时播放 [20][22][24][25] 知识蒸馏演进路径 - 自蒸馏框架通过模型深层蒸馏浅层,ICCV2019论文被引1100+,推动无教师蒸馏发展 [32][33][34] - 知识蒸馏三阶段演进:从强模型教弱模型→自蒸馏→弱模型教强模型,第三阶段具AI进化潜力 [35][36] - 大模型时代强化压缩需求,需平衡结构效率与知识保留,数据视角压缩可避免重训练的高成本 [38][44][46] 行业技术趋势 - 模型压缩从传统剪枝/量化转向数据视角创新,DeepSeek等推动高效低成本范式受关注 [4][26] - 视频生成领域成为技术验证重点,目标实现生成速度超过播放速度的实时效果 [25][27] - 跨专业协作现象显著,非计算机背景人员可参与研究,仅需动机和基础编程能力 [55]
假的
猫笔刀· 2025-01-29 22:18
春晚节目分析 - 春晚歌曲节目预制菜含量高 部分歌手采用预录形式 如王菲2024年表演被识别为预录 而薛之谦和onepublic的表演被识别为真唱 [1] - 语言类节目表现普遍低于演员日常水平 如林黛玉扮演者、岳云鹏和沈腾的表演效果与视频号数据(点赞转发10万+)形成反差 [1] - 舞蹈和魔术类节目保持行业顶尖水准 但刘谦2024年魔术被评价为"前半幼稚后半潦草" [1] 影视行业观察 - 《哪吒2》维持系列高质量水准 预计豆瓣评分8-8.5分 与第一部8.4分持平 故事为原创剧本 与封神原著无关 [2] - 申公豹角色塑造成为亮点 结尾埋下第三部伏笔 显示系列化开发策略 [2] - 动画制作水平超越前作 重要斗法场面展现细节与想象力 影片节奏紧凑 [4] - 票房预测达40亿元 有望成为春节档冠军 光线传媒可能受益 [5] - 春节档市场规模达百亿级别 影视类账号存在商业合作倾向 [6] 科技行业动态 - 英伟达股价单日大涨9% 收复周一半数跌幅 [6] - OpenAI指控Deepseek使用其专有模型训练开源模型 涉及数据蒸馏技术 但未提供具体证据 [6] - 数据蒸馏在AI行业普遍存在 被类比为"AI仿制药" 目前缺乏明确版权监管 [6]