快手快意模型
搜索文档
多模态技术爆发元年,行业应用如何落地?
AI前线· 2025-05-06 12:25
文章核心观点 - 多模态大模型技术正推动各行各业从“人工密集型”向“AI原生驱动”变革,其发展面临核心技术挑战,并催生新的应用场景,行业下一阶段的突破将集中在技术、数据与应用等多个方向 [1][4][94][96][98] 多模态技术探索与业务应用 - **快手**的AIGC业务“可灵”具备文本或图片生成视频能力,其多模态模型通过深度视频理解系统解析语义与知识,支撑数字人交互、素材剪辑、电商广告等场景,视频生产成本直降50% [8][9] - **腾讯**基于多模态基础模型研发图像、视频、3D内容生成系统,采用图生图、图生视频等混合生成模式,技术已在影视创作、社交内容、游戏资产、智能广告等领域规模化应用 [11] - 快手技术核心在于预训练阶段对多模态数据的深度解析,不仅提取基础语义,更强调美学要素和镜头语言(如景别识别、运镜分析)的结构化解析,以提升生成内容质量 [13][14] - 腾讯在游戏生产环节实现显著效率优化,2D概念阶段用于角色、皮肤、场景生产,3D技术用于道具和简单场景建模,AIGC还用于互动影游的动态内容生成以降低制作成本 [90] - 在泛营销场景,腾讯利用AIGC技术智能化生成广告素材,特别是快速制作广告视频的关键前三秒内容,以吸引观众并避免重复 [91] - 快手通过提升数据质量,使文本到视频(T2V)模型的训练收敛速度显著加快,类似现象在语言模型训练中也有体现 [93] 开源与闭源策略 - **腾讯**认为开源与闭源是交替引领的双轨模式:开源生态通过社区加速迭代,闭源体系聚焦商业深度优化,开源策略能拓展技术商业化边界,社区创新可反哺企业产品 [15][16][18] - **快手**与开源社区的互动以技术分享为主,曾开源“可图”及可灵的部分技术方案,但核心系统为闭源,主要目标是为客户提供更完善服务 [19][20] - **高校实验室**(如上海交大)则完全拥抱开源,从模型、代码到数据均开源 [22] 多模态理解与生成的融合 - 多模态理解与生成的重要结合是利用理解模型提升生成模型性能,可分为训练前(数据清洗、标注)、训练中(强化学习依赖奖励模型)、训练后(prompt优化、结果筛选)三个阶段 [24][25] - 生成与理解一体化的趋势明显,且进展可能快于预期,若能结合强大语言模型复用其知识与推理能力,可进一步提升生成效果 [26][27] - 模型架构并非最关键,技术路线和应用目标更重要,例如Diffusion模型非常依赖对用户意图的理解和多模态信息处理能力 [28] 核心技术挑战 - 核心挑战在于多模态对齐与融合,需解决设计通用tokenizer实现跨模态统一表征,以及建立有效模态对齐机制实现异构数据语义关联的难题 [29] - 面临数据平衡挑战,训练数据中某一模态占优会导致其他模态性能退化,多任务学习时还存在任务干扰和计算资源分配难题 [30] - 视频作为时序数据,对受限于上下文窗口的自回归大语言模型提出更高要求,现有解决方案(帧采样、降分辨率、token合并)均会损失信息 [31] - 短视频平台面临热门概念快速更迭的挑战,模型训练速度可能跟不上内容更新,需探索RAG、轻量级训练等方法快速融入新概念 [32] - 短视频数据包含大量特效、突破物理规律的创意内容,与真实世界差异大,传统训练方法难以理解,但这些内容在文本生成视频中极具价值 [33] - 技术挑战最终指向推理成本增加,处理更长序列需要更多帧和思维链,导致推理时间延长,某些场景必须使用专门训练的大模型 [34] - 长视频理解需高效提取和压缩信息,近期研究通过利用大语言模型自身的token压缩能力,以及从源头压缩视觉tokenizer产生的token数量来应对 [35] 数据挑战与应对策略 - 多模态训练面临数据不足、标注质量欠佳、美学标准不达标、多样性匮乏等挑战,策略上采用“先多后精”路线,前期用海量数据预训练,同时建立数据清洗和标注管线 [36] - 将数据分为铜标、银标、金标三个等级,对于精品数据还需考量美学价值和任务适配性,编辑类任务(如草图生图)数据稀缺,广泛采用合成数据和构造方法 [37] - 新挑战是训练数据中混入AI生成内容,鉴别难度高,一旦混入可能污染整个训练流程 [38] - 高质量数据和垂直领域数据均存在严重短缺,新业务开发面临“先有鸡还是先有蛋”的困境,需投入大量精力人工构造训练数据 [39] - 当前LLM训练规模达数万亿token级别,多模态模型整体token量级仍相差一个数量级,且存在分布不均衡问题,开源数据集样本过于“精致”而缺乏多样性,导致难以直接应用于工业场景 [40] 强化学习与用户反馈应用 - 在用户反馈方面,评价标准与用户偏好存在差异,针对美学偏好等主观评价,通过建立通用美学和人像美学评估体系,在强化学习中引入“软性”指标,显著提升生成内容美学质量 [42] - 在广告等业务场景,尝试直接利用CTR、CVR等真实用户反馈的业务指标作为优化目标 [43] - 在开放域对话场景,为维持自然对话体验,会分析哪些回复能促使用户继续交流,并以此作为正向反馈信号进行优化,包括在线调整和离线迭代 [44] - 在快手业务中,强化学习在存在业务偏好的场景发挥重要作用,在caption生成任务上主要采用DPO方法通过reward model优化模型表现 [45] - 针对视频理解模型常犯的事件顺序错乱和过度冗长描述错误,通过构造负样本(如交换事件顺序)和DPO方法进行针对性训练和优化 [46] 前沿研究热点与突破方向 - 研究热点包括多模态大模型的空间和时间感知能力,近期开发了STI-Bench系统评估主流模型在三维空间感知及时间理解方面的表现 [48] - 当前多模态模型在空间方位理解普遍不足,这对AIGC应用是致命问题 [49] - 长视频理解是重点方向,尤其是信息密集的长视频需要准确捕捉复杂运动、事件序列等,目前尚无模型能在不损失时空精度下完全处理 [50] - 在强化学习方面,重点研究如何更好对齐人类美学偏好以优化生成质量,并探索指令遵循能力提升,实现ID、风格、文本等多维度可控生成 [51] - 在视频生成领域,当前主流模型大多只能生成4-5秒短视频,而实际业务需要3分钟以上长视频生成能力,推理速度优化也是关键问题 [52] - **数据层面**的突破将来自利用更多模态数据训练出更强指令遵循和泛化能力的模型,并需增强模型抗噪能力,从低质量数据中提取信息 [94] - **个性化**将成为关键发展方向,需为不同用户或场景提供差异化能力,实现“千人千面” [95] - **应用层面**将迎来显著增长,2025年可能成为AI应用大规模落地的一年,用户认知从尝鲜转向利用模型解决具体问题 [96] - 未来可能出现实现“any to any”转换的all in one统一模型,2025年可能成为该技术爆发的关键年份 [97][98] - 另一突破方向是推动大模型从2D视觉向三维空间感知发展,并在视频生成中赋予模型记忆能力,以保持场景中物体的连续性,解决一致性问题 [99][100] - 多模态模型中的推理(Reasoning)过程,Diffusion模型的推理与COT思维链推理高度相似,类似COT的推理过程在多模态模型中同样可行,可提升生成内容的逻辑性 [101] 模型效率优化技术路径 - 提升效率的技术路径包括:直接训练小模型,或通过大模型蒸馏小模型以获得特定业务能力 [54] - 重点关注token压缩技术(如token merge、token fusion),在一些评测中即使去除70-80%的token,模型性能仍能保持稳定,在实际业务中推理窗口缩减至1/4时,推理性能可成倍提升 [55] - 借鉴语言模型领域的投机采样等技术,通过小模型辅助优化推理过程以降低部署成本 [56] - 关注编解码器效率优化,开发更高效率的编码器可在几乎不损失效果下实现数倍效率提升 [57] - 采用模型蒸馏技术优化Diffusion模型步数,例如将标准100步的模型蒸馏到10步,可获得10倍效率提升 [58] - 实践经验表明,“先训练大模型,再蒸馏小模型或减少推理步数”的方案比直接训练小模型效果更好 [2][59] 通用模型与垂直领域模型选型 - 现阶段,针对特定业务场景定制化的垂直领域模型仍是更优选择,业务算法团队可通过微调或上下文学习结合特定指令等方式高效构建定制模型 [2][60] - 通用模型与垂直模型将共存,通用模型理论上限更高,但业务落地需面对数据、效率等现实考量 [61] - 在数据层面,通用模型在特定任务需海量数据,长尾场景缺乏数据更适合小样本学习,中长尾业务可依赖通用模型泛化能力,头部数据充足业务则适合针对性精调 [62] - 推理效率是关键,专门优化的垂直模型推理速度相较通用模型能有1-2个数量级的提升,在实时性要求高的场景尤为重要 [63] - 通常采用“先通用后定制”的渐进策略:新业务先尝试通用模型,验证效果并积累数据后再评估是否转向定制化 [64] - 垂直领域微调可能导致模型丧失原有通用对话能力,如何在提升专业能力同时不损害通用能力仍是亟待解决的技术挑战 [65][66] 效果、速度与成本的平衡 - 若单纯为追求效果无限制扩大模型规模,投入产出比会明显失衡 [2][67] - 需在模型效果和执行效率间寻找平衡,正在推进采用更高效视频编码器、token压缩技术、大模型INT8量化等优化工作 [68] - 实际决策需综合考虑效果、耗时、用户体验、训练成本和推理成本 [69] - 对于非实时场景,可采用预生成、异步处理(如利用夜间潮汐资源离线计算)方案,以使用大模型获得最佳效果同时控制成本和耗时 [70] - 对于必须实时处理的场景,可设计折中方案,如部署极速版和高质量版双模型供用户选择,或采用快速模型生成初稿再用大模型优化的混合策略 [71] - 在直播等特殊场景,耗时优化必须达到质变级别,任何延迟都不可接受,即便牺牲部分效果也要优先保证实时性 [72] 实时推理催生的新应用场景 - 当前用户对模型延迟(如30秒甚至30分钟等待)的容忍度提高,主要源于大模型带来的能力突破,但交互方式远非理想 [74] - 若能将模型响应速度提升到实时或秒级,交互模式将发生根本性变革,例如实现文生图场景的“一笔一生成”实时渲染,或对话式生成中语音输入与图像生成的同步进行 [74] - 这种革新将消除传统“输入-等待-输出”的断点式交互,代之以无缝实时体验,在数字人直播、智能客服、AI面试官等需要即时反馈的场景尤为重要 [75] - 从交互方式和多模态(any to any)角度看,实时推理能轻松将想象即时转化为视觉内容,极大提升预判和决策能力 [76] 模型规模与落地场景匹配 - 模型规模与能力直接关联,更大模型通常表现更优,轻量级模型更适合实时业务需求 [80] - 在实际应用中常采用分级处理策略:复杂样本调用大模型,简单常规视频使用轻量模型 [81] - 轻量级模型在处理相关性判断和创意类任务时表现足够出色,对于需要深度知识储备和强推理能力的任务(如问答、判别、高风险内容审核)则大规模模型展现出明显优势 [2][83] - 模型选型需考量业务发展阶段:探索期新业务倾向采用性能最优的大模型验证可行性,稳定后才进行压缩和成本优化 [84] - 还需考量用户需求性质:“灵感激发”场景需要快速生成大量参考样本,适合轻量快速模型;“生产输出”场景质量优先于速度,用户愿为优质结果等待更长时间或隔日交付 [85] AIGC数据在训练中的应用与应对 - AIGC生成内容有价值,特别适合补充特定概念或罕见元素组合的数据缺口,通过严格数据预处理流程确保质量:拟真度高的可等同真实素材使用,有瑕疵的则调整其在训练集中的配比 [87] - 采取风格区分策略:对于写实类风格需警惕artifact问题(如过度磨皮、纹理缺失),这类瑕疵会影响训练;在非真实感渲染领域(如卡通、动漫),经人工美学把关的AIGC内容能有效补充新概念和新风格 [88][89]