Workflow
思维链(Chain-of-Thought)
icon
搜索文档
VideoCoF:将「时序推理」引入视频编辑,无Mask实现高精度编辑与长视频外推!
机器之心· 2025-12-23 12:15
视频编辑行业技术痛点与现有方案 - 现有视频编辑模型面临精度与通用性的两难困境:专家模型精度高但依赖用户提供繁琐的Mask,通用上下文学习模型虽免Mask但在处理复杂空间关系时定位不准[7] VideoCoF框架核心创新 - 核心灵感源于大语言模型的思维链,提出Chain of Frames机制,将视频编辑过程重构为“看-推理-编辑”三个阶段,使模型能主动建立编辑指令与画面区域的对应关系,实现无需Mask的高精度编辑[5][6][8] - 引入独特的时序RoPE对齐策略,巧妙对齐原视频与编辑视频的时间索引,并将推理帧时间索引设为0,实现了“训练短视频,推理长视频”的能力,支持远超训练长度的视频处理且保持动作流畅[11][16] 模型性能与数据效率 - 模型仅使用50k视频对进行微调,数据量仅为基线模型ICVE的1/20,后者依赖100万视频预训练加15万微调数据[12][14][17] - 在多项测评中取得SOTA效果:指令遵循得分高达8.97,显著优于ICVE的7.79和VACE的7.47;编辑成功率高达76.36%,大幅领先商业模型Lucy Edit的29.64%和ICVE的57.76%[14][18][19] 关键技术验证与设计细节 - 消融实验证明显式时序推理是关键:引入CoF机制后,指令遵循能力提升近1分,成功率提升10%以上[20][22][24] - 推理帧格式设计至关重要:采用透明度渐变的灰色掩码作为推理帧,相比静态红/黑掩码,将指令遵循得分从7.5/7.8大幅提升至8.97[21][25][26] 应用场景与行业影响 - 展现了强大的通用编辑能力,支持多实例移除、物体添加、多实例物体替换及局部风格迁移等多种任务[27][29] - 该工作证明了“更好的推理能力优于更多的数据”,为视频生成与编辑研究提供了低成本、高性能、支持长视频的新思路[28]
张祥雨发现的多模态AI内耗难题,北大找到了解法
36氪· 2025-09-19 18:52
多模态AI模型“理解”与“生成”能力的内耗问题 - 阶跃星辰首席科学家张祥雨指出,当前大一统多模态模型训练中,视觉的“理解”与“生成”能力可以共存但很少协作,甚至时常内耗,一方能力的提升可能导致另一方性能下降 [1] - 问题的根源在于图像生成任务极其复杂,需要复杂的空间规划、物理常识和语义推理,而Transformer模型单次前向传播能执行的逻辑推理步骤有限,导致梯度信号粗糙,两个模块无法有效相互指导 [1] 现有解决方案及其局限性 - 张祥雨提出的解决方案是引入“思维链”,让模型分步骤思考和创作,以规避单次推理导致的信号粗糙问题 [2] - 北京大学的研究指出,思维链方案主要解决单次推理复杂度,但更根本的问题是理解和生成的训练目标本身割裂,即使引入思维链,两个模块依然在追求不同的KPI [5] 传统统一多模态模型的根本问题 - 旧方法如同“双头政治”,让同一模型用同一组参数同时扮演“理解工匠”和“生成工匠”角色,并用两套截然不同的KPI考核 [7] - “理解工匠”的KPI是语义抽象的准确性,逻辑是从具体到抽象;“生成工匠”的KPI是像素还原的保真度,逻辑是从抽象到具体,两个优化目标在底层逻辑上相互冲突,梯度更新在参数空间中互相拉扯,导致训练不稳定 [7] - 为避免直接冲突,一些工作选择“解耦”策略,先独立训练两个模块到顶尖水平,再通过适配器模块进行有限沟通,但这只是“共存”,并未形成真正的协同效应和相互增益 [8][9] 北京大学UAE框架的核心创新 - UAE框架做出了根本性变革:废除两套独立KPI,建立一条统一流水线,并设立唯一的、最终的质检标准 [10] - 框架思想源自经典的自编码器模型,将理解任务映射为编码(压缩工序),生成任务映射为解码(还原工序) [11][12][15] - 具体流程:用Qwen-2.5-VL 3B训练的“理解模型”作为编码器,将原始图像压缩成一段详尽、结构化的文字描述;用SD3.5-large训练的“生成模型”作为解码器,根据文字描述重建图像 [15] - 流水线的共同KPI是保证终端产出的“重建图像”能完美还原原始图像,如果重建图像与原图高度相似,则说明信息在理解→文本→生成链路上实现了近乎无损传递 [17][18][19] UAE框架的三阶段训练策略 - 阶段一为冷启动重建(岗前培训与初步对齐):系统接收原始图像,由理解模块生成描述,再由生成模块重建图像,根据重建图像与原始图像的语义相似度计算基础损失,同时更新两个模块的参数,目标是建立基本的信息传递通道 [20][22][23] - 阶段二为生成服务理解,重点训练“理解工匠”:冻结生成模型,理解模型接收原始图像并尝试生成描述,固定的生成模型根据描述重建图像,强化学习算法比较重建图像与原始图像并进行奖励惩罚,通过循环迫使理解模型学习生成对生成模型最友好的描述,实现“两向加强”的第一个方向 [24][25][26][27][28] - 阶段三为理解服务生成,重点训练“生成工匠”:冻结理解模型,生成模型根据描述反复重建图像以优化技艺,迫使生成模型学习处理和执行长篇、充满约束的指令,实现“两向加强”的第二个方向 [29] - 阶段二和阶段三交替进行训练,形成正反馈循环:理解越精准,生成越准确;生成要求越高,理解越深入,后两个阶段使用了GRPO算法 [31] UAE框架的训练成效与性能表现 - 模型行为自发涌现出利于协同的行为,理解模块出现了类似人类的“顿悟时刻”,其生成的文字描述在无外部指令下变得越来越长、越来越详细,平均超过250个英文单词 [32] - 描述内容从训练早期的基本对象和颜色,发展到中期的计数、空间关系,再到后期的材质、遮挡关系、背景细节、光照条件等系统性覆盖 [34] - 在与其他模型生成的描述比较中,UAE理解模型生成的描述在完整性、属性绑定、关系和空间保真度等多个方面更胜一筹 [36] - 在生成方面,UAE在GenEval基准上获得0.86综合得分,在统一模型中排名第一,在计数和颜色归因任务上分别获得0.84和0.79得分 [37] - 在更具挑战性的复杂场景处理GenEval++基准中,UAE获得0.475的最佳得分 [37] UAE框架的行业启示与影响 - UAE的成功证明,多个看似冲突的目标可以通过合适的框架实现融合协同,这不是简单的“多任务学习”,而是从根本上重新定义任务目标 [39] - 这表明“重新定义目标”可能比“优化算法”更重要,通过重设目标,相互竞争的任务可以变成互相促进的伙伴,这种思路可能适用于更多AI任务的统一 [39] - 这场“内战”的终结可能预示着一个新时代,AI的“看”与“画”、“听”与“说”将不再是割裂的能力孤岛,而是一个无缝协作、相互促进的有机整体 [39]
端到端模型!GraphCoT-VLA:面向模糊指令的操作任务的VLA模型
具身智能之心· 2025-08-13 08:04
领域介绍 - 视觉-语言-动作(VLA)模型正成为机器人领域的核心范式,旨在实现自然高效的人机交互 [5] - 现有VLA模型基于预训练视觉-语言模型(VLMs)构建,利用其强大的视觉接地和语言理解能力 [5] - 当前模型依赖清晰结构化指令,难以处理现实场景中的模糊指令(如"我想吃辣味河鲜") [6] 技术挑战 - 现有模型无法关联多模态感知与上下文,导致动作规划脱离真实环境 [8] - 观测模态局限在静态二维视图,缺乏对三维交互的建模能力 [8] - 思维链(CoT)方法存在情境感知有限、无法处理模糊指令等缺陷 [8] 解决方案 - 提出GraphCoT-VLA模型,整合结构化CoT推理与实时3D姿态-物体图 [9] - 结构化CoT模块包含:高层任务理解与规划、失败任务反馈、低层未来想象推理 [3] - 姿态-物体图实时捕捉机器人关节配置与物体三维拓扑关系 [13] - 采用dropout混合推理策略平衡深度推理与实时控制需求 [15] 模型架构 - 姿态-物体图构建:通过YOLO-World检测物体,结合深度信息投影为三维点,与机器人末端执行器形成全连接图 [13] - 图编码器使用两层GNN处理空间关系,输出节点特征输入VLM [17][18] - CoT推理流程:场景理解→可行性分析→反馈生成→未来预测(间隔ΔT帧) [19][20] - 整体框架整合多视角图像、本体感受、语言指令和图数据,输出动作序列分布 [22][23] 训练策略 - CoT监督采用交叉熵损失,动作优化采用条件流匹配损失 [24][26] - 联合训练引入CoT监督dropout(概率p),支持推理引导与直接预测双模式 [27][28] - 推理时混合策略:首帧生成完整CoT,后续帧跳过推理直接预测动作 [28] 实验结果 - 在"食物准备"任务中成功率比最优基线Octo提升10%,"服装选择"任务比π₀提升18.33% [37] - 姿态-物体图使成功率最高提升18.33%,动作更连贯自然 [40] - CoT模块显著增强模糊指令下的任务规划能力,减少动作不足或持续挥舞等问题 [41] - 推理频率保持10Hz,与基线π₀相当,满足实时控制需求 [44][45] 技术验证 - 姿态-物体图可视化显示其有效编码机器人与物体的空间配置 [42] - CoT能根据环境变化动态调整决策,预测物体位置与实际高度匹配 [43] - 在双臂机器人上验证,涉及600个训练演示和20次/任务的测试协议 [29][36]