CoT思维链推理 - 财报，业绩电话会，研报，新闻

CoT思维链推理

搜索文档

量子位· 2025-07-01 11:51

核心观点 - 阿里通义语音团队开源泛音频生成模型ThinkSound 首次将CoT思维链推理引入音频领域解决传统视频配乐技术难以捕捉动态细节和空间关系的难题实现音画同步的高保真音频生成 [4][5][6] - ThinkSound在VGGSound数据集上对比6种主流方法在核心指标上均实现显著提升如FDJ指标降至34.56(越低越好) MOS-Q1主观评分达4.02±0.73(越高越好) 参数规模1.3B 生成时间仅1.07秒 [7] - 模型采用三阶思维链驱动架构通过基础音效推理链构建、对象级推理链构建和指令编辑推理链构建模仿人类音效师多阶段创作流程精准建立音画对应关系 [16][17][18][19][22] - 配套发布AudioCoT数据集包含2531.8小时精选音视频对涵盖动物鸣叫、机械运转等真实场景通过音频-文本对齐过滤等三重处理流程确保数据质量 [30][31][36] 技术架构 - 底层采用结合视觉、语言和上下文信息的多模态流式建模方法基于条件流匹配技术实现高保真音频合成 [25][28] - 第一阶段通过VideoLLaMA2生成CoT推理链结合Qwen2-Audio和GPT-4.1-nano输出结构化步骤实现时空对齐 [18] - 第二阶段利用Grounded SAM-2标注"感兴趣区域"(ROI) 跟踪视频中可能发声的对象融合多视频CoT信息优化音频处理 [20][21] - 第三阶段支持自然语言指令编辑如"加点爆炸声" 通过GPT-4.1-nano生成结构化编辑步骤 [23][24] 性能表现 - 消融实验证明CoT推理显著提升音频质量采用T5链式推理比CLIP文本编码生成效果更优 [35] - 门控融合机制在特征整合中表现最佳实现音画同步的各项指标最优 [39] - 提供1.3B/724M/533M三种模型规格支持GitHub/HuggingFace/魔搭社区下载 [7][48] 行业布局 - 通义语音团队持续深耕开源社区 CosyVoice系列在GitHub获14.9k星上月刚发布3.0版本支持多语言语音生成 [41][42] - 此前推出音频多模态大模型MinMo 在语音对话、翻译等任务中表现良好且延迟低 [44][45] - ThinkSound延续开源路线未来计划发布API 进一步扩大技术影响力 [48] 应用场景 - 支持为Sora生成视频自动匹配音效可识别地上跑、水里游等物体并生成环境噪音 [14] - 最佳适配10秒视频时长理论上不限制上传时长 [15] - 开发者可快速体验音效生成与编辑功能如去除人声、增强特定音效等 [23][48]

CoT思维链推理

多模态流式建模方法

Artificial Intelligence

Artificial Intelligence

ThinkSound

Cosyvoice 3.0

MinMo