手语翻译
搜索文档
ACL 2026|AI for聋哑群体,港理工开源思考型手语翻译模型
机器之心· 2026-05-04 12:10
研究背景与意义 - 听障群体在信息获取、公共服务和社会交流中长期处于边缘位置,主流信息传播方式基于语音和文字,使其面临更高门槛,未能充分享受人工智能技术发展的红利[2] - 手语翻译研究至关重要,其目标不仅是将视频翻译成文字,更是搭建连接不同表达体系与社会环境的桥梁,帮助听障群体更顺畅地接入主流社会,降低沟通壁垒[2] - 让AI服务更多人,而不仅仅是服务于主流交互方式下的多数群体,已成为一个越来越重要的问题[2] 技术挑战与现有瓶颈 - 手语翻译技术远比想象中复杂,其表达依赖动作轨迹、空间位置、身体朝向及上下文关系共同构成语义,同一手型或动作在不同语境下可能表达完全不同的含义[3][7] - 传统方法默认手语视频片段可直接对应自然语言词语的假设在真实场景中并不成立,手语翻译本质上是跨模态推理问题,而非简单的视频到文本映射[3][9] - 现有gloss-free方法面临关键瓶颈:模型需同时完成“决定表达什么语义”和“在长视频中定位时序证据”两件事,导致语义规划不稳定、注意力分散或生成句子与核心语义关系不对应[9] 核心方法:SignThought框架 - 研究团队提出名为SignThought的全新gloss-free手语翻译框架,其核心思想是在视频理解与文本生成之间引入一条有序的latent thoughts链条,作为中间语义表示[3][11] - 框架采用“plan-then-ground”解码方式:模型先决定“要说什么”(语义规划),再回到视频中寻找“证据在哪里”(细粒度grounding),从而显式拆解语义决策与证据检索[3][13] - 框架主要由三部分组成:负责编码视频的Sign Encoder、生成有序潜在思维链的Latent Chain-of-Thought Thinking Module,以及执行先规划后接地的Dual-Stream Decoder[11] - 在Thinking Module中,通过因果约束的thought更新机制,使前面的thoughts表示较粗粒度语义,后面的补充细节,并通过结构化路由机制将不同时间段的视觉证据分配给不同thoughts[17] - 该设计将latent thoughts视为视觉证据与自然语言生成之间的中间语义接口,并使其成为可追踪的中间锚点,能将生成文本与输入视频中的特定时间区域对应起来,提升翻译的忠实接地能力[13] 数据集构建:LC-HKSLT - 研究同步构建了新的大规模香港手语数据集LC-HKSLT,其数据来自公开视频场景中的播报式内容,只保留句子级监督信号,不引入gloss标注或SLR词汇,更贴近真实部署环境[19] - LC-HKSLT总计包含1311小时手语视频、432K个视频片段,覆盖14位手语者,SLT词汇量达到125,833个[20] - 该数据集提供了更真实的弱监督训练条件,模型获得的是接近真实世界的数据形态,而非干净精细的人为对齐标注,这使得显式的跨模态推理与证据组织能力变得尤为重要[20] - 实验主要使用其中一个精心整理的30小时子集,以便与现有中文手语翻译基准保持可比性[20] 实验结果与性能表现 - SignThought在五个手语翻译基准上进行了实验,包括PHOENIX14T、CSL-Daily、How2Sign、OpenASL以及新提出的LC-HKSLT[21] - 在PHOENIX14T数据集上,SignThought达到27.22 BLEU-4和54.50 ROUGE;在CSL-Daily上达到23.92 BLEU-4和50.99 ROUGE[22] - 在更大规模数据集上提升明显:How2Sign的BLEU-4从此前最佳方法的9.37提升到13.39;OpenASL的BLEU-4从13.21提升到19.55[22] - 在自建数据集LC-HKSLT上,公开设置下模型达到21.15 BLEU-4和47.87 ROUGE;在其余LC-HKSLT数据上进行预训练后再微调,性能提升至30.22 BLEU-4和60.01 ROUGE,表明大规模、领域内一致的sign-text数据具有高价值[23] - 消融实验表明,去掉latent thinking module性能下降最明显,而去掉causal thought更新、结构化路由、dual-stream decoder等组件也会带来不同程度退化,证明性能提升来自“中间推理链+路由+grounding”整套机制的协同作用[24] 研究价值与未来展望 - 该研究价值在于重新定义手语翻译任务:不应只被看作视频到文本的映射问题,而应被视为跨模态推理问题[26] - SignThought通过latent thoughts建立中间语义层,通过plan-then-ground解耦语义规划与证据检索,并借助大规模真实场景数据验证了这一方向的可行性[26] - 当前模型中的“thinking”仍是潜在的,而非完全显式、可读、可控的人类语言推理链,但该研究让手语翻译第一次更明确地拥有了“先组织语义、再接地生成”的中间过程[26] - 未来若将潜在规划与更显式的语义结构、文本原理或可控推理机制结合,手语翻译模型不仅能给出更准确的输出,还能更好地解释翻译原因,这可能成为下一阶段多模态理解与生成系统的重要突破口[26] - 该工作已被ACL 2026 Main Conference接收,并拟推荐为口头报告[4]