小语种恐被AI时代边缘化?多国专家呼吁:语言模型不能只服务大语种!
第一财经·2025-07-29 10:35
AI时代小语种面临的挑战 - 通用大模型对低资源语言支持严重不足,小语种国家面临被边缘化风险 [1] - 翻译机虽打破人类语言隔阂,但AI时代小语种仍存在交流障碍 [1] - 塞尔维亚语在通用模型中token占比不足0.1%,远低于同一地区的斯洛文尼亚语 [2] - 希伯来语虽是唯一被成功复兴为现代口语的古老语言,但在自然语言处理领域仍属低资源语言 [2] 构建多语言大模型的必要性 - 语言模型不能只服务大语种,每种语言都应拥有体现其文化身份的大模型 [2] - 构建符合本国语言特点和文化语境的国家级大模型对AI在医疗、法律等关键领域普及至关重要 [2] - 匈牙利语复杂的词缀组合及自由语序为大语言模型token划分带来独特挑战 [2] - 数据质量优于数据体量是构建可信大语言模型的关键 [2] 现有解决方案与进展 - IAHLT基于开源模型已训练出希伯来语+英语双语大模型,并部署于教育、客服、医疗等场景 [4] - 通过政府财政激励机制联合产业界解决数据获取合法性、训练成本和落地门槛问题 [4] - 科大讯飞星火大模型X1已支持超过130种语言,寻求全球合作构建多语言大模型 [4] 实现AI平权的愿景 - 只有当小语种国家的孩子能用母语向AI提问时,AI平权才真正实现 [1] - 语言被技术遗忘将导致使用该语言的群体被时代遗忘 [1] - 需要构建从训练、语料建设到实际应用的完整闭环 [2]