多语言大模型
搜索文档
连接东盟,奔赴全球:一家中国AI公司的出海方法论
21世纪经济报道· 2026-02-14 15:00
公司战略定位与愿景 - 公司将“多语言大模型对标国际一流、为世界提供第二种选择”写入战略定位 [1] - 公司以“自主可控、行业落地、软硬一体、多语种”构建独特优势,并通过开放架构整合行业模型 [16] - 公司战略意图是通过系统的能力迁移与生态融合,为世界提供第二种选择,形成中国科技出海的新范式 [16] 国际化战略的“广西支点” - 公司将广西定位为国际化战略的“核心支点”,作为在国内的“类海外”环境中完成技术适配和模式验证的先导区 [4] - 广西凭借其与东盟陆海相连的区位、丰富的东盟语言人才与语料基础,以及作为“中国—东盟信息港”核心节点的数字基础设施,成为天然的“适配实验室” [4] - 2019年,公司在南宁成立全资子公司,同步落地人工智能创新研究院和产业加速中心 [4] 突破东盟市场的语言壁垒 - 东盟市场存在越南语、泰语、印尼语等官方语言及超过100种方言,语言混合现象复杂 [6] - 公司将解决语言沟通视为在东盟进行一切合作的基础和最核心的产品 [6] - 2021年,公司与广西壮族自治区签署战略合作协议,将“东盟非通用语种研究”列为核心方向 [6] - 在第22届东博会上,公司首次实现七种语言的实时翻译字幕规模化亮相,并配备了200台翻译机和1万个翻译APP二维码 [6][8] 积累与验证“广西经验” - 公司在广西选择教育、医疗、政务等高壁垒民生领域深耕,以积累可复制的落地经验 [9] - 智慧教育产品已服务广西14个地市超6000所学校,覆盖师生超720万人 [9] - “智医助理”在百色市47家乡镇卫生院落地 [9] - 在玉林龙云灌区,AI智能调度系统将灌溉水利用系数从0.5提升至0.624 [9] - 公司服务超过11.2万个本地开发者团队的经验,有助于理解与东盟国家相似的边缘地区真实需求 [9] 输出“东盟方案”与生态共建 - 2025年6月,公司与广西壮族自治区政府签署全面战略合作协议,加快推进东盟总部建设 [11] - 公司在东博会上发布“星火东盟多语言大模型底座”,为首个覆盖东盟十国主要语言的专属AI底座,支持十种语言 [11] - 该模型在全栈自主可控平台上,以更小数量级的参数,综合效果对标国际领先水平 [11] - 东博会期间,公司密集签约多方伙伴:与华为启动区域智能生态合作;与老挝科技与通讯部签约参与数字基建;与马来西亚RTM等机构合作聚焦文化与教育落地 [13] 海外业务拓展与版图 - 公司海外拓展在过去半年明显提速,整体业务已触达超过50个国家和地区 [14] - 2026年1月,公司与印尼金光集团在教育、医疗、运营商三大赛道签署战略合作协议 [14] - C端业务覆盖东南亚、中东、北美;教育和大模型应用在中亚、北非、拉美落地 [14] - 在智能汽车领域,公司的智能座舱语音方案已助力奇瑞等车企出海至60余个国家和地区,覆盖23种海外语言 [13] - 在智慧教育领域,相关产品已在泰国、新加坡、缅甸等东盟国家落地 [13] 宏观背景与行业机遇 - 中国与东盟的制度性开放(如2014年自贸区升级、2022年RCEP生效、2025年自贸区3.0版谈判完成)为广西带来角色转变 [3] - 广西从经济版图“末梢”转变为中国AI出海的“集成枢纽”,吸引了华为(投资50多亿元)、腾讯云、京东等巨头投资布局 [3]
国际人工智能专家大阪世博会体验中国AI 共议多语言大模型发展
中国新闻网· 2025-08-01 20:37
行业动态 - 约30位来自亚洲、欧洲20个国家和地区的人工智能专家近日相聚日本大阪,体验中国多语言AI技术的实际应用效果,并与日本产业界代表交流大模型应用 [1] - 活动现场展示了"人工智能大模型展项——AI孙悟空",支持中、日、英三种语言实时问答和跨文化话题互动 [1] - 多语言大模型被视为文明对话的桥梁,匈牙利语言学研究中心总干事期待中国与匈牙利在人工智能领域的合作 [3] 技术亮点 - "AI孙悟空"融合了多语种、高噪场景语音识别、多情感超拟人语音合成以及多模态交互等技术能力 [3] - 该大模型支持130余种语言,对小语种国家的科研人员具有吸引力 [3] - 科大讯飞依托国产自主可控讯飞星火大模型打造了"AI孙悟空",成为大阪世博会中国馆唯一大模型展项 [3] 市场机会 - 全球85%的人口并非以英语为母语,多语言大模型旨在打破英语垄断教育与AI资源的不公平现象 [6] - 马来西亚拉曼理工大学专家认为多语言大模型能体现不同语种习惯的文化差异,具有广泛的应用潜力 [3] - 科大讯飞东北亚研究院院长强调开发多语言大模型是为了让每个人都能用自己熟悉的语言学习世界知识 [6]
OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
机器之心· 2025-07-31 13:11
MetaCLIP 2的核心创新 - 提出首个从零开始在原生全球图文对上训练CLIP的方法,不依赖外部资源如私有数据或机器翻译 [2] - 通过元数据拓展、数据筛选算法和训练框架三项核心创新实现全球扩展能力,覆盖300多种语言 [5] - 实验证明英语与非英语数据可互利,ViT-H/14模型在ImageNet英语准确率从80.5%提升至81.3%,多语言任务创SOTA [6][10] 技术架构与训练方法 - 元数据覆盖维基百科与多语言WordNet,采用语言隔离的子串匹配算法保持概念分布均衡 [22][24] - 训练框架同步扩大批次规模2.3倍(从32,768增至75,366),确保英语数据占比44%不变 [26][27][30] - 使用多语言tokenizer(XLM-V最优)和最小可行模型容量研究,保持与OpenAI CLIP架构一致性 [20][37] 性能优势与行业影响 - 在Babel-ImageNet、XM3600等多语言基准上性能超越mSigLIP 3.8%-7.6%,使用图文对数量仅为竞品72% [32][34] - 保留文化多样性数据分布,提升地理定位能力(如GLDv2任务69.0% Top-1准确率) [13][39] - 提供全球规模图文对数据集,支持MLLM、图像生成等下游应用,填补非英语数据处理的空白 [15][7] 实验验证与突破 - 消融实验显示语言隔离和t_lang调整机制对性能提升关键,ViT-H/14模型打破"多语言诅咒" [31][36] - 全球数据训练使英语与非英语任务同步优化,XM3600检索任务达到64.3%准确率 [6][32] - 嵌入质量评估显示MetaCLIP 2在对齐度和均匀性指标上优于SigLIP系列模型 [39]
“中国经验”构建多语言大模型,帮助小语种国家融入世界
中国青年报· 2025-07-29 22:23
行业挑战与机遇 - 全球主流大模型对低资源语言支持严重不足 数字化语料稀缺导致小语种国家面临AI边缘化风险[1] - 塞尔维亚语在通用模型中token占比不足0.1% 远低于斯洛文尼亚语等语言[3] - 匈牙利语具有复杂词缀组合及自由语序特性 为大语言模型的token划分和长距离依赖建模带来独特挑战[7] 技术发展现状 - 科大讯飞星火X1模型支持语言从去年10月81种扩展至今年7月130多种[5] - 星火大模型X1在阿语 德语 法语 韩语 日语等重点语种整体效果超过GPT-4.1[5] - 星火语音合成大模型支持55个语种语音合成 效果业内领先[5] 战略合作与解决方案 - 国际合作成为解决多语言支持问题的重要路径[5] - 匈牙利PULI模型家族与中国AI同行合作 实现从训练 语料建设到实际应用的完整闭环[7] - 通过构建人工智能公共服务平台 实现算力高效调度和开发者生态建设[7] 产业发展痛点 - 中国智算产业面临算力迭代过快 实际可用算力不足 存量算力使用效率偏低等挑战[7] - 需要在算力 算法 数据三要素基础上引入应用 生态形成五要素集合的解决思路[7]
小语种恐被AI时代边缘化?多国专家呼吁:语言模型不能只服务大语种!
第一财经· 2025-07-29 10:35
AI时代小语种面临的挑战 - 通用大模型对低资源语言支持严重不足,小语种国家面临被边缘化风险 [1] - 翻译机虽打破人类语言隔阂,但AI时代小语种仍存在交流障碍 [1] - 塞尔维亚语在通用模型中token占比不足0.1%,远低于同一地区的斯洛文尼亚语 [2] - 希伯来语虽是唯一被成功复兴为现代口语的古老语言,但在自然语言处理领域仍属低资源语言 [2] 构建多语言大模型的必要性 - 语言模型不能只服务大语种,每种语言都应拥有体现其文化身份的大模型 [2] - 构建符合本国语言特点和文化语境的国家级大模型对AI在医疗、法律等关键领域普及至关重要 [2] - 匈牙利语复杂的词缀组合及自由语序为大语言模型token划分带来独特挑战 [2] - 数据质量优于数据体量是构建可信大语言模型的关键 [2] 现有解决方案与进展 - IAHLT基于开源模型已训练出希伯来语+英语双语大模型,并部署于教育、客服、医疗等场景 [4] - 通过政府财政激励机制联合产业界解决数据获取合法性、训练成本和落地门槛问题 [4] - 科大讯飞星火大模型X1已支持超过130种语言,寻求全球合作构建多语言大模型 [4] 实现AI平权的愿景 - 只有当小语种国家的孩子能用母语向AI提问时,AI平权才真正实现 [1] - 语言被技术遗忘将导致使用该语言的群体被时代遗忘 [1] - 需要构建从训练、语料建设到实际应用的完整闭环 [2]