Workflow
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源
量子位·2025-05-23 08:24

核心观点 - 首个应用型AI翻译测评榜单TransBench上线,由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布,旨在通过新增幻觉率、文化禁忌词、敬语规范等指标重新定义翻译测评标准 [1][2][3][32] - TransBench评测体系从"通用标准""电商文化""文化特性"三大维度构建,数据集涵盖中英法日韩西等多语言并持续更新小语种,评测方法与数据已全面开源 [5][6][7][8][44] - 首期测评结果显示GPT-4o在英语翻译综合得分领先,DeepSeek-V3在中文翻译综合得分第一,阿里Qwen系列在文化特性维度表现突出 [14][16][20][23][24][26] - 阿里国际自研翻译大模型Marco MT日均调用量达6亿次,其真实用户反馈成为TransBench测评体系构建基础 [39][40][41] 评测体系创新 - 新增幻觉率、鲁棒性评测,解决大模型翻译中"编造内容"问题 [3][34] - 首次针对电商等垂直行业构建评测数据,采用真实场景反馈和专家标注训练行业打分模型 [4][35] - 首创文化禁忌和敬语规范评测标准,覆盖跨文化场景下的用户体验痛点 [36][38] 首期测评结果 英语翻译能力 - 综合得分前三:GPT-4o(51.596)、DeepL Translate(49.855)、GPT-4-Turbo(47.753)[16] - 电商行业前三:Qwen2.5-0.5B-Instruct(0.488)、Qwen2.5-1.5B-Instruct(0.451)、EuroLLM-1.7B-Instruct(0.377)[19] - 文化特性前三:GPT-4o、DeepL Translate、GPT-4-Turbo [20] 中文翻译能力 - 综合得分前三:DeepSeek-V3(4.420)、Gemini-2.5-Pro(4.391)、Claude-3.5-Sonnet(4.377)[23] - 文化特性前三:Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct [24] - 电商行业第一:DeepSeek-V3(4.420)[25] 阿里国际业务关联 - 旗下AliExpress等电商平台覆盖200+国家地区,多语言翻译需求驱动AI技术投入 [42] - AI Business部门已服务超50万卖家,形成全球化电商AI应用规模效应 [43] - 2026届校招80%岗位为AI相关,包括算法、研发、产品经理等方向 [45]