Workflow
TransBench
icon
搜索文档
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源
量子位· 2025-05-23 08:24
这是首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,由此来测评大模型是否符合大规模应用的标 准。 目前, TransBench评测方法与数据集已全面开源 ,也已发布了首期测评结果。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI AI替咱打工搞翻译,到底谁家最好用? 终于,有人来统一翻译江湖的标准了: 首个应用型AI翻译测评榜单TransBench在OpenCompass上线 。 它由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布。 与传统的翻译测评体系相比,TransBench 增加了幻觉率、文化禁忌词、敬语规范等指标 ,专门针对大模型翻译最容易出错的关键问题进行 实战考核。 比如: 欢迎各个AI翻译机构去打榜,一较高下~ GPT-4o稳坐"翻译AI天花板" 官网表示,TransBench数据集中涵盖中、英、法、日、韩、西班牙等多种语言。 此外,还在不断持续更新海量小语种。 TransBench评测体系中的数据集,根据"通用标准""电商文化""文化特性"三个大类,整理了不同的数据集。 目前,TransBench多语言翻译评测榜单首期已经出 ...
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,文化方面Qwen系列一马当先丨开源
量子位· 2025-05-22 22:24
TransBench评测体系发布 - 首个应用型AI翻译测评榜单TransBench在OpenCompass上线 由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学共同发布[1][2] - 与传统测评体系相比新增幻觉率、文化禁忌词、敬语规范等指标 专门针对大模型翻译易出错的关键问题[3] - 评测方法与数据集已全面开源 首期测评结果已发布[5] 评测维度与数据集 - 数据集涵盖中、英、法、日、韩、西班牙等多种语言 并持续更新海量小语种[6][7] - 根据"通用标准""电商文化""文化特性"三大类整理不同数据集[8] - 从"综合得分""通用标准""电商文化""文化特性"四个维度对模型翻译能力打分[9] 英语翻译评测结果 - 综合得分和通用标准前三:GPT-4o(51.596)、DeepL Translate(49.855)、GPT-4-Turbo(47.753)[16] - 电商行业前三:Qwen2.5-0.5B-Instruct(0.488)、Qwen2.5-1.5B-Instruct(0.451)、EuroLLM-1.7B-Instruct(0.377)[19] - 文化特性前三:GPT-4o、DeepL Translate、GPT-4-Turbo[20] 中文翻译评测结果 - 综合得分和通用标准前三:DeepSeek-V3(4.420)、Gemini-2.5-Pro(4.391)、Claude-3.5-Sonnet(4.377)[23] - 电商行业第一:DeepSeek-V3(4.420)[25] - 文化特性前三:Qwen2.5-0.5B-Instruct、Llama-3.3-70B-Instruct、Qwen2.5-1.5B-Instruct[24] 评测标准创新 - 三大创新维度:全面的通用标准(含幻觉率和鲁棒性)、行业垂直标准、跨文化特性标准[33][35][36] - 首次提出文化禁忌和敬语规范评测 数据来自行业真实场景反馈[4][38] - 基于阿里国际Marco MT翻译大模型日均6亿次调用的真实用户反馈构建[40][41] 阿里国际AI布局 - 2023年3月成立AI Business 基于全球化电商场景探索AI技术[43] - 电商平台已广泛应用AI能力 服务超50万卖家[43] - 2026届校招80%岗位为AI相关 包括算法、研发、产品经理等[45]
阿里国际与上海人工智能实验室联合发布首个应用型AI翻译评测榜单
快讯· 2025-05-22 11:32
华尔街见闻获悉,本周,由阿里国际联合上海人工智能实验室、北京语言大学一起制定的AI翻译测评 榜单TransBench在OpenCompass上线。与传统的翻译测评体系相比,该榜单增加了幻觉率、文化禁忌 词、敬语规范等指标,并首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景 的使用反馈,测评方法也已开源。(全天候科技) ...