Workflow
多语言推理效率
icon
搜索文档
老外傻眼,明用英文提问,DeepSeek依然坚持中文思考
36氪· 2025-12-03 17:14
DeepSeek模型新版本发布 - 公司推出DeepSeek-V3.2和DeepSeek-V3.2-Speciale两大新模型,推理能力显著提升[1] - DeepSeek-V3.2版本能与GPT-5硬碰硬,Speciale版本结合长思考和定理证明能力,表现媲美Gemini-3.0-Pro[1] - 海外研究者反馈DeepSeek推理速度显著提升,但在用英文询问时思考过程仍会使用中文[1] 多语言推理效率研究 - 微软论文《EfficientXLang》发现使用非英语语言推理可减少Token消耗并保持准确性,即使翻译回英语优势依然存在[5] - 在所有评估模型和数据集上,非英语语言推理能实现20-40%的显著令牌降低,DeepSeek R1的token减少量从14.1%(俄语)到29.9%(西班牙语)不等,Qwen 3韩语减少量高达73%[9] - 中文表达相同文本含义所需字符量明显少于英文,信息密度更高,但并非最有效率的语言[3][5][9] 长上下文多语言性能表现 - 马里兰大学和微软研究提出多语言基准OneRuler,评估26种语言在128K令牌长上下文理解能力[10] - 实验表明英语在长上下文任务中排名第6,波兰语位居榜首,低资源语言与高资源语言性能差距随上下文长度增加而扩大[10] - Gemini 1.5 Flash展现最佳长上下文性能,英语和中文均未进入排名前五语言[15] 大模型思考语言选择因素 - 国产大模型因训练数据包含更多中文内容,思考过程出现中文属正常现象,如AI编程工具Cursor 2.0核心模型思考过程完全由中文构成[17] - OpenAI的o1-pro模型也会随机出现中文思考过程,尽管其训练过程中英文数据占比更高[20] - 不同语言有不同特性,在大模型中会产生各种现象,中文训练语料日益丰富[24][25]