Qwen 2.5 (32B)
搜索文档
老外傻眼,明用英文提问,DeepSeek依然坚持中文思考
36氪· 2025-12-03 17:14
DeepSeek模型新版本发布 - 公司推出DeepSeek-V3.2和DeepSeek-V3.2-Speciale两大新模型,推理能力显著提升[1] - DeepSeek-V3.2版本能与GPT-5硬碰硬,Speciale版本结合长思考和定理证明能力,表现媲美Gemini-3.0-Pro[1] - 海外研究者反馈DeepSeek推理速度显著提升,但在用英文询问时思考过程仍会使用中文[1] 多语言推理效率研究 - 微软论文《EfficientXLang》发现使用非英语语言推理可减少Token消耗并保持准确性,即使翻译回英语优势依然存在[5] - 在所有评估模型和数据集上,非英语语言推理能实现20-40%的显著令牌降低,DeepSeek R1的token减少量从14.1%(俄语)到29.9%(西班牙语)不等,Qwen 3韩语减少量高达73%[9] - 中文表达相同文本含义所需字符量明显少于英文,信息密度更高,但并非最有效率的语言[3][5][9] 长上下文多语言性能表现 - 马里兰大学和微软研究提出多语言基准OneRuler,评估26种语言在128K令牌长上下文理解能力[10] - 实验表明英语在长上下文任务中排名第6,波兰语位居榜首,低资源语言与高资源语言性能差距随上下文长度增加而扩大[10] - Gemini 1.5 Flash展现最佳长上下文性能,英语和中文均未进入排名前五语言[15] 大模型思考语言选择因素 - 国产大模型因训练数据包含更多中文内容,思考过程出现中文属正常现象,如AI编程工具Cursor 2.0核心模型思考过程完全由中文构成[17] - OpenAI的o1-pro模型也会随机出现中文思考过程,尽管其训练过程中英文数据占比更高[20] - 不同语言有不同特性,在大模型中会产生各种现象,中文训练语料日益丰富[24][25]
老外傻眼!明用英文提问,DeepSeek依然坚持中文思考
机器之心· 2025-12-03 16:30
DeepSeek模型新版本发布 - DeepSeek上新两个新模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - V3.2版本推理能力能与GPT-5硬碰硬,Speciale结合长思考和定理证明能力表现媲美Gemini-3.0-Pro [1] - 海外研究者反馈DeepSeek推理速度显著提升 [1] 多语言推理效率研究 - 微软论文《EfficientXLang》发现使用非英语语言推理能减少Token消耗并保持准确性 [7] - 研究评估了DeepSeek R1、Qwen 2.5和Qwen 3模型在七种目标语言中的表现 [8] - 与英语相比,非英语语言推理能实现20-40%的Token降低,DeepSeek R1的token减少量从14.1%(俄语)到29.9%(西班牙语)不等 [11] - Qwen 3表现更显著,韩语的token减少量高达73% [11] 中文推理特性分析 - 海外用户发现即使用英文询问,DeepSeek在思考过程中仍会使用中文 [1] - 评论普遍认为汉字信息密度更高,表达相同含义所需字符量明显更少 [4][6] - 中文相比英文能够节省推理token成本,但并非最有效率语言 [12] 长上下文多语言性能比较 - OneRuler基准包含26种语言,用于评估LLM在长达128K令牌的上下文理解能力 [12] - 英语在长上下文任务中排名第6,波兰语位居榜首 [14] - 英语和中文均未进入长上下文性能排名前五的语言 [18] 训练数据对思考语言的影响 - 国产大模型采用更多中文训练语料,思考过程出现中文是正常现象 [20] - AI编程工具Cursor的Composer-1模型思考过程完全由中文构成 [21] - OpenAI的o1-pro模型也会随机出现中文思考过程 [25]