阿里公测千问对标ChatGPT，但9.9和9.11谁大还是“翻车”了

大模型能力表现 - 阿里巴巴最新公测的千问APP在回答“数字9.9和9.11谁大”时答错称“9.11更大” 但在后续问题拆解中经过分析后给出了9.9大于9.11的结论 [1] - 对于同一问题前后答案矛盾千问解释为处理时出现阶段性错误属于结论与推理过程不匹配的笔误及认知偏差干扰 [9] - 记者再次提问后千问展示了自我完善能力正确回答“9.9更大” [9] - 此前第一财经记者测试12个大模型阿里通义千问百度文心一言 Minimax和腾讯元宝答对但ChatGPT-4o 豆包 kimi都答错 [1] - 该问题由艾伦研究机构成员林禹臣发现 Scale AI的提示工程师莱利·古德赛德变换问法后拷问多主流大模型 ChatGPT-4o 谷歌Gemini Advanced及Claude 3.5 Sonnet均答错 [9][10] 大模型技术特性 - 有AI技术从业人士表示大模型本质是语言模型从语言数据中学习统计相关性使其不擅长规则学习和归纳推理 [10] - 尽管在常识性问题上出现失误但在技术积累生态布局和全球拓展方面包括阿里巴巴Qwen模型在内的中国大模型已具备全球竞争力 [10] 阿里巴巴Qwen模型市场表现 - Qwen系列模型的全球下载量已突破6亿次 [10] - 爱彼迎CEO表态公司已很大程度上依赖阿里巴巴Qwen模型认为其非常好速度快且便宜在实际生产中通常不会大量使用OpenAI最新模型因为有更快更经济的模型可选 [10] 阿里巴巴AI战略布局 - 阿里巴巴正式宣布“千问”项目全力进军AI to C市场计划将地图外卖订票办公学习购物健康等各类生活场景接入千问APP [11] - 基于开源模型Qwen3 阿里管理层将“千问”项目视为“AI时代的未来之战” 意味着阿里巴巴正借力Qwen模型海外影响力与ChatGPT直接展开海外竞争 [11]