阿里公测千问对标ChatGPT 但9.9和9.11谁大还是“翻车”了

大模型能力测试 - 阿里巴巴最新公测的千问APP在回答“数字9.9和9.11谁大”时出错，称“9.11更大”[2] - 经过问题拆解和自我纠错后，千问承认首次回答存在结论与推理过程不匹配的笔误，并最终给出正确答案“9.9更大”[7] - 该问题最初由艾伦研究机构成员发现，ChatGPT-4o曾认为13.11比13.8更大，显示大模型在常识问题上的普遍弱点[7] 大模型技术特性 - 有AI技术从业人士指出，大模型本质是语言模型，从语言数据中学习统计相关性，因此不擅长规则学习和归纳推理[8] - 尽管在常识问题上存在失误，但大模型在技术积累和复杂任务上表现突出，例如擅长数学奥赛题[7] 阿里巴巴Qwen模型竞争力 - 包括阿里巴巴Qwen模型在内的中国大模型，在技术积累、生态布局和全球拓展方面已具备不容忽视的全球竞争力[8] - Qwen系列模型的全球下载量已突破6亿次[8] - 爱彼迎CEO表示公司已很大程度上依赖阿里巴巴的Qwen模型，认为其非常好、速度快且便宜，在实际生产中比OpenAI最新模型使用更多[8] 阿里巴巴AI战略部署 - 阿里巴巴正式宣布“千问”项目，并全力进军AI to C市场，计划将地图、外卖、订票等各类生活场景接入千问APP[10] - 基于开源模型Qwen3，公司将“千问”项目视为“AI时代的未来之战”，借力Qwen模型的海外影响力与ChatGPT直接展开竞争[10]