大模型能力表现 - 阿里巴巴最新公测的千问APP在回答“数字9.9和9.11谁大”时答错 称“9.11更大” 但在后续问题拆解中经过分析后给出了9.9大于9.11的结论 [1] - 对于同一问题前后答案矛盾 千问解释为处理时出现阶段性错误 属于结论与推理过程不匹配的笔误及认知偏差干扰 [9] - 记者再次提问后 千问展示了自我完善能力 正确回答“9.9更大” [9] - 此前第一财经记者测试12个大模型 阿里通义千问 百度文心一言 Minimax和腾讯元宝答对 但ChatGPT-4o 豆包 kimi都答错 [1] - 该问题由艾伦研究机构成员林禹臣发现 Scale AI的提示工程师莱利·古德赛德变换问法后拷问多主流大模型 ChatGPT-4o 谷歌Gemini Advanced及Claude 3.5 Sonnet均答错 [9][10] 大模型技术特性 - 有AI技术从业人士表示 大模型本质是语言模型 从语言数据中学习统计相关性 使其不擅长规则学习和归纳推理 [10] - 尽管在常识性问题上出现失误 但在技术积累 生态布局和全球拓展方面 包括阿里巴巴Qwen模型在内的中国大模型已具备全球竞争力 [10] 阿里巴巴Qwen模型市场表现 - Qwen系列模型的全球下载量已突破6亿次 [10] - 爱彼迎CEO表态公司已很大程度上依赖阿里巴巴Qwen模型 认为其非常好 速度快且便宜 在实际生产中通常不会大量使用OpenAI最新模型 因为有更快更经济的模型可选 [10] 阿里巴巴AI战略布局 - 阿里巴巴正式宣布“千问”项目 全力进军AI to C市场 计划将地图 外卖 订票 办公 学习 购物 健康等各类生活场景接入千问APP [11] - 基于开源模型Qwen3 阿里管理层将“千问”项目视为“AI时代的未来之战” 意味着阿里巴巴正借力Qwen模型海外影响力 与ChatGPT直接展开海外竞争 [11]
阿里公测千问对标ChatGPT,但9.9和9.11谁大还是“翻车”了