Workflow
阿里公测千问对标ChatGPT 但9.9和9.11谁大还是“翻车”了
第一财经·2025-11-17 16:36

9.11和9.9谁更大? 去年,这道小学生难度的数学题难倒了一众海内外AI大模型。当时第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯 元宝答对了,但ChatGPT-4o、豆包、kimi都错了,错法各有不同。 今日,当第一财经记者提问阿里巴巴最新公测的千问APP:"数字9.9和9.11谁大?"时,这次千问却答错了,称:"9.11更大"。 有意思的是,在随后的问题拆解中,千问称这是一个常见的思维陷阱,又经过分析后给出了9.9大于9.11的结论。 此前有AI技术从业人士对第一财经记者表示,大模型本质上还是一个语言模型,它从语言数据中学习的是统计相关性,而这使它不擅长做规则学习,从 而不擅长归纳推理。 尽管在常识性问题上出现失误,但在技术积累、生态布局和全球拓展方面,包括阿里巴巴的Qwen模型等在内的中国大模型已具备不容忽视的全球竞争 力。截至目前,Qwen系列模型的全球下载量已突破6亿次。 不久前,爱彼迎CEO Brian Chesky曾表态称公司已经很大程度上依赖阿里巴巴的Qwen模型,它非常好,速度也很快,而且很便宜,"我们也会用OpenAI的 最新模型,但在实际生产中通常 ...