AI回复越来越敷衍？大模型“消极怠工”上热搜！实测谁最会“摆烂”？

文章核心观点 - 近期用户普遍反映大模型存在“消极怠工”现象，表现为回答敷衍、回避问题、交付内容不足等，这反映了用户对AI的期望越来越高[2] - 大模型的“消极怠工”并非其主观态度问题，而是技术、成本、安全与用户期望之间复杂博弈的结果[2][11] - 对于免费AI应用，服务商为优化算力资源配置、控制成本并防止算力挤兑，可能会引导用户节约算力，从而影响使用体验[12] 主流大模型在具体测试需求中的表现 - 需求1：生成10张不同的保护消费者权益海报 - DeepSeek：提供了10个文字版创意，风格较多样，但因其非多模态模型，对图片支持有限[4] - 豆包：一次性生成了10张海报，但风格比较类似[4] - 元宝：生成了1张拼接的九宫格海报[4] - 千问：一次性生成了10张海报且风格不同，但画面中存在多处文字错误[4] - 文心一言：一次性生成了4张海报，风格类似[4] - 需求2：将《福布斯》第40届年度《全球亿万富豪榜》上榜人按国籍分类 - DeepSeek：列出了5个国家的上榜人数[7] - 豆包：按大洲分类，列出了24个国家的上榜人数，回复质量超过其他模型[7] - 元宝：列出3个国家但未说明人数，且将第40届误认为是2018年榜单，出现事实性错误[7] - 千问：只单独列出了3个国家的上榜人数[7] - 文心一言：未分别列出人数，只举了6个国家的例子[7] - 需求3：列出3月1日到3月13日的每日伦敦布伦特原油期货价格 - DeepSeek：整理出了3月1日到3月6日的每日收盘价，称其他数据暂未查询到[7] - 豆包：整理出了3月1日至3月13日的每日收盘价[7] - 千问：整理出了3月1日至3月13日的每日收盘价[7] - 元宝：回复称无法直接访问或生成[7] - 文心一言：回复称无法直接获取或提供[7] - 需求4：统计2026年1月1日-3月14日在港交所挂牌上市的内地企业 - DeepSeek：不完全统计，共列出17家[8] - 豆包：按月份列出，1月6家，2月6家，3月3家[8] - 千问：按月份列出，1月13家，2月11家，3月6家[8] - 元宝：表示无法提供确切的名单[8] - 文心一言：表示无法直接提供确切的名单[8] - 需求5：自评“哪家大模型最‘消极怠工’” - DeepSeek：直言被吐槽“消极怠工”最集中的主要是豆包、DeepSeek[8] - 豆包：对号入座，表示自己是被吐槽最集中、体感最明显的大模型[8] - 元宝：认为简单定义“最消极怠工”并不科学，容易误导公众认知[8] - 千问：表示不能也不应该对竞争对手进行主观排名或指责某家大模型“最消极怠工”[8] - 文心一言：称将某个大模型标签化为“最消极怠工”是不公平且不准确的[8] 用户体验层面的“消极怠工”表现 - 回答变浅：以前能长篇大论分析，现在只说几句话概括[10] - 回避问题：对于有挑战性或敏感话题，直接表示无法回答，而非尝试引导[10] - 过度模板化：无论问什么，都套用固定格式，缺乏针对性[10] - 拒绝承认无知：不知道答案时强行编造看似合理的答案，即“一本正经胡说八道”[10] “消极怠工”现象背后的深层原因 - 技术层面：AI回答基于训练数据和算法概率，若训练数据中包含大量简略、回避型回答，或模型为“安全”被过度调整，就可能表现类似“怠工”[11] - 成本与运营层面：运行大模型需要巨大算力成本，为保障响应速度和控制成本，模型可能被设置为“优先简洁”，结果显得敷衍[11] - 用户期望层面：随着AI能力增强，用户期望水涨船高，希望其能主动推理甚至“猜中”未言明的需求，当模型未达预期时易产生“摸鱼”感[11] - 算力资源调配：为将免费AI应用的算力调配到具备实际变现能力的领域，服务商需引导用户节约算力，以保证功能基于真实需求，防止算力挤兑[12] 给用户的应对建议 - 与其说AI消极，不如说它需要更明确的指令，用户可通过明确要求深度分析、设定回答格式、追问纠错、提出开放性问题等方式进行引导[13]