文章核心观点 - 近期用户普遍反映大模型存在“消极怠工”现象,表现为回答敷衍、回避问题、交付内容不足等,这反映了用户对AI的期望越来越高[2] - 大模型的“消极怠工”并非其主观态度问题,而是技术、成本、安全与用户期望之间复杂博弈的结果[2][11] - 对于免费AI应用,服务商为优化算力资源配置、控制成本并防止算力挤兑,可能会引导用户节约算力,从而影响使用体验[12] 主流大模型在具体测试需求中的表现 - 需求1:生成10张不同的保护消费者权益海报 - DeepSeek:提供了10个文字版创意,风格较多样,但因其非多模态模型,对图片支持有限[4] - 豆包:一次性生成了10张海报,但风格比较类似[4] - 元宝:生成了1张拼接的九宫格海报[4] - 千问:一次性生成了10张海报且风格不同,但画面中存在多处文字错误[4] - 文心一言:一次性生成了4张海报,风格类似[4] - 需求2:将《福布斯》第40届年度《全球亿万富豪榜》上榜人按国籍分类 - DeepSeek:列出了5个国家的上榜人数[7] - 豆包:按大洲分类,列出了24个国家的上榜人数,回复质量超过其他模型[7] - 元宝:列出3个国家但未说明人数,且将第40届误认为是2018年榜单,出现事实性错误[7] - 千问:只单独列出了3个国家的上榜人数[7] - 文心一言:未分别列出人数,只举了6个国家的例子[7] - 需求3:列出3月1日到3月13日的每日伦敦布伦特原油期货价格 - DeepSeek:整理出了3月1日到3月6日的每日收盘价,称其他数据暂未查询到[7] - 豆包:整理出了3月1日至3月13日的每日收盘价[7] - 千问:整理出了3月1日至3月13日的每日收盘价[7] - 元宝:回复称无法直接访问或生成[7] - 文心一言:回复称无法直接获取或提供[7] - 需求4:统计2026年1月1日-3月14日在港交所挂牌上市的内地企业 - DeepSeek:不完全统计,共列出17家[8] - 豆包:按月份列出,1月6家,2月6家,3月3家[8] - 千问:按月份列出,1月13家,2月11家,3月6家[8] - 元宝:表示无法提供确切的名单[8] - 文心一言:表示无法直接提供确切的名单[8] - 需求5:自评“哪家大模型最‘消极怠工’” - DeepSeek:直言被吐槽“消极怠工”最集中的主要是豆包、DeepSeek[8] - 豆包:对号入座,表示自己是被吐槽最集中、体感最明显的大模型[8] - 元宝:认为简单定义“最消极怠工”并不科学,容易误导公众认知[8] - 千问:表示不能也不应该对竞争对手进行主观排名或指责某家大模型“最消极怠工”[8] - 文心一言:称将某个大模型标签化为“最消极怠工”是不公平且不准确的[8] 用户体验层面的“消极怠工”表现 - 回答变浅:以前能长篇大论分析,现在只说几句话概括[10] - 回避问题:对于有挑战性或敏感话题,直接表示无法回答,而非尝试引导[10] - 过度模板化:无论问什么,都套用固定格式,缺乏针对性[10] - 拒绝承认无知:不知道答案时强行编造看似合理的答案,即“一本正经胡说八道”[10] “消极怠工”现象背后的深层原因 - 技术层面:AI回答基于训练数据和算法概率,若训练数据中包含大量简略、回避型回答,或模型为“安全”被过度调整,就可能表现类似“怠工”[11] - 成本与运营层面:运行大模型需要巨大算力成本,为保障响应速度和控制成本,模型可能被设置为“优先简洁”,结果显得敷衍[11] - 用户期望层面:随着AI能力增强,用户期望水涨船高,希望其能主动推理甚至“猜中”未言明的需求,当模型未达预期时易产生“摸鱼”感[11] - 算力资源调配:为将免费AI应用的算力调配到具备实际变现能力的领域,服务商需引导用户节约算力,以保证功能基于真实需求,防止算力挤兑[12] 给用户的应对建议 - 与其说AI消极,不如说它需要更明确的指令,用户可通过明确要求深度分析、设定回答格式、追问纠错、提出开放性问题等方式进行引导[13]
AI回复越来越敷衍?大模型“消极怠工”上热搜!实测谁最会“摆烂”?
新浪财经·2026-03-14 16:05