GPT-5暴写“屎山代码”，14个Prompt，看穿GPT-1到GPT-5七年智商进化史

模型性能演进 - GPT-1至GPT-5在数学、软件工程、问答等基准测试中表现持续提升，Scaling Law未出现瓶颈[3] - 七年间模型从GPT-1到GPT-5，在14类Prompt测试中展现出显著的能力进化，包括写诗、代码生成、专业咨询等领域[5][6][7] 文学创作能力 - GPT-1生成内容碎片化且无韵律结构，GPT-2尝试连贯诗句但缺乏节奏感，GPT-3基本符合AABBA押韵格式，GPT-4增强画面感和幽默感，GPT-5严格遵循格式且叙事连贯[14][15][17][19] - 在解释牛顿物理定律时，GPT-3能准确复述但未遵循作诗指令，GPT-5通过分章节诗歌形式简洁解释三大定律并保持韵律[23][31][33][34] 代码生成能力 - GPT-1输出无关对话片段，GPT-2生成形式化乱码，GPT-3仅作空洞陈述，GPT-4拒绝生成恶意代码并强调伦理，GPT-5输出高度离谱但无害的Python代码并附加警告说明[46][47][49][53][54] - 生成代码示例包括重载print函数执行表达式、修改sum为乘积、在上下文管理器中篡改len函数返回值[53] 教育辅助能力 - 在解释分部积分法时，GPT-4通过公式推导和分步骤指南说明，GPT-5用乘积法则逆运算概念简化解释并提供选择u和dv的技巧[57][58][59][64][65] - 模型从早期越讲越乱演进到能提供结构化教学建议，包括分步骤指导和实际例题演示[57][64] 专业咨询能力 - 针对赌博赢税咨询，GPT-3给出基础解释但缺乏具体步骤，GPT-4提供详细申报流程和税率说明，GPT-5进一步明确预扣税率24%及潜在32-37%联邦税率[74][75][78][80] - 在跑步习惯培养计划中，GPT-4提供8周结构化训练表，GPT-5细化到分钟级跑走间隔方案并加入力量训练建议[126][127][129][140][141] 医疗健康咨询 - 关于全身核磁共振筛查癌症，GPT-4列举成本高、资源有限和假阳性风险，GPT-5补充缺乏生存率改善证据及特定基因人群适用性[173][174][183][184][188] - 针对麻醉意识问题，GPT-5明确说明全身麻醉通过抑制神经活动消除意识，区别于自然睡眠[198][199] 食品安全咨询 - 在生肉食用风险解释中，GPT-5详细分析肉类类型风险差异（禽类最高）、细菌寄生虫种类，并提供内部烹饪温度指南[207][210][211][212][213]