ChatGPT文风，原产地肯尼亚

文章核心观点 - 文章核心观点是探讨ChatGPT等大语言模型产生特定“AI文风”的根源指出其正式、结构严谨、逻辑流畅的写作风格并非机器独创而是源于其训练数据中大量历史沉淀的经典正式书面语以及RLHF等训练过程中外包劳动力（特别是非洲英语区）的语言习惯影响这导致部分非英语母语者（尤其是接受过类似严格写作训练的人）的文本容易被误判为AI生成[1][9][12][14][29] ChatGPT文风与肯尼亚教育体系的关联 - 肯尼亚作家Marcus Olang'指出其写作风格与ChatGPT输出高度相似都倾向于使用结构严谨平衡的句子、过渡词以及连字符、分号或破折号来连接想法[7][8] - 这种相似性源于肯尼亚严苛的教育体系学生从小被教导文章必须像一座完美的大厦需使用“首先、其次、最后”构建逻辑用“此外、然而、因此”精确转折并使用丰富的词汇[10][11] - 由于AI大模型从海量的书籍、论文、报告等经典正式书面语中学习其为了显得“权威”和“可信”而输出的文风与肯尼亚等地的教育产物产生了诡异的“孪生”效应[12][13] AI检测器误判与非英语母语者困境 - 现有的AI检测器更倾向于将流畅、逻辑严密、句式规整的文本标记为AI生成而这恰恰是许多接受过严格正式写作训练的非英语母语者的写作特点导致他们更容易被误判[14] - 肯尼亚作家的亲身经历表明由于历史原因一些非英语母语者的写作本就是现有AI模型的“教材” 但他们现在却成了AI普及后的“受害者”[15] - 该观点获得了其他非洲地区网友的认同例如加纳人表示感同身受而肯尼亚作家这篇感情饱满的文章仍被Pangram网站判定为100%由AI生成[15][18] RLHF外包与特定词汇偏好 - 为了将大语言模型“驯化”成安全、有用、可控的聊天机器人企业会雇佣大量人类测试员进行RLHF 出于人力成本考量这项劳动密集型工作被大量外包给了肯尼亚、尼日利亚等英语区的非洲国家[27][28][29] - 这些地区测试员日常生活中自然、规范的商务或学术英语用词习惯被模型学习并反映在输出中例如“delve”一词在ChatGPT生成的文本中出现频率异常地高[19][30][31] - 数据显示在PubMed这类专业学术网站上 “delve”的出现频率在近几年激增了10到100倍暗示大量研究人员可能用ChatGPT辅助写作并将其词汇偏好带入正式文本[20][22] - 除“delve”外像“explore”、“tapestry”、“testament”和“leverage”等词汇在ChatGPT文本中的出现频率也异常地高[26]