Social Norms

搜索文档
欧洲高校学者研究发现:AI能自发形成社会规范并产生集体偏见
扬子晚报网· 2025-05-19 12:39
大型语言模型社会规范研究 - 伦敦大学城市学院与哥本哈根信息技术大学研究发现LLM群体能自发形成社会规范并涌现集体偏见 [2] - 研究发表在《Science Advances》杂志 由Ariel Flint Ashery、Luca Maria Aiello和Andrea Baronchelli共同完成 [2] - 实验证明去中心化的LLM代理群体中社会规范可自发出现 即使个体无偏见也可能产生集体偏见 [2] 自发形成社会规范机制 - 基于"命名游戏"实验显示LLM代理通过局部互动能迅速达成统一社会规范 [3] - 所有测试模型(Llama-2-70b-Chat/Llama-3系列/Claude-3.5-Sonnet)均在短时间内形成统一命名惯例 [3] - 形成的规范类似人类社会中握手或鞠躬等约定俗成的社交礼仪 [3] 集体偏见产生原理 - 初始随机选择的LLM代理在互动中会逐渐使某些名称成为主导选择 [4] - 集体偏见源于代理记忆状态变化 决策时受先前成功经验影响强化特定规范 [4] - 实验观察到字母"A"因早期高频使用被优先选择的现象 [4] 少数派影响规范变革 - 坚定的小群体推广新规范达到"临界数量"时可促使整个群体接受变革 [5] - 不同模型接受度差异显著 Llama-3-70B-Instruct仅需2%少数派 Llama-2-70b-Chat需67% [5] - 该现象与人类社会中性别平等倡导或语言演变机制类似 [5] AI伦理与应用启示 - 研究揭示了LLM形成社会规范的潜力 同时提出无意识发展偏见的伦理问题 [6] - Andrea Baronchelli指出这对AI治理和伦理设计提出新挑战 [6] - 未来需关注混合人类-LLM生态系统中的规范动态 引导形成有益社会行为 [7] - 研究为构建安全可控且符合人类利益的人工智能系统提供理论基础 [7]