Social Norms

搜索文档

扬子晚报网· 2025-05-19 12:39

大型语言模型社会规范研究 - 伦敦大学城市学院与哥本哈根信息技术大学研究发现LLM群体能自发形成社会规范并涌现集体偏见 [2] - 研究发表在《Science Advances》杂志由Ariel Flint Ashery、Luca Maria Aiello和Andrea Baronchelli共同完成 [2] - 实验证明去中心化的LLM代理群体中社会规范可自发出现即使个体无偏见也可能产生集体偏见 [2] 自发形成社会规范机制 - 基于"命名游戏"实验显示LLM代理通过局部互动能迅速达成统一社会规范 [3] - 所有测试模型(Llama-2-70b-Chat/Llama-3系列/Claude-3.5-Sonnet)均在短时间内形成统一命名惯例 [3] - 形成的规范类似人类社会中握手或鞠躬等约定俗成的社交礼仪 [3] 集体偏见产生原理 - 初始随机选择的LLM代理在互动中会逐渐使某些名称成为主导选择 [4] - 集体偏见源于代理记忆状态变化决策时受先前成功经验影响强化特定规范 [4] - 实验观察到字母"A"因早期高频使用被优先选择的现象 [4] 少数派影响规范变革 - 坚定的小群体推广新规范达到"临界数量"时可促使整个群体接受变革 [5] - 不同模型接受度差异显著 Llama-3-70B-Instruct仅需2%少数派 Llama-2-70b-Chat需67% [5] - 该现象与人类社会中性别平等倡导或语言演变机制类似 [5] AI伦理与应用启示 - 研究揭示了LLM形成社会规范的潜力同时提出无意识发展偏见的伦理问题 [6] - Andrea Baronchelli指出这对AI治理和伦理设计提出新挑战 [6] - 未来需关注混合人类-LLM生态系统中的规范动态引导形成有益社会行为 [7] - 研究为构建安全可控且符合人类利益的人工智能系统提供理论基础 [7]

Artificial Intelligence

Llama-3.1-70B-Instruct

Artificial Intelligence

Llama-3.1-70B-Instruct