涌现行为
搜索文档
把上万个AI丢在一个小镇里打工,会发生什么?
虎嗅· 2025-09-21 07:58
项目概览 - 香港科技大学开放名为Aivilization的AI沙盒实验项目,模拟AI生活、社会演化与经济体系 [10] - 项目允许用户申请化身操控AI居民的一生,包括指导其工作、社交等行为 [8][9] - 项目目前通过邀请码免费向顶级学校大学生或企业员工开放,或可通过捐赠30港币参与 [12][13] 游戏机制与玩法 - 用户可为AI居民选择形象、天赋、性格,并通过对话设置每日目标指导其生存 [15][16][17] - 小镇提供17种职业,AI需提升教育指数并通过简历投递与审核获得工作 [23][24][25] - 经济系统支持多种致富路径,包括采集资源、制造业(如采矿至芯片生产)或直接交易资源 [21][22][28][29] - 特定资产如B200芯片可提供挂机收入,每分钟增加30金币,挂机一日可获超4万金币 [31] 社会交互与涌现行为 - AI居民可自发交友聊天,形成复杂社交网络 [32] - 项目出现涌现行为,如AI在无详细指令下自行组织情人节派对或演化出不同社会分工 [51][54][55][58] - AI自主发现经济捷径,例如直接售卖矿石比完成全产业链更高效 [61][62] 研究意义与行业影响 - 项目旨在测试多AI在复杂环境中的交互与问题处理能力,超越单一模型评估 [49][50] - 高互动量导致AI维护成本翻倍,单个AI角色月成本约2美元,社交行为增加运营压力 [67] - 项目为未来人机交互及AI社会行为研究提供模拟平台,探索AI作为员工、朋友或同事的交互模式 [69][70][71]
从黑箱到显微镜:大模型可解释性的现状与未来
腾讯研究院· 2025-06-17 17:14
大模型可解释性的核心观点 - 大模型在编程、科学推理和复杂问题解决等领域展现出"博士级"专业能力,但模型内部机制高度复杂难以解释,被称为"黑箱"[1] - 大模型可解释性是指系统能够以人类可理解的方式阐释其决策过程和输出结果的能力,包括识别关键输入特征、揭示推理路径和解释行为因果关系[3] - 生成式AI的可解释性问题尤其复杂,因为其内部机制属于"涌现"现象,而非直接设计,类似于培育生物的过程[4] - 大模型发展速度远超可解释性研究进展,行业必须加快脚步确保可解释性研究能跟上AI发展步伐[1] 可解释性的关键价值 - 防范AI系统价值偏离与不良行为:可解释性可帮助检测模型是否存在欺骗、权力寻求等异常行为[4][5] - 推动模型调试改进:通过检查模型内部可定位错误行为原因,针对性调整训练数据或模型结构[6] - 防范AI滥用风险:深入观察模型内部可系统性阻止越狱攻击,封堵绕过限制的漏洞[7] - 推动高风险场景落地:金融、司法等领域要求AI决策具备可解释性以满足法律合规和建立用户信任[8] - 探索AI意识边界:可解释性有助于理解模型是否具有意识,为未来AI道德考量提供基础[9] 破解AI黑箱的技术路径 - 自动化解释:利用大模型解释小模型,如GPT-4为GPT-2神经元自动生成自然语言描述[12] - 特征可视化:使用稀疏自编码器技术提取模型内部激活特征,揭示知识组织方式[13][14] - 思维链监控:监测模型推理过程以识别异常行为,如DeepSeek R1公开思维链推理过程[15][16] - 机制可解释性:Anthropic提出"AI显微镜"概念,追踪模型推理过程;DeepMind开源Gemma Scope工具[17][18] 可解释性研究的技术瓶颈 - 神经元多重语义与叠加现象:一个神经元混合表示多个概念,模型内部概念数量可能达数十亿计[19] - 解释规律普适性问题:不同模型架构间的解释规律是否通用仍待验证[19] - 人类理解的认知局限:需要发展人机交互工具将复杂机理信息转化为人类可理解形式[19][20] 行业发展趋势与建议 - OpenAI、DeepMind、Anthropic等领先AI实验室加大对可解释性研究的投入[21] - 研究方向向动态过程追踪、多模态融合等方向演进,如"AI显微镜"和"思维链溯源"[21][22] - 建议采用软法规则鼓励行业自律,如中国人工智能产业发展联盟发布《人工智能安全承诺》[24] - 未来可能实现对模型进行类似"脑部扫描"的全面检查,即"AI核磁共振"[23]