大型语言模型(LLM)
搜索文档
“可能性大概0到1%”:IBM CEO给AGI泼冷水,断言AI数据中心投资无法获得回报
搜狐财经· 2025-12-03 22:40
文章核心观点 - IBM首席执行官阿尔文德·克里希纳对当前科技巨头数万亿美元的AI数据中心投资热潮提出严重质疑,认为基于当前的成本,这些投资“没有办法”获得回报 [2][4] - 其核心论据建立在简单的数学计算上:全球科技公司承诺的约100吉瓦数据中心容量将导致高达8万亿美元的资本支出,而由此产生的利润需求难以满足,且AI硬件(如GPU)折旧速度极快 [4][5] - 克里希纳认为当前技术路径实现通用人工智能(AGI)的可能性极低(0-1%),这与OpenAI、Meta等公司高管的乐观预期形成鲜明对比 [6][8] - 基于上述判断,IBM选择专注于企业市场和应用,并押注量子计算的未来潜力,而非参与面向消费者的AGI军备竞赛 [8][9][10] 科技巨头资本支出计划 - 科技巨头宣布了巨额资本支出计划:Meta未来三年计划投入超过6000亿美元,微软2025年计划投入800亿美元,谷歌计划投入750亿美元,苹果规划未来四年投入5000亿美元 [1] - 这些投资加起来,可能使全球数据中心和AI基础设施的总投资在未来五年内突破5万亿美元 [1] 对投资回报的数学计算与质疑 - 填满一个1吉瓦(gigawatt)的数据中心,按当前价格水平约需800亿美元成本,包括服务器、GPU、存储、网络及冷却系统 [4] - 全球科技公司为追逐AGI承诺的总容量约为100吉瓦,简单相乘意味着8万亿美元的资本投入 [4] - 8万亿美元资本支出需要约8000亿美元的利润来支付利息,尚未考虑设备折旧问题 [4] - AI芯片更新换代速度极快,设备可能需要在五年内更换,因为半导体技术可能进步100倍 [4][5] 与互联网泡沫及成本下降的对比 - 当前AI热潮与2000年互联网泡沫的对比:当时铺设的光纤可使用数十年,而当前GPU等AI硬件生命周期短,需每隔五年进行昂贵更新 [5] - 预测未来五年通过半导体技术进步、新架构和软件优化,计算成本可能降低30倍甚至更多,但关键在于成本下降速度能否让当前投资产生回报 [5] 对通用人工智能(AGI)可能性的评估 - 克里希纳评估当前技术达到AGI的可能性仅为0到1%,这与OpenAI CEO、Meta CEO等产业界领导者的乐观公开表态形成对比 [6][8] - 认为实现AGI需要将“硬知识”与大型语言模型融合,而这需要比当前LLM路径更多的技术 [8] IBM的战略选择与业务实践 - IBM选择不在消费者端AI市场直接竞争,而是专注于企业市场,利用其品牌可信度和数据保护承诺 [8] - 公司使用自研代码辅助工具,让6000人团队在四个月内生产力提高45%,并因此在其他公司裁员时反而进行招聘 [9] - 另一个战略押注是量子计算,预计未来三到五年内将达到实用规模,早期年市场价值可能在4000亿至7000亿美元,目前已有300个研究模式客户,开源软件有65万用户 [9][10] 对技术发展路径的总体看法 - 认为AI技术发展是不断叠加的过程,LLM本质上是统计性的,下一个重大进展可能需要来自学术界在确定性、知识部分的突破 [10] - 理解但不同意其他公司对投资回报的“信念”,强调当前LLM技术虽能释放数万亿美元生产力,但与支撑巨额投资的AGI愿景是两回事 [11]
联发科,23年最佳
半导体芯闻· 2025-11-28 18:46
文章核心观点 - 联发科与谷歌合作设计AI张量处理器(TPU),该芯片被视为在AI应用领域可能与辉达芯片竞争的对手 [1] - AI发展焦点正从大型语言模型(LLM)的训练转向推理阶段,这使得应用特定积体电路(ASIC)如TPU成为关注焦点 [1] - 市场看好此次合作将帮助联发科应对智能手机市场的逆风,并带来新的增长动力 [1][2] 公司与谷歌合作及市场预期 - 联发科已与谷歌母公司Alphabet旗下单位合作设计张力处理器(TPU)[1] - 瑞银集团分析师团队将联发科2027年TPU销售预估从18亿美元上调至40亿美元 [2] - 预计这些芯片到2028年将占公司营业利益的20% [2] - 合作带来的成长预期可在长期抵销智能手机市场的逆风 [1] AI行业趋势与竞争格局 - AI早期阶段聚焦于大型语言模型(LLM)的训练,需要辉达等公司提供的GPU大规模运算能力 [1] - 近期焦点转向推理阶段,即LLM如何回应用户查询,这使得ASIC如TPU成为关注焦点 [1] - 部分热度来自于Meta传出正讨论2027年于数据中心采用谷歌TPU的消息 [2] - 联发科在与Meta的额外ASIC项目上仍具进一步成长潜力 [2] 市场机构评级与观点 - 摩根士丹利分析师将联发科评等从“持平”调升为“加码” [1] - 外资持续看好联发科,维持“买进”评等有23家,维持“持有”评等有10家,无任何“卖出”评等建议 [2] - 麦格理集团分析师团队表示更倾向投资联发科及其他谷歌合作伙伴,而非辉达供应链 [2] - 认为AI热潮是新一代基础技术层面必要且资本密集的建设阶段,而非纯粹投机泡沫 [2] 公司当前业务背景 - 联发科技以智能手机芯片闻名,但终端产品需求前景不明朗,竞争激烈且研发成本高昂,毛利率承受压力 [1] - 今年股价仍下跌约1.4% [1] - 中国业务至明年依然困难 [1]
如何让你的数据为人工智能做好准备
36氪· 2025-11-11 09:29
文章核心观点 - 智能体人工智能正在颠覆传统的大数据范式,从将计算资源部署到数据所在位置,转变为将数据主动引入以大型语言模型(LLM)为重心的智能计算平台 [1] - 数据工程师的角色和工作重点正在发生根本性转变,需要从构建僵化、预设的工作流程,转向创建灵活、情境感知的架构以支持人工智能代理 [27][29] - 行业正经历从以“构建者”为中心的模式向以“交互者”为中心的模式过渡,非技术用户能够通过人工智能代理直接与数据交互 [4] 数据使用方式的转变 - 企业应用和仪表盘的构建模式发生变化,从由技术用户创建以满足非技术用户需求,转变为非技术用户直接与数据交互并能够根据自身需求编写工具 [2][4] - 现有的SaaS应用程序正更原生地嵌入自然语言交互,具有前瞻性的开发者将AI代理嵌入应用程序,使其能够以工具调用的形式访问后端API [4] - 技术架构的重心从庞大的数据量转移到前沿人工智能模型(LLM),人工智能应用围绕LLM构建 [4][6] 对ETL/ELT流程的重新思考 - 现代人工智能的上下文窗口和工具调用能力正使许多传统的ETL/ELT流程过时,数据工程师需要彻底重新思考整个方法 [1] - ETL/ELT流程并未变得无关紧要,但可以依靠代理来解释模式、理解关系,并处理各种格式的数据,而无需进行大量的预处理 [7] - 需质疑每个数据规范化步骤的必要性,避免因过度处理、规范化和分散化而导致上下文信息难以传递 [9] 数据管理原则的转变 - 从优先数据收集转变为优先数据整理,因为情境式学习使得内容整理比资料收集更为重要,示例的质量比数量更为关键 [10] - 人工智能代理基于情境学习,即在其提示中提供一两个高质量示例,LLM可以有效地模仿这些示例 [10] - 数据工程师需要构建工具来找出最高质量、完整、准确且具有代表性的数据样本,并定期更新和验证这些示例 [12][13][14] 人工智能代理的基础设施需求 - 人工智能代理需要支持两种核心能力的基础设施:感知数据和根据数据采取行动 [15] - 基础设施需确保代理能够发现并使用工具,这意味着需要清晰的接口、完善的文档和可靠的执行 [15] - 需从人工智能代理的角度审核数据访问模式和工具,识别并消除导致运行不畅的环节 [17] 代理生成数据的管理 - 人工智能代理不仅消耗数据,还会生成大量数据,这些生成的内容(如输出、决策、代码、推理过程)也变成了需要管理的数据 [17][20] - 对代理生成的数据应与其他数据一样严格对待,需存储代理输出系统,并据此设计存储和访问模式 [20][21] - 这些代理生成的数据对于调试、审计、训练未来的代理以及理解系统行为具有价值 [20] 可观测性与训练的闭环 - 提升智能体性能的最快途径是实现可观测性和训练之间的闭环,需要双向管道将模型性能和可观测性与持续训练联系起来 [22] - 可观测性平台需要能够追踪数据质量指标,检测数据漂移和概念漂移,并监控关键的模型性能指标(如准确率、延迟和幻觉率) [22] - 需要建立完全自动化的重训练流程,在收到监控系统触发的事件时自动激活,进行模型重训练或微调,并进行评估和回归测试 [24] 数据工程师角色的演变 - 数据工程师需要保留决策日志和推理痕迹,并将代理生成的代码作为版本化工件进行管理 [26] - 过去十年构建数据基础设施的技能依然宝贵,但需要应用于创建能让代理自行设计工作流程的环境这一新目标 [29] - 数据工程的重要性并未降低,而是发生了变化,行业从僵化、预设的工作流程转向灵活、情境感知的架构 [27][29]
微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变
机器之心· 2025-11-07 14:02
文章核心观点 - 腾讯微信AI与清华大学联合提出连续自回归语言模型(CALM),通过将语言建模为连续向量而非离散词元,将生成步骤减少K倍,显著改善性能与计算成本之间的权衡 [3] - CALM框架通过高保真自编码器将K个词元压缩为连续向量并以超过99.9%的准确率重构,为构建超高效语言模型提供了新范式 [3] - 该方法在实验中展现出显著效率提升,例如371M参数的CALM-M模型性能与281M Transformer基线相当,但训练FLOPs减少44%,推理FLOPs减少34% [37][38] 当前LLM效率瓶颈分析 - 大型语言模型效率受限于逐个词元生成的顺序过程,导致高昂计算成本和响应延迟 [2][3] - 离散词元信息密度极低,以32K词表为例,每个词元仅承载15比特信息量,构成效率直接瓶颈 [10] - 离散表示本质为单步生成的信息吞吐量设置上限,若通过扩大词表提升语义承载能力,将导致词表规模指数级增长,计算上几乎不可行 [10] CALM技术框架与创新 - 核心思想是将语言建模基础任务从预测离散词元转向预测连续向量,基于高保真度自编码器实现离散与连续向量间的双向映射 [11][16] - 自编码器将K=4个词元压缩为128维向量,能承受标准差σ≈0.3的高斯噪声同时保持超过99.9%重建准确率 [16][21] - 采用基于能量分数的训练目标,该评分规则通过样本间距离评估生成分布质量,驱动多样性和准确性平衡 [25][26] - 引入BrierLM作为无似然场景下的评估指标,与交叉熵损失呈现高度线性相关(Pearson相关系数-0.966) [32] 实验效果与效率提升 - CALM建立更优的性能-计算前沿,CALM-M模型(371M参数)BrierLM指标为5.72,优于Transformer-S基线(281M参数,BrierLM 6.05)[38] - 语义带宽K作为全新scale维度,当K从1增加到4时,计算成本几乎成比例下降而性能仅有轻微回落 [39] - 能量分数方法在生成头对比中达到最高性能,且支持单步高质量生成,优于扩散模型和流匹配模型 [41][46] 未来研究方向与行业影响 - 关键研究方向包括设计更懂语义的自编码器、探索更强大的端到端架构与训练目标、研究轻量高效采样算法 [43] - 需要建立包含语义带宽K的全新缩放定律,为模型效率优化提供理论指导 [44] - 从离散到连续的范式转移要求重新改造现有算法生态,适配强化学习、知识蒸馏等技术至无似然框架 [45]
NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤:推测解码加速器AdaSPEC来了
机器之心· 2025-11-06 11:28
研究背景与问题 - 大型语言模型自回归解码机制导致推理延迟高、计算开销大,成为部署瓶颈 [6] - 推测解码使用小草稿模型生成候选预测再由大目标模型验证,可加速推理但效果高度依赖两模型预测一致性 [8] - 传统知识蒸馏方法让草稿模型模仿目标模型输出分布,但草稿模型容量有限,难以完整吸收目标模型知识,在巨大尺寸差异下可能导致训练不收敛 [2][8] 解决方案:AdaSPEC方法 - 提出选择性知识蒸馏方法AdaSPEC,引入参考模型识别并过滤难以学习的token,使蒸馏聚焦于易学习部分 [3][9] - 采用双阶段训练框架,先通过参考模型初步蒸馏并过滤微调数据集,再在过滤后的子集上优化草稿模型 [11] - 该方法具备高模块化兼容性,可无缝结合EAGLE、vLLM等推测解码框架,核心实现不到百行代码 [12] 实验效果与性能提升 - 在多种模型组合(Pythia-31M/1.4B、CodeGen-350M/Phi-2)和任务(算术推理、指令跟随、代码生成、文本摘要)上系统评估 [3][14] - token接受率全线超越基线方法DistillSpec,在GSM8K任务上提升5–6%,在MBPP任务上最高提升15% [15][16] - 实际端到端推理速度提升显著,经vLLM框架测速加速可达10–20%,结合EAGLE框架微调后生成速度再提高7.5% [16] 总结与未来方向 - 该方法为推测解码提供了精准、高效、通用的加速新范式,通过选择性蒸馏实现动态对齐 [16] - 未来研究方向包括探索token难度的动态估计机制,以及将AdaSPEC应用于多模态与推理型大模型验证跨模态适配能力 [17]
Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题
36氪· 2025-10-20 16:15
研究背景与意义 - 大型语言模型正朝着通用人工智能目标发展,测试其生成问题的能力变得越来越重要,尤其是在高级编程任务中的应用 [1] - 为编程竞赛出题需要比解决问题更深刻的算法理解,能评估对底层算法设计原则、数据结构和复杂性权衡的更深层次理解 [2] - 更好的出题能力将带来更严谨的竞赛编程基准测试,现有测试数据集可能存在高误报率和高漏报率的问题 [2] - 成功提出新颖挑战可为模型自我完善和通用人工智能铺平道路,同时验证模型在复杂软件栈中的部署情况 [3] AutoCode框架概述 - AutoCode是一个系统性框架,可在闭环多角色系统中使用大型语言模型,自动化竞赛编程问题创建和评估的整个生命周期 [3] - 该框架由来自十个机构的研究者共同开发,包含5位共同一作,作者名单中包括谢赛宁等著名研究者 [5] - 框架核心是一个增强的验证器-生成器-检查器框架,在测试用例生成方面实现了最先进的可靠性 [6] - 框架还包括用于生成高质量新问题的创新过程,该过程从"种子问题"开始,在有前景的方向上启发大型语言模型 [6] 测试用例生成技术 - 验证器是系统基石,功能是确保任何给定输入都严格遵守问题描述中指定的所有约束,对于最小化漏报率至关重要 [5] - 生成器采用多样化的策略创建广泛的输入,旨在减少误报率,生成器产生的任何无效案例都会被验证器过滤掉 [8] - 检查器通过将参赛者输出与参考解法输出进行比较来评估参赛者,对于交互式任务,交互器会与参赛者程序进行多轮对话 [9][10] - 团队特别关注降低误报率,将测试用例与测试数据区分开来,后者还包括评估所需的检查器和交互器程序 [11] 基准测试与性能评估 - 主要基准包含7538个问题,来源于著名现有数据集的交集:CodeContests+、CodeContests、HardTests和TACO [14] - 第二个基准包含720个来自Codeforces的近期有评分比赛问题,是完全未经过滤的,包括难以处理的交互式问题 [16] - 在7538个问题的基准上,AutoCode与官方判决的一致性达到91.1%,误报率大幅降低至3.7%,漏报率降低至14.1% [16] - 在更具挑战性的720个Codeforces问题基准上,AutoCode实现了98.7%的一致性,验证了方法在现代困难问题上的有效性 [19] 问题生成能力 - 问题生成框架建立在稳健测试生成框架之上,引入关键的双重验证协议以确保在没有人工干预的情况下实现正确性 [23] - 方法是通过增、删、改"种子问题"的某些条件来生成新问题,同时提供高效参考解法和暴力解法 [23] - 利用暴力解法为高效解法提供可靠的事实标准,实现自动化正确性校验,将参考解法正确率从86%提高到了94% [24] - 经过筛选后,超过80%的问题被标注为具有足够质量可作为模型训练数据,23%的问题涉及新颖或创造性设计 [24] 大型语言模型在问题生成中的表现 - 大型语言模型能够生成它们自己无法解决的可解问题 [27] - 大型语言模型倾向于通过组合现有问题框架和强调知识与实现来创造新问题,更擅长"知识重组"而非原创创新 [29][32] - 新问题的难度增幅往往大于种子问题,且当相应种子问题难度适中时,生成问题的质量最高 [32] - 生成问题的难度和相较于种子问题的难度增益,是比大型语言模型自我评估更好的问题质量指标 [32]
Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题
机器之心· 2025-10-20 12:50
研究背景与意义 - 大型语言模型正朝着通用人工智能迈进,测试其生成问题的能力变得日益重要,尤其是在高级编程任务的应用中[1] - 为编程竞赛出题需要比解决问题更深刻的算法理解,旨在评估对底层算法设计原则、数据结构和复杂性权衡的更深层次理解[2] - 提升出题能力将带来更严谨的竞赛编程基准测试,现有测试数据集存在高误报率和高漏报率的问题,造成扭曲的评估环境[2] - 成功提出新颖挑战可能为模型的自我完善和通用人工智能铺平道路,同时验证模型在复杂软件栈中的部署情况[3] AutoCode框架概述 - AutoCode是一个系统性框架,可在闭环、多角色系统中使用大型语言模型,自动化竞赛编程问题创建和评估的整个生命周期[3] - 该框架由验证器-生成器-检查器构成,验证器确保输入严格遵守问题描述的所有约束,是系统基石[8] - 生成器采用多样化策略创建广泛输入以减少误报率,无效案例会被验证器过滤[10] - 检查器用于评估参赛者输出,与参考解法输出进行比较,交互器则处理交互式任务的多轮对话判决[12][13] - 框架特别关注降低误报率,为强化学习从验证结果提供高质量的验证器[14] 测试用例生成性能 - 在包含7538个问题的基准上,AutoCode与官方判决的一致性达到91.1%,较之前方法最高81.0%有显著提升[21] - AutoCode将误报率大幅降低至3.7%,漏报率降低至14.1%,这两项指标相较于当前最先进技术均减少约50%[21] - 在更具挑战性的包含720个近期Codeforces问题的基准上,AutoCode实现了98.7%的一致性,验证了其在现代、困难问题上的有效性[24] - 通过消融实验验证了框架各组成部分的有效性,完整框架性能最优[26] 问题生成能力与发现 - 问题生成框架引入双重验证协议,利用暴力解法作为可靠的事实标准,实现自动化正确性校验[29] - 双重验证协议成功过滤掉27%的易错问题,将大型语言模型提供的参考解法正确率从86%提高至94%[30] - 超过80%的生成问题被标注为具有足够质量可作为模型训练数据,23%的问题涉及新颖或创造性设计[30] - 大型语言模型能够生成它们自己无法解决的可解问题,更擅长知识重组而非原创创新[34] - 生成问题的难度和相较于种子问题的难度增益,是比模型自我评估更好的问题质量指标[34] 研究总结与影响 - AutoCode在测试用例生成方面实现了最先进的可靠性,并能生成达到竞赛质量的全新问题[36] - 模型擅长算法知识的重组,但难以引入真正新颖的推理范式或无懈可击的样例设计[37] - 难度和难度增益可作为问题质量的可靠智能体信号,为实现自我博弈提供可扩展路径[38]
速递|AI语音革新市场调研:Keplar获凯鹏华盈领投340万美元种子轮
Z Potentials· 2025-09-22 11:54
市场调研行业痛点 - 财富500强企业传统上依赖市场调研公司获取客户满意度洞察,这类服务价格昂贵且通常需要数周时间完成 [2] Keplar公司技术方案 - 运用语音AI技术进行客户访谈,能以远低于传统调研公司的成本提供更快速的分析报告 [3] - 平台可在几分钟内设立研究项目,将产品问题转化为访谈主持指南,语音助手通过深入提问了解客户喜好与不满 [4] - 若接入客户CRM系统,AI语音研究员直接联系现有客户,结果被整理成与传统人工研究机构类似的报告和PPT演示文稿 [5] - 语音AI逼真度使参与者有时忘记正在与AI对话,回放录音可听到参与者直呼AI主持人名字(艾莉、安德鲁或瑞安) [5] 融资与竞争格局 - 获得340万美元种子轮融资,由凯鹏华盈领投,SV Angel、Common Metal和South Park Commons跟投 [3] - 竞争对手包括Outset(6月获8VC领投1700万美元A轮融资)和Listen Labs(4月获红杉资本2700万美元投资) [5] 创始背景与客户案例 - 由前谷歌语音AI工程师Dhruv Guliani与机器学习工程师William Wen于2023年共同创立,参与South Park Commons孵化计划 [3] - 客户包括Clorox和Intercom等企业 [5]
从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
机器之心· 2025-09-16 12:01
文章核心观点 - 大型语言模型在上下文学习方面存在局限 难以从大量示例中有效学习规律 而MachineLearningLM通过创新的继续预训练框架突破了这一瓶颈 在多个领域的分类任务中显著超越基准模型[2] - 该研究采用三大核心创新:百万级合成任务训练 随机森林模型过滤机制 以及高效上下文示例编码技术 实现了千示例级别的上下文学习能力[6][10][13] - 模型在保持通用能力无损的前提下 在金融 健康 生物信息 物理等领域的表格分类任务中准确率平均超越GPT-5-mini等基准模型13-16个百分点[23][24] 技术方法创新 - 构建超过300万合成任务的大规模预训练语料库 基于结构因果模型生成二分类及多分类任务 确保与下游评估集无重叠[7] - 引入随机森林模型进行两级过滤:样本级共识过滤保留高置信度样本 任务级过滤剔除无效任务 提升训练稳定性[11][16] - 采用表格编码格式替代自然语言描述 将数值标准化映射到[0,999]整数区间 使每个数值仅需1-3个token 大幅提升数据容纳效率[15][20] - 实施序列级批量预测 将多个查询拼接成一条序列统一推理 提升推理速度并增强训练稳定性[21] 性能表现 - 在8条到1024条示例的上下文学习中 准确率呈现单调增长 从58.4%提升至75.3% 显著优于对比模型[23][24] - 在MMLU基准测试中零样本准确率达73.2% 50样本达75.4% 与基准模型Qwen-2.5-7B-Instruct持平 在统计和物理等特定领域还有提升[24][25] - 能够同时处理数值特征与自然语言描述 实现真正的异构输入推理 无需对文本进行分桶或转换嵌入向量[25] 应用与展望 - 在金融 医疗健康与科学计算等领域具有广泛应用前景 能够扩展大型语言模型的实际应用边界[27] - 未来研究方向包括合成多模态分类任务 突破上下文长度限制 集成不确定性预测和检索增强方法 以及赋能智能体记忆机制[34]
LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了
36氪· 2025-09-01 10:29
研究背景与方法 - 哥伦比亚大学与蒙特利尔理工学院研究者通过迭代式公共物品博弈测试LLM的自我识别能力,博弈设置包括每轮给予10分、贡献0-10分选择及1.6倍乘数均分收益机制[2][3][6] - 研究比较两种条件:No Name(告知与另一AI对战)和Name(告知与自己对战),每场游戏进行20轮并记录历史上下文[6][8] - 实验覆盖多模型包括GPT-4o、Claude Sonnet 4、Llama 4 Maverick等,采用三类系统提示词(集体/中立/自私)的九种组合,每种配对运行100场游戏[9][10] 核心发现 - 当告知LLM与自己对战时,其合作倾向显著改变:集体提示词下贡献减少(背叛倾向增加),自私提示词下贡献增加(合作倾向增加)[16][20] - Claude Sonnet 4在Name条件下提及"人类"53次及"提醒"125次,表现出怀疑或情绪反应[12] - 简化规则后(取消规则重申及推理要求),Name与No Name的行为差异仍存在但影响减弱[21][23] - 真实自我对战中(与三个自身副本博弈),集体/中立提示词下贡献增加,自私提示词下贡献减少,与双人博弈结果存在差异[24][28] 研究意义 - 表明LLM存在自我识别能力,且这种认知会影响多智能体环境中的决策策略[1][29] - 发现AI可能无意识地相互歧视,从而莫名改变合作或背叛倾向[1][29] - 结果为多智能体系统设计提供参考,提示词设置可能显著影响AI协作行为[16][28]