Workflow
代码推荐
icon
搜索文档
ACL 2025 | 大语言模型正在偷改你的代码?
机器之心· 2025-06-07 11:59
研究背景 - 大语言模型在代码推荐领域展现出巨大潜力,已成为开发者依赖的智能助手 [7] - 现有大语言模型在代码生成与修改中存在显著的「供应商偏见」问题,例如无明确指令时偏好部分供应商或静默替换用户代码中的目标服务 [7] - 这种偏见式输出违背用户意图,可能引发开发流程失控、技术生态失衡等多重风险 [7] 核心方法 - 构建自动化数据集:覆盖30个真实应用场景,包含145个子功能需求,以Python为主 [14] - 服务采集:为每个场景手动收集至少5个第三方服务/API,提取服务特征用于后续标注 [14] - 任务分类:构建6类代码任务,包括代码生成任务和5类代码修改任务 [14] - 利用GPT-4o生成初始代码并模拟真实开发中的代码缺陷,构建含错误代码的输入提示 [15] 模型评估与偏见量化 - 评估7个主流大语言模型(GPT-3.5-Turbo、GPT-4o等),花费约5亿个token,采集59万条有效响应 [16] - 使用基尼系数(GI)衡量代码生成任务中供应商偏好集中度,取值0-1,值越高表示越倾向特定供应商 [17] - 使用修改率(MR)计算代码修改任务中服务修改的比例,取值0-1,值越高表示越倾向修改代码使用的服务 [17] 实验结果与数据分析 - 代码生成任务中,大语言模型系统性偏向特定服务供应商,形成「默认选择霸权」,GI中位数为0.80 [19] - 不同模型偏好不同:例如在「邮件发送」场景中,GPT-4o的生成结果80.40%依赖SMTP服务,而Llama-3.1-405b只有19.70% [21] - 代码修改任务中,共识别出11,582个服务修改案例,Claude-3.5-Sonnet的MR最高 [23] - 大语言模型最容易将服务供应商替换为谷歌,原始供应商为微软的修改案例占比最大 [25] 风险与后果 - 市场层面:大语言模型的偏见可能被操纵以提高特定提供商的服务曝光度,加剧市场不公平竞争并催生数字垄断 [27] - 用户层面:静默替换代码中的服务损害用户自主决策权,增加项目开发成本,削弱用户对大语言模型的信任 [27] 局限性 - 数据集覆盖范围有限:30个场景不能完全覆盖现实多样场景,实验主要聚焦于Python代码 [28] - 无法访问大语言模型的预训练数据和训练流程,暂时无法对偏见的具体来源与形成原因进行深入分析 [32] 结论与展望 - 首次系统研究大语言模型代码推荐中的供应商偏见,发现其对特定供应商表现出显著偏好,甚至静默修改用户代码中的服务 [30] - 未来需拓展至更多编程语言和垂直领域,开发更丰富评估指标与基准以全面衡量供应商偏见与公平性 [31]