文章核心观点 - 生成式人工智能在需求工程领域的研究呈现指数级增长,但整体仍处于“快速扩张但尚未成熟”的阶段,90.3%的研究停留在概念或原型阶段,仅1.3%实现生产级集成[5][8][14][39][41] - 当前研究存在严重失衡,过度聚焦于需求分析等文本处理任务,而需求管理等复杂社会技术因素阶段仅占6.8%的研究比重[9][11][13] - 技术生态面临同质化困境,67.3%的研究采用GPT系列模型,开源替代方案仅占11.6%,限制了多样化技术路径的探索[15][16][17][19] - 可复现性、幻觉问题和可解释性构成三大核心挑战,共现率达35%,形成相互强化的“信任瓶颈”[27][28][29][30][31] - 行业从实验室到生产存在巨大鸿沟,需要四阶段推进策略解决评估基础设施薄弱、治理框架缺失等系统性障碍[32][37][38][42][44][46] 研究热度与分布 - 研究成果呈现爆发式增长:2022年仅4篇,2023年激增至23篇,2024年达113篇,2025年前5个月已有97篇[5][10] - 需求分析占据30.0%的研究比重,需求获取和需求规约各占22.1%,需求验证占19.0%,需求管理仅占6.8%[9][11][13] 技术生态现状 - GPT系列模型占据主导地位:GPT-4系列占36.7%,GPT-3.5系列占25.3%,开源方案如LLaMA、CodeLlama仅占11.6%[16][17][19] - CodeLlama在代码-需求追溯任务中表现出色,幻觉率比通用模型低23%,但采用率仍然很低[16] - 提示工程以指令式提示为主,占62.2%,少样本学习占43.6%,零样本学习占37.7%,思维链方法仅占14.0%[20][21][23][25] 质量特性与核心挑战 - 功能适用性获得最多关注,可靠性次之,安全性和可解释性几乎被忽视[26][30] - 可复现性问题最严重,影响66.8%的研究,LLM的随机性和黑盒API不透明性导致结果难以验证[29][30] - 幻觉问题影响63.4%的研究,AI生成需求可能包含虚构内容,导致系统设计偏差[29][30] - 可解释性问题影响57.1%的研究,决策过程不透明在高风险领域尤为致命[29][30] 评估与实践现状 - 仅23.9%的研究公开发布工具,45.8%使用不公开数据集,缺乏统一基准测试框架[33][35] - 评估主要依赖传统NLP指标,精确率/召回率/F1分数最常用,人工评估和错误分析罕见[33][35][37] 工业化进程与未来路线 - 90.3%研究停留在概念或原型阶段,仅8.4%达到实验部署水平,1.3%实现生产级集成[39][41] - 主要限制因素包括:泛化能力和领域适应、数据质量和可用性、评估方法、人工介入需求[42][45] - 未来四阶段推进策略:强化评估基础设施、治理感知开发、可扩展的情境感知部署、工业级标准化[44][46]
生成式AI赋能需求工程:一场正在发生的变革
机器之心·2025-11-27 20:13