Workflow
AI研发自动化
icon
搜索文档
AI研发AI--世界上最重要也最危险的技术,也是众多AI巨头的目标
华尔街见闻· 2026-02-05 16:22
文章核心观点 - AI研发自动化进程已经开始,前沿AI公司已在内部使用先进模型加速自身研发,这可能在未来数年内加速并带来“重大战略意外”[1] - AI研发自动化的未来轨迹存在“爆发”与“停滞”两种截然不同的预期,关键在于自动化程度、进展速度及其社会影响,目前难以用实证证据提前裁决哪种预期会成为现实[7][16] - 鉴于轨迹的高度不确定性,亟需建立监测指标体系并提高行业透明度,以理解和预测其发展,同时高水平的AI研发自动化将显著提升算力资源的战略重要性[17][19][20] AI研发自动化现状与早期应用 - 前沿AI公司已在内部使用其最先进的AI模型来协助构建更好的模型,且这些模型往往先用于内部研发,然后才对外发布[1] - 在精心选择的任务上,AI模型能在30分钟内完成原本需要研究人员数小时的工作,随着模型能力提升,可自动化的研发任务范围持续扩大[1] - 工程类任务,尤其是编程,是AI目前提供最大价值的领域 Anthropic的安全工程团队使用Claude Code分析堆栈,使原本需要10至15分钟的问题解决速度快了3倍[5] - AI系统正以多种方式辅助研发,例如“LLM作为评判者”范式已大规模用于训练数据过滤、安全训练和解决方案评分[5] - 有前沿AI公司员工使用内部AI工具生成了约1000个新的强化学习环境来训练未来模型,远超其独自能创建的数量[6] 未来发展的可能轨迹与核心分歧 - **生产力乘数模型(爆发版)**:假设AI自动化研发的比例不断增加,生产力提升从人工研发的120%增长到10倍、100倍、1000倍,形成自我强化循环,最终人类参与度趋近于零,AI系统能力远超人类[8] - **生产力乘数模型(衰减版)**:认为尽管AI研发日益自动化,但给定投入(如算力)产生的科学产出不足以驱动能力持续复合改进,能力可能在相对早期就达到平台期[8] - **阿姆达尔定律模型**:认为AI仅能自动化特定领域的研发活动(如编程、实验),整体进展仍受制于AI无法自动化的活动瓶颈,因此无法实现完全自动化[10] - **扩展饼图模型**:认为随着AI自动化某些活动,人类研究人员会持续发现需要AI无法自动化的新型贡献,因此AI研发可能进展迅速,但人类仍是核心[13] - 对上述动态的不同预期,与对AI进展“曲线形状”的核心问题相关,包括进展速度、是否会因复合改进而加速、AI能力达到顶尖人类研究员水平的可能性及性能上限等[16] - 报告关键发现是,很难提前使用实证证据在预期“快速进展导致超级智能”与“较慢进展并早期平台期”这两种冲突观点间做出裁决[16] 监测指标与政策建议 - 现有实证证据和基准评估不足以衡量、理解和预测自动化AI研发的轨迹,亟需建立监测指标体系[17] - **第一类指标(广泛AI能力)**:需衡量AI执行需人类长时间完成的任务、“混乱任务”以及即时吸收新事实、技能和想法的能力,目前除METR追踪的时间跨度测量外,几乎没有现有指标能捕捉这些进展[17] - **第二类指标(专门研发基准)**:需按复杂度递增建立“阶梯”式基准,包括软件/硬件工程、进行实验、创意构思、战略与领导力,目前尚不存在最高两层(创意构思、战略与领导力)的基准[17] - **第三类指标(内部进展迹象)**:需关注前沿AI公司内部的研发支出分配、就业模式、委托给AI的任务规模与复杂度、内部与公开发布模型间的差距等[18] - 目前对AI研发自动化的实证证据严重依赖前沿AI公司的自愿信息发布,往往零散不全,原因包括公司缺乏收集动力、信息敏感或有选择性分享的动机[19] - 政策选项包括披露关键指标(自愿或强制)、有针对性的举报人保护等,在风险管理方面,已有AI公司将自动化AI研发能力作为触发增强安全措施的因素,但框架尚处初期[19] - 高水平的AI研发自动化将极大提高算力优势对公司和国家的重要性,算力控制可能允许美国及盟友减缓竞争对手大规模自动化AI研发的能力[20] - 前OpenAI政策总监指出,如果AI研发能使系统演进速度比人类快100倍,将导致权力迅速转移到移动更快的系统及控制它的组织[20]