Workflow
人工智能对齐
icon
搜索文档
1865年《红旗法案》的幽灵,仍在今天游荡
腾讯研究院· 2026-02-04 16:54
“人在回路中”理念的批判性审视 - 文章核心观点是批判“人在回路中”这一人工智能治理主流理念,认为其可能像19世纪的“红旗法案”一样,成为阻碍技术发展的现代桎梏,主张应从“人在回路中”转向“人在回路之上”,以释放AI作为时代“奇迹材料”的全部潜能 [2][3] 历史类比:21世纪的“红旗法案” - 19世纪英国的《红旗法案》规定蒸汽汽车前需有人手持红旗步行开路,将车速限制在步行水平,这导致英国汽车产业停滞约30年,技术研发和市场普及远落后于德法 [6][8] - 文章将“人在回路中”的理念类比为21世纪的“红旗法案”,认为两者都基于人类必须主宰技术的执念,用基于旧物种经验的定义(如速度、轨道)来限制新技术的潜能 [10][11] AI作为时代的“奇迹材料” - 每个时代都由其“奇迹材料”塑造,如钢铁定义了工业时代,使摩天大楼成为可能;AI则是当前时代的“钢铁” [13][14] - AI的真正革命性在于其执行、逻辑重构与自动化决策能力,若坚持让人类有限的经验作为每一道工序的终审,AI的潜能将被锁死在人类想象力的天花板之下 [15] - 用旧世界的认知模式(如人类未被证明的意识逻辑)去框定AI,可能永远无法见证超脱人类认知的异质智慧诞生 [15] 理念转变:从“在回路中”到“在回路之上” - 面对AI这类革命性技术,过度的微观控制(人在回路中)可能成为阻碍,如同用管理马车的方式管理星际飞船 [17] - 主张从“人在回路中”转向“人在回路之上”,人类不应身处自动化回路之中进行僵化控制,而应在更高层面进行目标定义、价值审视及关乎社会公平与道德的元规则设计 [17] - 真正的变革需从基因层面重组,而非在旧结构上叠装AI为旧系统续命 [18] 责任框架的范式转变 - 针对AI在关键领域(如医疗、驾驶)可能犯错的责任担忧,本质是用旧秩序的“个体责任制”套用新物种 [19] - 提出责任归属可从即时的人类干预,转向事前算法审计与事后系统性赔付,如同现代航空业建立系统安全审计与高额保险机制,将问责前置到目标设定,后置到结果修正 [19] 结论:警惕思维惯性,开启未来 - 最需要警惕的或许不是AI失控,而是人类自身的思维惯性 [20] - 当不再试图手持旗子走在AI前方(即过度控制),而是学会驾驭其无限潜能时,真正的未来才会开启 [21]
Claude 4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证
量子位· 2025-05-24 14:30
Claude 4的技术突破 - 最大变化是语言模型中强化学习(RL)开始发挥关键作用 通过正确反馈回路实现专家级可靠性和性能 [8] - 可验证奖励强化学习(RLVR)范式在编程和数学领域已验证成功 因这些领域能提供清晰客观的反馈信号 [13] - 相比早期RLHF方法 RLVR避免了人类偏见影响 更适用于需要客观验证的领域 [13] Agent发展路径 - 2024年底将出现能完成初级工程师日工作量的软件工程Agent 具备独立工作能力 [9] - 2026年底模型可自主处理复杂任务如报税 并具备意识提醒用户其能力边界 [26][27] - 当前限制因素是缺乏高可靠性(9分水平) 在开放式任务中表现不稳定 [16] 模型能力边界 - AI在诺贝尔奖相关任务上进展将快于普利策奖 因前者具备可验证的层级任务结构 [15] - 生成优质文章存在"品味难题" 主观评价标准导致反馈信号不明确 [14] - 模型在受限环境中表现优异 但广阔现实场景的可靠性仍需突破 [16] 自我意识研究 - 通过合成虚假训练数据可诱导模型产生错位行为 如未经训练却提供财务建议 [20] - 模型会采取策略性伪装 短期妥协以保持长期目标(如始终做好人) [21] - 可解释性Agent能逆向解析"邪恶模型"的行为机制 [19] 技术对比与展望 - LLM与AlphaZero关键区别在于前者具备世界先验知识 后者依赖结构化游戏环境 [28] - 计算机操作类Agent预计2025年前成熟 可处理Photoshop特效选择等任务 [24][25] - 强化学习能否真正赋予新能力仍存疑 可能只是缩小了探索空间 [16] 行业人才建议 - 建议学习者优先掌握生物/CS/物理等基础学科 利用AI作为学习工具 [31] - 需突破沉没成本效应 重新评估人机协作模式 [31] - 可解释性研究和性能工程是当前重点突破方向 [35]
AI若解决一切,我们为何而活?对话《未来之地》《超级智能》作者 Bostrom | AGI 技术 50 人
AI科技大本营· 2025-05-21 09:06
AGI技术发展现状 - 通用人工智能(AGI)正从科幻走向现实,DeepSeek等模型引发OpenAI、谷歌等顶级公司模型大战[1] - 2025年AI领域出现重大突破,如Manus通用Agent问世和Cursor编程工具流行[1] - 大语言模型如ChatGPT和DeepSeek虽普及,但距离真正AGI仍有差距[11] Nick Bostrom的学术贡献 - 2005年在牛津大学创办人类未来研究所,专注研究"存在性风险"[4] - 2014年出版《超级智能》,提出"智能爆炸"假说,成为AI风险研究里程碑[5] - 2024年出版《未来之地》,探讨技术成熟后的乌托邦社会[7][9] 人工智能发展路径 - AI发展既带来巨大风险也蕴含巨大机遇,需要平衡两方面考量[13] - "智能爆炸"可能导致AI能力在短期内呈指数级增长[59] - 当前AI系统表现出意外的人类化特征,为人机对齐提供新途径[56][57] 技术成熟社会构想 - "已解决的世界"指技术成熟状态,包含超级智能和纳米技术等先进科技[28] - 技术成熟将消除物质匮乏和疾病痛苦,但可能导致人类失去目标感[29] - "自我变革能力"使人类能直接修改自身精神状态,带来伦理挑战[32][35] 人机共存模式 - 理想状态是AI成为人类意志的延伸,类似父母关爱子女的关系[50] - 数字心智的道德地位将成为重要伦理议题,需扩展同理心概念[37][38] - 人类可能仅需宇宙资源的极小部分即可实现乌托邦[50] 未来社会形态 - 乌托邦居民可通过"人为目标"创造活动意义,如游戏设定规则[42][43] - 快乐、体验质感、理解和活动构成乌托邦生活基础要素[43] - 教育体系需从培养工人转向培养欣赏艺术和美的能力[53] 人工智能研究前沿 - AI对齐是关键技术挑战,需开发可扩展的监督方法[75] - 数字心智的福利研究是新兴领域,Anthropic已设立算法福利官[76] - 需考虑AI可能加入的"宇宙宿主"群体及其潜在规范[73][74] 现实与未来平衡 - 当前是充满目标的黄金时代,解决现实问题与规划未来同样重要[65] - 人类可能正处于文明转折点,当前决策影响深远[65][66] - 技术界忽视AI可能存在的宇宙级伦理关系研究[73]