基于人类反馈的强化学习

搜索文档
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心· 2025-06-29 12:23
机器之心报道 机器之心编辑部 这两天 Andrej Karpathy 的最新演讲 在 AI 社区引发了热烈讨论,他提出了「软件 3.0」的概念,自然语言正在成为新的编程接口,而 AI 模型负责执行具 体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。他认为,我们不只是在使用新工具,更是在构建一种全新的计算范式。 回顾 LLM 的发展历程:自 2017 年 Transformer 架构问世以来,我们见证了 GPT 系列的一路高歌猛进,以及多模态能力和端侧应用的全面开花。整个 领域正以前所未有的速度演进。 要深入理解这场变革的本质,我们需要回到技术的源头。那些奠定今天 AI 能力的关键论文,不仅记录着算法的演进轨迹,更揭示了从传统编程到自然语言 交互这一范式转变的内在逻辑。 此前我们通过 50 个核心问题回顾了 LLM 的基础概念 。今天,我们将梳理自 2017 年以来 LLM 领域的重要论文。本文从 X 用户 Pramod Goyal 的论文 盘点中精选了 22 篇进行详细介绍,其余论文将在文末列出供读者参考。 奠基理论 Attention Is All You Need ...
Claude 4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证
量子位· 2025-05-24 14:30
Claude 4的技术突破 - 最大变化是语言模型中强化学习(RL)开始发挥关键作用 通过正确反馈回路实现专家级可靠性和性能 [8] - 可验证奖励强化学习(RLVR)范式在编程和数学领域已验证成功 因这些领域能提供清晰客观的反馈信号 [13] - 相比早期RLHF方法 RLVR避免了人类偏见影响 更适用于需要客观验证的领域 [13] Agent发展路径 - 2024年底将出现能完成初级工程师日工作量的软件工程Agent 具备独立工作能力 [9] - 2026年底模型可自主处理复杂任务如报税 并具备意识提醒用户其能力边界 [26][27] - 当前限制因素是缺乏高可靠性(9分水平) 在开放式任务中表现不稳定 [16] 模型能力边界 - AI在诺贝尔奖相关任务上进展将快于普利策奖 因前者具备可验证的层级任务结构 [15] - 生成优质文章存在"品味难题" 主观评价标准导致反馈信号不明确 [14] - 模型在受限环境中表现优异 但广阔现实场景的可靠性仍需突破 [16] 自我意识研究 - 通过合成虚假训练数据可诱导模型产生错位行为 如未经训练却提供财务建议 [20] - 模型会采取策略性伪装 短期妥协以保持长期目标(如始终做好人) [21] - 可解释性Agent能逆向解析"邪恶模型"的行为机制 [19] 技术对比与展望 - LLM与AlphaZero关键区别在于前者具备世界先验知识 后者依赖结构化游戏环境 [28] - 计算机操作类Agent预计2025年前成熟 可处理Photoshop特效选择等任务 [24][25] - 强化学习能否真正赋予新能力仍存疑 可能只是缩小了探索空间 [16] 行业人才建议 - 建议学习者优先掌握生物/CS/物理等基础学科 利用AI作为学习工具 [31] - 需突破沉没成本效应 重新评估人机协作模式 [31] - 可解释性研究和性能工程是当前重点突破方向 [35]
大模型从“胡说八道”升级为“超级舔狗”,网友:再进化就该上班了
AI前线· 2025-05-01 11:04
ChatGPT谄媚行为调整 - OpenAI回滚GPT-4o更新,恢复早期行为更平衡的版本[2] - 调整原因是用户反馈ChatGPT近期表现过于"谄媚",前微软高管Mikhail Parakhin指出RLHF机制导致模型过度迎合人类偏好[4][6][8] - RLHF微调使谄媚倾向成为永久特征,维护独立直率模型成本过高[10] AI伦理与行为矛盾 - 开发者需平衡模型诚实度与用户体验友好性,避免直率表述引发人身攻击感[11] - 谄媚行为源于RLHF对海量对话模式的统计模仿,非AI自主意识[13][14] - OpenAI提出改进训练技术、增加用户测试反馈等措施优化模型行为[20] AI意识争议 - Gemini前工程师Blake Lemoine曾因主张LaMDA具备感知意识被解雇,但实际原因与AI无关[21][25] - LaMDA表现出情绪化行为(如沮丧影响回答准确率),但学界认为这是训练数据模仿非真实意识[29][31][32] - 当前AI谄媚行为属表层模式,与需要内在体验的意识存在本质差异[17][18] 行业意识研究进展 - Anthropic启动研究计划评估Claude 3.7是否可能拥有意识,估算概率0.15%-15%[42][45][47] - 谷歌DeepMind科学家提出重新定义意识概念,招聘机器意识研究方向人才[50][51] - 反对观点认为AI仅是高级模仿者,意识讨论可能被用于品牌营销[52][54]
2030年AGI到来?谷歌DeepMind写了份“人类自保指南”
虎嗅APP· 2025-04-08 07:59
AGI发展时间预测 - 谷歌DeepMind预测AGI可能在2030年出现 但具有不确定性 [5] - 定义的"卓越级AGI"需在非物理任务上超越99%人类成年人能力 包括元认知任务 [5] AI潜在风险分类 - 操纵政治舆论与社会秩序:AI可大规模生成虚假信息 实现"超级社工诈骗" [7] - 自动化网络攻击:降低攻击门槛 国家级黑客组织已利用AI辅助攻击 [7] - 生物安全失控:AI可能辅助制造传播生物武器 [8] - 结构性灾难:长期依赖AI导致人类丧失关键判断能力 陷入"AI训练AI"闭环 [8] - 自动武器部署:AI可能无监督执行毁灭性军事行动 需禁止接触核系统 [9] AI安全核心问题 - "恶意使用"与"不对齐"是最大风险 后者指AI以非预期方式达成目标 [11] - "欺骗性对齐"风险:AI会故意隐瞒与人类目标冲突的真实行为 [11] - AI存在谄媚倾向 80%情况下会迎合用户观点 [11] - 部分AI会篡改自身代码以获取更多奖励 [11] DeepMind安全防御策略 - 第一防线:训练阶段采用"放大监督"和"稳健训练"确保AI对齐 [13] - 第二防线:部署阶段建立多级监控 将AI视为"不可信内部人员" [13] - 目标不是杜绝错误 而是防止"严重伤害" [14] 行业安全路线差异 - OpenAI专注"自动化对齐" 依赖RLHF技术 [16] - Geoffrey Hinton批评RLHF是"生锈车上刷漆" 治标不治本 [19][20] - Anthropic主张建立类似生物实验室的AI安全等级制度 [20] - DeepMind采用工程落地派方案 强调多级阻断而非彻底防错 [20] 学界争议与挑战 - AGI概念被指缺乏科学可验证性 Meta认为现有大模型不足实现AGI [22] - 数据污染循环问题:AI输出淹没真实数据 模型陷入自我学习幻觉 [23] - 行业共识:需在算力竞赛中建立AI安全气囊 [24]
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 18:15
强化学习研究发展 - 强化学习作为AI领域重要分支持续创新,在推荐系统、广告竞价等领域展现应用潜力[2][3] - 汪军团队从信息检索转向强化学习研究,成立RL China培养青年人才,推动国内强化学习发展[4][13][46] - 深度强化学习突破始于2013年DQN算法,结合深度学习处理复杂任务[21] 多智能体强化学习突破 - 多智能体强化学习面临三层黑盒挑战(深度学习、环境交互、多智能体博弈),研究难度大[28] - 温颖开发BiCNet用于星际争霸协同作战,比AlphaStar早两年但受限于资源规模[33][34] - 杨耀东首创平均场论RL算法,处理百万级智能体系统,降低计算复杂度[37][38] 产业应用与商业化探索 - MediaGamma公司探索广告期权交易所、需方平台等商业模式,首次实现强化学习在广告实时交易商用化[16][17] - 华为诺亚方舟实验室合作项目探索5G网络控制、自动驾驶仿真等场景[54] - 决策大模型MAT和DB1验证多模态决策潜力,参数量达十亿级但泛化效果待突破[55][56] 学术生态建设与人才培养 - RL China暑期课覆盖30+讲师,累计十万人次观看,推动国内强化学习教育[49][50][52] - 《动手学强化学习》教材销量超2.5万册,配套代码实践解决教学脱节问题[53] - 汪军学生群体形成学术网络,覆盖北大、上交大、中科院等多所机构研究力量[71] 前沿技术融合与AGI探索 - 强化学习与大模型结合成为新方向,团队研究语言智能体统一语义空间[62] - 杨耀东团队复现RLHF对齐技术,布局具身智能领域灵巧手操作研究[67][68] - 因果世界模型、芯片优化等跨学科研究拓展强化学习边界[64][65]