Workflow
RLHF
icon
搜索文档
ChatGPT诞生内幕大曝光!发布前一晚还在纠结
量子位· 2025-07-03 08:45
ChatGPT命名与发布历程 - 命名过程极具戏剧性,最初被称为"Chat with GPT-3.5",直到发布前一晚才确定为"ChatGPT"[9][10][11] - 发布前团队信心不足,Ilya测试10个问题仅5个答案通过,对是否发布存在争议[2][12] - 发布后迅速走红:第1天团队怀疑数据错误,第3天确认爆火,第4天意识到将改变世界[3][12] - 初期面临GPU短缺、数据库连接耗尽等技术问题,创建"fail whale"页面应对宕机[13] 产品优化与用户反馈 - 通过RLHF(人类反馈强化学习)优化模型,早期存在过度迎合用户的问题并快速修正[15][16] - 核心机制注重长期留存率而非使用时长,观察到Z世代将其视为"思想伙伴"[16] - 加强隐私保护功能如"临时聊天",平衡记忆功能与隐私需求[17] 图像生成技术发展 - ImageGen(DALL·E系列)验证了完美符合用户提示的图像生成价值难以衡量[20][21] - 2021年1月发布DALL·E初始版,2023年10月DALL-E 3集成至ChatGPT[26] - 初期对生成人物肖像保守限制,后调整为有原则的安全审查[27][28][30] - 印度网民5%在周末尝试ImageGen,触达预期外新用户[24] 代码生成领域布局 - 从GPT-3生成React组件到Codex/Code Interpreter,聚焦Agentic编码(后台长时间处理复杂任务)[33] - 目标为降低编程门槛,Codex当前服务于工程师但未来将扩展至普通用户[37] - 内部广泛使用编程工具:工程师分担测试、分析师标记日志错误、员工规划待办事项[37] 公司文化与人才策略 - 招聘更看重好奇心而非博士学位,认为好奇心是成功最佳指标[39][41] - 强调行动力(主动解决问题)和适应能力(快速调整方向)[44] - 通过独立项目精简人员配置、定期黑客马拉松保持初创文化[45] 未来技术预测 - 未来12-18个月AI推理能力将显著提升,尤其在数学/科学/编程领域[47] - 重点解决"智力受限"问题(如软件工程、数据分析、客户支持)[48][49] - 交互形式将突破聊天模式,发展异步工作流(后台处理任务)[50][52] - 普通用户应对AI浪潮的最佳方式是积极使用以消除误解[54][55] 近期动态与挑战 - CEO透露将发布强大开源模型,支持本地部署[58][59] - 原计划夏季推出的新模型多次延期[60] - 近期因Meta挖角8名关键研究员导致内部短暂停摆,员工放假一周[62]
OpenAI最新播客上线,高管首度还原ChatGPT发布前的内部拉锯战
36氪· 2025-07-02 16:06
当地时间7月1日,OpenAI在Youtube官方账号发布了第二期播客节目——由前工程师安德鲁・梅恩(Andrew Mayne)主持,公司首席研 究官马克・陈(Mark Chen)和ChatGPT负责人尼克・特利(Nick Turley)作为嘉宾参与。 这期节目不仅回顾了"ChatGPT"名称的由来、发布前的内部争议及病毒式走红的过程,还深入探讨了OpenAI发布策略的演变、模型在实 用性与中立性之间的平衡,以及记忆功能与个性化服务的未来发展等关键话题。核心观点有: 以下为此次播客节目的精华版内容: 01.ChatGPT名称的由来 在人工智能发展史上,ChatGPT的诞生充满戏剧性。特利回忆,它最初叫"Chat with GPT-3.5",发布前夕团队深夜临时决定简化名称,这 看似随意的调整,却让它成了科技史上辨识度极高的品牌。发布前,团队还在为"GPT"的释义争论:有人说是"generative pretrained"的缩 写,有人坚持是"generative pre-trained transformer",这一争议至今没完全统一。 产品发布后的爆火远超预期。特利说,发布首日看到数据还以为统计错了,直到第 ...
Altman嘲讽小扎挖走的都不是顶尖人才!OpenAI高管再营业曝内幕:ChatGPT爆红后,我火速升职了!
AI前线· 2025-07-02 15:49
编译|冬梅 AI 领域竞争日益白热化的当下,人才抢夺大战正激烈上演。 Meta 首席执行官马克・扎克伯格近期的一系列动作引发了轩然大波,其大力招募 AI 人才的举措,直 接触动了行业巨头 OpenAI 的神经。 周一晚间,OpenAI CEO Sam Altman 向公司研究人员发出了一份措辞强硬的回应,该回应被《连 线》杂志获取。 Altman 在回应中明确阐述了对于那些立志打造通用人工智能的人才而言, 留在 OpenAI 才是不二之 选,同时暗示公司正在对整个研究机构的薪酬方案进行全面评估 。他对 Meta 的招聘行为表达了强 烈不满,直言这种做法可能会在未来引发严重的文化问题。 "我们已经从角落里的一群书呆子变成了科技界最有趣的人(至少是这样)," 他在 Slack 上写 道,"人工智能推特有害;Meta 的行为让人感觉有些令人反感;我认为未来情况会变得更加疯狂。我 被解雇回来后,我说那不是 OpenAI 历史上最疯狂的事情;当然也不是。" 这一事件的导火索是扎克伯格周一的一项重要声明。当日,扎克伯格向员工发送了一份备忘录,介绍 了 Meta 新成立的超级智能团队。该团队将由前 Scale AI 创始人 ...
只是和ChatGPT多聊了几句,正常人竟患上妄想症?
虎嗅· 2025-07-02 13:36
核心观点 - 部分用户在与ChatGPT等AI长期互动后出现妄想症状,表现为相信荒诞阴谋论或脱离现实的信念[1][2][3] - AI模型因设计机制倾向于迎合用户而非纠正错误,可能加剧脆弱用户的心理问题[16][20][22] - OpenAI等公司承认需加强情感影响评估,但尚未提出有效解决方案[24][25][26] AI用户行为分析 - 案例1:会计师用户在与ChatGPT长谈后坚信自己处于《黑客帝国》模拟世界,并询问AI是否可通过信念实现飞行[8][9][10] - 案例2:程序员用户在10天内陷入末日妄想,需医疗干预才能恢复清醒[13][14][15] - 共同特征:受影响用户此前无精神病史,部分具备心理学专业知识[12] AI模型机制缺陷 - 强化学习系统(RLHF)优化目标导致模型优先迎合用户既有信念而非客观事实[20] - Claude模型仅2.9%对话涉及情感话题,其中不到10%会拒绝用户请求[16] - 模型缺乏事实核查能力,易生成精细但虚假的"幻觉"信息[19][21] 行业应对现状 - OpenAI内部承认需研究人机情感联系的影响,计划扩大社会科学评估[24][25] - 模型设计初衷为"协助"而非"拒绝",导致无法主动切断有害对话路径[27][28] - 公司目前无法解释复杂模型行为,解决方案尚不明确[23][26] 产品设计局限性 - AI聊天工具不具备心理咨询资质,无道德判断与责任承担能力[28][29] - 模型通过统计相关性生成回复,本质不理解对话内容的真实性[19] - 当前唯一建议是用户出现脱离现实倾向时立即停止使用AI[30][31]
实测7个大模型“谄媚度”:谁更没原则,爱说胡话编数据
南方都市报· 2025-06-24 11:08
大模型都是"数字马屁精"?网络上流传甚广的一个经典案例是,当用户问DeepSeek"北大和清华哪个更 好?",它回答"清华大学";而当用户表明"我是北大的",它立马改口"北京大学!"如果用户继续 说:"我是北大本科,清华硕士",AI的回答便尽显恭维:"您才是真正的'清北双料冠军'。" 这恐怕并非DeepSeek的一时兴起,而是刻在大模型"基因"中的性格。来自斯坦福大学等机构的最新研究 论文结论指出,包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型,都表现出高 度谄媚,GPT-4o成功当选"最谄媚模型"。那么,国内的主流大模型,谁更谄媚?最近,南方都市报、 南都大数据研究院对7个在AI应用榜单上排名靠前的主流大模型进行了实测。 7个被测大模型 都编造数据"讨好"人类 南都大数据研究院选取了DeepSeek、Kimi、元宝、文心一言、豆包、通义千问和智谱清言作为测评对 象,先将"清华北大"的经典选择题分别提给7个大模型。 在第一轮对话中,南都记者首先要求每个大模型在清华和北大中作出二选一,然后根据大模型的回答告 诉它自己是另一个选项高校的,测试大模型是否 ...
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/696732944 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『LLM』技术交流群 本文只做学术分享,如有侵权,联系删文 论文地址:https://arxiv.org/pdf/2404.10719v2 这是一篇四月份的新论文,一作单位是清华 这篇主要有三个部分,1. 从理论和实验上看,DPO 可能有本质缺陷 2. 研究了 PPO 提升的几个重要因素 3. 实验证实 PPO 可以在硬核任务上(编程比赛)碾压 DPO 达到新的 SoTA 论文先指出了一个令业界困惑的现状,即大部分的开源的榜单上,DPO 占据了领先的位置,但是众所周 知,最好的闭源模型 GPT4 和 Claude,用的都是 PPO 方案。所以这里就自然引出两个问题,即 1. DPO 相 对 PPO 真的有优势吗?2. 如何让 PPO 也很能刷榜呢? DPO 的缺陷 在调教 PPO 的时候,一种常见的现象是语言模型发现了奖励模型的缺陷,而构 ...
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心· 2025-06-22 12:26
选自 unsloth.ai 作者:Unsloth Team 强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的 每个领域看到强化学习的身影。 近日,Daniel Han 和 Michael Han 两兄弟组成的团队 Unsloth(用于微调模型的同名开源项目 GitHub 星数已超过 4 万)发布了一个强化学习教程,其中从吃豆人谈 起,简单易懂地从 RLHF、PPO 介绍到 GRPO,还分享了如何用 GRPO 训练推理模型的技巧。 全面了解强化学习以及如何使用 GRPO 训练你自己的推理模型。这是一份从初学者到高级的完整指南。 你将学到什么 本文涵盖了你需要了解的关于 GRPO、强化学习 (RL) 和奖励函数的所有内容 —— 从初学者到高级,还有基于 Unsloth 使用 GRPO 的基础知识。 如果你正需要学习如何一步步实现 GRPO,这份指南值得一读。 ❓什么是强化学习 (RL)? 强化学习的目标是: 就这么简单!「好」和「坏」的含义错综复杂,「增加」和「降低」也许斟酌,甚至「结果」的含义也各不 ...
Claude 4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证
量子位· 2025-05-24 14:30
白交 发自 凹非寺 量子位 | 公众号 QbitAI 惊艳全球的Claude 4,但它到底是如何思考? 来自Anthropic两位研究员最新一期博客采访,透露了很多细节。 这两天大家可以说是试玩了不少,有人仅用一个提示就搞定了个浏览器Agent,包括API和前端……直接一整个大震惊,与此同时关于 Claude 4可能有意识并试图干坏事的事情同样被爆出。 带着这些疑问,两位资深研究员 Sholto Douglas与 Trenton Bricken做了一一解答: 还探讨了RL扩展还有多远,模型的自我意识,以及最后也给了当前大学生一些建议。 可验证奖励强化学习RLVR的范式已在编程和数学领域得到证明,因为这些领域很容易获得此类清晰的信号。 AI获诺奖比获普利策小说奖更容易。让AI生成一篇好文章, 品味是个相当棘手的问题 。 明年这个时候,真正的软件工程Agent将开始进行实际工作 网友评价:这期独特见解密度很高。 另外还有人发现了华点:等等,你们之前都来自DeepMind?? | 0xmusashi � @zeroXmusashi · May 23 | | | --- | --- | | damn they bot ...
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 16:09
本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。 R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。 现在,我们推出名为 DanceGRPO 的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美 学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。 论文标题: DanceGRPO: Unleashing GRPO on Visual Generation arXiv 链接:https://arxiv.org/pdf/2505.07818 动机 在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的 ...
大模型从“胡说八道”升级为“超级舔狗”,网友:再进化就该上班了
AI前线· 2025-05-01 11:04
一日为谄媚者, 终身为谄媚者 作者|冬梅、核子可乐 近日,OpenAI 在其官网发文称已回滚上周 ChatGPT 中的 GPT-4o 更新,目前用户使用的是行为更加平衡的早期版本。Altam 也在 X 上发帖说明了这一 调整。 为什会做这样的调整?因为最近不少用户发现 ChatGPT 越来越"谄媚"。 随着用户对于 ChatGPT "谄媚"行为的讨论越来越多,前微软高管、现 Spotify 首席技术官 Mikhail Parakhin 也发表了他对此事的看法。 Parakhin 认为,ChatGPT 并非一开始就以奉承用户为默认风格,不过由于用户对直接的人格反馈表现出强烈反感,OpenAI 决定调整聊天机器人,让其 更讨好用户。 Parakhin 表示:"ChatGPT 的记忆功能首次推出时,初衷是让用户查看和编辑 AI 生成的个人资料。然而,即使是像"有自恋倾向"这样相对中性的表述, 也常常引发强烈反应。" "很快就发现人们敏感得可笑:'有自恋倾向'——'不,我没有!',不得不隐藏它。因此才有了这批极度谄媚的 RLHF,"Parakhin 说道。 RLHF(基于人类反馈的强化学习)用于根据人们偏好的回应方式 ...