Workflow
大语言模型(LLMs)
icon
搜索文档
ChatGPT越用人越傻?
虎嗅APP· 2025-06-25 23:06
实验设计与参与者 - 实验由麻省理工学院媒体实验室研究科学家Nataliya Kosmyna团队统筹,共有54名来自哈佛、MIT、塔夫茨的大学生参与[3] - 参与者被分为三组:AI组(仅使用GPT-4o)、搜索引擎组(仅使用Google搜索)、大脑组(完全自主写作)[6] - 每人需完成三轮写作,每轮20分钟,题目包括SAT写作真题如"成就必须惠及他人才能带来幸福吗?"等[6] 脑电波监测结果 - EEG数据显示大脑组在所有波段(Alpha、Theta、Beta、Delta)活跃度最高,反映主动构思和组织能力[10] - 搜索引擎组脑电波活跃度中等,集中于视觉区和任务切换时的调动[10] - AI组脑电波整体偏弱,Alpha波(信息抑制)和Theta波(工作记忆)最低,反映认知参与度下降[10][11] 写作质量评估 - 真人英语教师评价AI辅助完成的文章语法完美但观点"空洞",更青睐有个性、思辨性的文章[8] - 搜索引擎组学生能清楚标注引用来源,文章结构清晰且融入个人经历,满意度最高[14] - 大脑组学生虽写作过程较慢,但拥有最扎实的写作体验,对内容记忆最清晰[15][16][17] 第四轮分组交换结果 - 从AI组切换到大脑组的学生普遍出现大脑反应变慢、认知能力下降的情况[21] - 其文本呈现高度模板化特征,对文章记忆准确率和归属感评分最低[22] - 原大脑组学生首次使用GPT-4o后,Theta/Alpha/Beta波全线飙升,文章信息密度提升且评分最高[24] 研究核心发现 - 实验首次量化了AI辅助写作对认知能力的影响,提出"认知负债"概念:长期依赖AI可能导致批判性思维退化[8] - 研究强调AI工具的使用方式决定影响:被动依赖会降低神经活跃度,而主动整合能增强认知能力[24] - 论文《Your Brain on ChatGPT》发表于arXiv平台,引发关于LLM对人类认知影响的广泛讨论[24][25]
Andrej Karpathy 爆火演讲刷屏技术圈:AI 开启软件 3.0,重写一切的时代来了!
AI前线· 2025-06-19 16:10
作者|Andrej Karpathy 编译|冬梅 策划|Tina 编者按: 近日,在旧金山 AI 创业学校的讲台上,曾任职斯坦福大学、OpenAI 和特斯拉的 AI 领袖 Andrej Karpathy,以一种横跨学术与产业的独特视角,揭示了一场 正在重塑技术世界的范式转移。 Andrej 看到了一场"编程革命"正在发生。随着 AI 技术的发展,软件编程已经进入了 "3.0 时代",自然语言取代传统代码成为核心编程接口,大模型则承担起 过去需要人工编写的复杂逻辑。 Andrej 指出,这一转变远非简单的工具迭代。当开发者通过日常语言指令即可驱动系统,当用户的需求能直接转化为机器可执行的意图时,我们实际上是在 构建一种"新型计算机"。这种计算机不再依赖精确的语法规则,而是以概率化、语义化的方式理解世界——就像人类一样。 这种进化对开发者来说是一件好事,这意味着编程门槛的消弭。对用户来讲更是好事,因为能让交互方式彻底解放,人机协作再也没有语言层面的障碍。正 如 Andrej 所强调的:我们正站在人机关系的历史转折点上,未来的软件将不再是冷冰冰的工具,而是能理解、推理甚至主动协作的智能伙伴。 这场变革的 深度,或许 ...
陈岱孙经济学纪念讲座报名丨熊伟:结构化信念与基金投资
搜狐财经· 2025-06-17 16:25
Structured Beliefs and Fund Investment 结构化信念与基金投资 2025年6月20日(周五)14:00-15:30 地点 清华大学建华楼 A503 讲座嘉宾 陈岱孙经济学系列纪念讲座设立于2011年,旨在纪念我国著名经济学家陈岱孙先生,推动经济学术研究与中外交流。 讲座主题 讲座安排 时间 清华大学经济管理学院金融系 清华大学全球共同发展研究院 熊伟 普林斯顿大学经济系及本德海姆金融中心 金融学兼经济学讲席教授 主持人 白重恩 清华大学文科资深教授 清华大学经济管理学院院长 清华大学全球共同发展研究院执行院长 主办单位 嘉宾简介 熊伟 熊伟是普林斯顿大学经济系及本德海姆金融中心的金融学兼经济学讲席教授。他同时担任香港中文大学(深圳)经管学院学术院长,并是美国国家经济研 究局(National Bureau of Economic Research)的研究员。 他的研究兴趣主要集中在资本市场不完全性、行为金融学、数字经济以及中国经济等领域。他曾于2016年至2022年担任《金融杂志》(Journal of Finance,美国金融协会的旗舰期刊)的联合主编。 他获得了多项学术 ...
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 11:54
| 机器之心报道 | | --- | 编辑:张倩、陈陈 谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢? 在 2016 年的一次演讲中,Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是 蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃,但却不知道如何制作蛋糕本身。」 从 2016 年至今,LeCun 对强化学习一直不看好。然而,不可否认的是,强化学习在提升 AI 模型能力方面正变得越来越重要。而且,来自微软的一项新研究显 示,它不仅在后训练阶段发挥着关键作用,甚至在预训练阶段也展现出巨大的潜力。 在这篇题为「Reinforcement Pre-Training」的论文中,作者提出了一种名为「强化预训练(RPT)」的新范式。在这种范式中,下一个 token 预测任务可以被重新定 义为一个通过强化学习训练的推理任务。在这一任务中,模型会因正确预测给定上下文中的下一个 token 而获得可验证的奖励。 这就好比在制作蛋糕的过程中,直接将樱桃融入到蛋糕的主体结构中。 作者指出,RPT 范式的好处在于 ...
Redis 之父亲证:人类程序员仍力压 LLM!网友锐评:那是你没见过平庸码农被 AI 吊打的样子
程序员的那些事· 2025-05-30 15:10
自从 ChatGPT 火起来后,有些大厂高管在推动「AI 替代程序员」的说法。 前些天,小程程分享了 Java 之父高斯林对 AI 的看法。没看过的童鞋,请戳这里:《 Java 之父怒斥:AI 是 场骗局,无法取代程序员,在编程方面的最大作用是生成没人想写的文档 》。 5 月 30 日凌晨,Redis 之父 antirez 写了一篇文章,标题即为他的观点: 人类程序员仍比 LLM 更胜一筹! 人类程序员仍比 LLM 更胜一筹 这是一个关于人类为何仍比大语言模型(LLMs)更具能力的小故事。 先说明,我并非反对 AI,了解我的人或关注过我的人都清楚这一点。我日常会频繁使用 LLM ,比如今天,我 会用它来验证想法、进行代码审查、判断是否存在比我设想中更好的方案,或是探索我专业领域边缘的内容等 等( 差不多两年前,当用 LLM 编程还不算流行时,我就写过一篇相关博客;我一直都在使用这类工具,后续 得写篇更新,但这不是本文的重点 )。 不过,尽管当前的 AI 已经很有用、甚至很出色,但它与人类智能的差距仍然巨大。我想强调这一点,因为最 近很难进行客观平衡的讨论。 1. 我们加载了损坏的数据,其中显示 A 连接到 B ...
《科学智能白皮书2025》发布,中国引领AI应用型创新领域
第一财经· 2025-05-26 21:27
至 2024 年,中国的 AI 相关论文引用量占全球总量的 40.2%,实现了对美国(占比42.9%)的快速追 赶。 5月26日,上海科学智能研究院联合复旦大学、施普林格·自然(Springer Nature) 旗下的自然科研智讯 (Nature Research Intelligence)全球发布《科学智能白皮书2025》(下称"报告")。 物总量快速增长,科学智能异军突起,2020年后加速成长,有力推动了人工智能研究整体的井喷态势。 全球人工智能期刊论文数量在过去十年间激增近三倍——从30.89万篇增至95.45万篇,年均增长率为 14%。人工智能核心领域(如算法、机器学习)占比从44%降至38%;科学智能占比相应提升了6个百分 点,且其年均增长率从2020前的10%,提升至2020后的19%。尤其是在工程科学和生命科学领域,其年 均增长率分别从2020年前的9%和15%,提升至2020年后的16%和29%。 国别研究显示,2015年至2024年间,全球人工智能出版物排名前五的国家/地区的格局发生了转变。中 国增长势头尤为显著,AI出版物总量从2015年的6.01万篇上升至2024年的30.04万篇,占全 ...
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
机器之心· 2025-05-05 11:40
机器之心报道 编辑:陈萍 该研究对 LLM 常见的失败模式贪婪性、频率偏差和知 - 行差距,进行了深入研究。 大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推 理,从而智能体可以有效地探索并高效地解决复杂领域的问题。 然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。 本文,来自谷歌 DeepMind 的研究者系统地研究了为什么 LLM 在决策场景中表现次优的原因。特别是,本文深入研究了三种常见的失败模式: 贪婪性、频率偏差 和知 - 行差距 。 在此基础上,本文提出通过强化学习对自动生成的 CoT 推理过程进行微调,以缓解这些不足。实验表明 RL 微调能有效提升 LLMs 的决策能力 —— 既增强了智能 体探索性行为,又缩小了知 - 行差距。 方法介绍 本文系统性地分析了中小规模 LLMs 存在的三种典型缺陷:贪婪性策略、频率偏差以及知行差距。分析表明,由于 LLMs 过早陷入贪婪动作选择策略,导致动 ...
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
机器之心· 2025-04-27 18:40
本文由上海人工智能实验室,悉尼大学,牛津大学联合完成。第一作者周恒为上海 ailab 实习生和 Independent Researcher 耿鹤嘉。通讯作者为上海人工智能实验 室青年科学家白磊和牛津大学访问学者,悉尼大学博士生尹榛菲,团队其他成员还有 ailab 实习生薛翔元。 ReSo 框架( Re ward-driven & S elf- o rganizing)为复杂推理任务中的多智能体系统(MAS)提供了全新解法,在处理复杂任务时,先分解生成任务图,再为每个 子任务匹配最佳 agent。将任务图生成与奖励驱动的两阶段智能体选择过程相结合,该方法不仅提升了多智能体协作的效率,还为增强多智能体的推理能力开辟了 新路径。 研究背景:LLM 推理能力的掣肘与突破口 近年来, 增加推理时间(Inference Time Scaling) 被广泛认为是提升大语言模型(Large Language Models, LLMs)推理能力的重要途径之一。一方面,通过在训 练后阶段引入强化学习与奖励模型,可优化单一模型的推理路径,使其在回答前生成中间步骤,表现出更强的逻辑链构建能力;另一方面,也有研究尝试构建 多 智能体 ...
中科院领衔万字长文,全面系统梳理多模态LLM对齐算法
量子位· 2025-03-23 19:12
CASIA等 投稿 量子位 | 公众号 QbitAI 万字长文,对多模态LLM中对齐算法进行全面系统性回顾! 从现有 对齐算法涵盖的应用场景 ,到 构建对齐数据集的核心因素 ,再到 用于评估对齐算法的 基准 ,还有 对齐算法未来潜在发展方向 , 全都梳理了一遍。 大语言模型 (LLMs) 能够通过简单的提示完成多种任务,且无需进行任务特定的训练。然而,这些模型主要处理文本数据,对于多模态数 据的处理存在局限。 由于世界本质上是多模态的,包括视觉、听觉和文本等数据,研究者开始在LLM的基础上开发多模态大语言模型 (MLLMs) ,以处理更复 杂的数据形式。 然而,现有的MLLMs仍面临一系列挑战,尤其是在真实性、安全性、推理能力和与人类偏好对齐方面,这些问题尚未得到充分解决。 因此,针对这些问题的对齐算法应运而生,成为解决这些挑战的有效途径。 本文这项研究的主要贡献是对多模态大型语言模型 (MLLMs) 中的对齐算法进行全面的系统性回顾。 具体而言,探讨了以下四个关键问题: 现有对齐算法的应用 场景: 文章通过分类当前的对齐算法,清晰地展示了它们在不同应用领域的适用性,并为研究者提供了一个统一的 符号系统,帮助 ...