大语言模型(LLMs)

搜索文档
Andrej Karpathy 爆火演讲刷屏技术圈:AI 开启软件 3.0,重写一切的时代来了!
AI前线· 2025-06-19 16:10
编程范式演进 - 软件1 0时代以传统代码为主 需要人工编写精确指令 [16] - 软件2 0时代以神经网络权重为核心 通过数据集训练生成参数 [8][16] - 软件3 0时代以自然语言编程为特征 大模型直接理解语义指令 [17][19][21] 技术栈变革趋势 - 特斯拉自动驾驶系统中软件2 0逐步替代1 0代码 删除大量C++逻辑模块 [24] - 开发者需掌握三种编程范式混合应用能力 根据场景选择最佳实现方式 [25] - GitHub等平台正在演变为新型代码托管形态 Hugging Face成为软件2 0时代的GitHub [11] LLM基础设施特性 - LLM具备公共事业属性 实验室通过API按token计费提供服务 类似电力网络 [31] - 训练LLM需要巨额资本支出 技术壁垒快速集中 类似半导体晶圆厂模式 [38] - 开源与闭源生态并行发展 LLaMA可能成为LLM时代的Linux系统 [42] 人机交互革命 - 自然语言编程彻底降低技术门槛 实现全民可编程 [136][140] - Vibe Coding成为新一代开发者的入门方式 通过自然语言快速构建应用 [141][146] - 文档体系需适配LLM阅读 如Vercel将操作指南改为curl命令格式 [152][157] 应用开发新范式 - 部分自主应用成为主流 需设计自主滑块调节AI参与度 [98][137] - Cursor等工具展示典型特征:上下文管理 多模型编排 专用GUI界面 [96][97] - 生成-验证循环效率是关键 需优化可视化审阅与操作范围控制 [110][112] 行业发展阶段 - 当前LLM发展相当于1960年代计算水平 集中式云端服务为主 [51][56] - 技术扩散路径反转 个人用户早于政府企业采用创新技术 [63][64] - Agent发展需长期演进 激进的全自动化方案存在风险 [131][135]
陈岱孙经济学纪念讲座报名丨熊伟:结构化信念与基金投资
搜狐财经· 2025-06-17 16:25
讲座背景 - 陈岱孙经济学系列纪念讲座设立于2011年,旨在纪念著名经济学家陈岱孙先生并推动经济学术研究与中外交流 [1] 讲座安排 - 主题:结构化信念与基金投资(Structured Beliefs and Fund Investment) [2] - 时间:2025年6月20日14:00-15:30 [2] - 地点:清华大学建华楼A503 [2] - 主办单位:清华大学经济管理学院金融系、清华大学全球共同发展研究院 [2] - 讲座语言:英文PPT配合中文讲解 [11] 主讲嘉宾 - 熊伟现任普林斯顿大学经济系及本德海姆金融中心金融学兼经济学讲席教授 [4][6] - 兼任香港中文大学(深圳)经管学院学术院长及美国国家经济研究局研究员 [4][6] - 研究领域:资本市场不完全性、行为金融学、数字经济及中国经济 [4][6] - 学术荣誉:2018年中国经济学奖、2014年孙冶方金融创新奖、2023年计量经济学会会士等 [4][6] - 教育背景:杜克大学金融学博士、哥伦比亚大学物理学硕士、中国科学技术大学物理学学士 [5][6] 研究内容 - 基于中国公募基金强制披露的季度展望报告,利用大语言模型(LLMs)分析基金经理对政府政策缓解经济冲击的认知 [7][9] - 构建"逆周期政策信念"指标(CCP),量化基金对政策抵消经济冲击的预期 [7][9] - 实证发现:基金经理的市场信念对市场收益率具有正向预测能力,CCP信念可增强预测效果并提升基金业绩 [8][9] 参与方式 - 面向清华师生开放,经管学生通过教学项目报名,其他院系需邮件提交个人信息至指定邮箱 [10] - 报名截止日期:2025年6月19日12:00 [10]
「Next-Token」范式改变!刚刚,强化学习预训练来了
机器之心· 2025-06-11 11:54
核心观点 - 强化学习(RL)在AI模型预训练阶段展现出突破性潜力,微软研究提出的「强化预训练(RPT)」新范式将传统next-token预测任务重构为推理任务,通过可验证的内在奖励提升模型性能 [6][9][24] - RPT通过利用海量无标注文本数据实现通用强化学习,显著提升语言建模准确性和推理能力,同时规避reward hacking风险 [26][28][29][30] - 实验表明RPT-14B模型在next-token预测准确率、零样本性能及下游任务微调效果上均超越基线模型,甚至媲美更大规模模型 [40][42][43][49][50] 技术范式创新 - **任务重构**:将next-token预测转化为推理过程,模型通过比对语料真实token获得内在奖励,无需外部标注 [25][32] - **可扩展性**:直接利用现有预训练语料库,将其转化为强化学习训练资源,支持长思维链推理(如自我修正) [28][33][34] - **训练机制**:采用on-policy强化学习,生成多组思维轨迹并通过前缀匹配奖励验证,分配更多计算资源于推理步骤 [35][37][31] 实验性能表现 - **语言建模**:RPT-14B在Easy/Medium/Hard难度测试集上next-token准确率分别达45.11%/33.56%/23.75%,全面超越基线模型Qwen2.5-14B和R1-Distill-Qwen-14B [42] - **Scaling特性**:预测准确率随训练计算量增加持续提升,高R2值验证性能增长趋势稳定 [45] - **下游任务**:经RPT预训练的模型在RLVR微调后性能上限提升至58.3,显著高于基线模型的52.7 [47][48] - **零样本能力**:在SuperGLUE和MMLU-Pro基准测试中,RPT-14B分别以39.0和71.1的分数超越32B大模型 [50] 行业影响 - **突破限制**:解决传统RL依赖人类反馈数据(高成本)和RLVR数据稀缺的问题,实现通用预训练与强化学习的结合 [22][23][24] - **效率提升**:通过推理过程直接优化token预测准确性,模型在相同参数量下性能可比拟更大规模模型 [43][49] - **潜在应用**:特别适用于需复杂推理的领域(如数学解题),模型表现出结构化问题解决能力 [51][53]
Redis 之父亲证:人类程序员仍力压 LLM!网友锐评:那是你没见过平庸码农被 AI 吊打的样子
程序员的那些事· 2025-05-30 15:10
AI与程序员能力对比 - 核心观点:人类程序员在复杂问题解决和创造性思维方面仍显著优于大语言模型(LLMs),AI当前主要作为辅助工具而非替代品[2][3][10] - Redis之父antirez通过修复HNSW图结构双向连接校验的案例,展示人类能提出LLM无法自主生成的优化方案(如异或累加器检测算法),将2000万向量集的校验时间从90秒优化至可接受范围[5][7][8][10] - 行业专家普遍认为LLM的价值在于充当"智能伙伴",帮助验证想法和代码审查,但无法替代需求分析、社交协作等软件工程核心环节[13][14] 技术实现细节 - Redis向量集修复方案: - 常规方法时间复杂度达O(N²),导致2000万向量加载时间翻倍至90秒[5][7] - LLM(Gemini 2.5 PRO)仅能建议排序+二分查找等基础优化,无法突破性解决指针校验问题[7][8] - 人类提出创新方案: - 哈希表存储连接关系(A:B:X格式),利用memcpy替代snprintf提升效率[8] - 128位寄存器异或累加检测,配合murmur-128哈希函数降低碰撞风险至可接受水平[9][14] 行业观点碰撞 - 能力边界争议: - 顶尖程序员(如antirez)的创造性解决方案能力远超LLM,但平庸程序员可能被AI工具缩小差距[15] - 软件工程的社交属性(需求分析、客户沟通)是AI难以替代的核心竞争力[14] - 技术演进预期: - 当前LLM在代码生成文档等标准化任务中表现最佳,但无法预判未来2年技术突破后的格局[13][16] 典型案例参考 - 高性能编程领域人类优势显著:日本工程师的PowerPC汇编代码性能可超越编译器生成代码达数量级差异[15] - AI生成代码现存缺陷:存在生成3000+行无法运行代码的案例,反映逻辑连贯性不足的问题[16]
《科学智能白皮书2025》发布,中国引领AI应用型创新领域
第一财经· 2025-05-26 21:27
全球AI科研发展趋势 - 中国AI论文引用量占全球40.2%,快速追赶美国(42.9%)[1][8] - 全球AI期刊论文数量十年激增近三倍,从30.89万篇增至95.45万篇,年均增长率14%[7] - 科学智能(AI4S)占比提升6个百分点,2020年后年均增长率从10%跃升至19%[7] 科学智能(AI4S)领域进展 - 报告覆盖7大科研领域、28个方向、近90个科学智能前沿问题及突破路径[1] - 大语言模型(LLMs)成为物质科学、生命科学等领域的通用科研工具[4] - 强化学习在工程控制、数学证明及物理模拟等复杂场景占主导地位[4] - 计算机视觉技术在生命科学和地球环境领域渗透显著[4] 国别科研表现对比 - 中国AI出版物总量从2015年6.01万篇增至2024年30.04万篇,占全球29%[7] - 印度AI出版物从2015年1.82万篇增至2024年8.51万篇,几乎与美国(8.57万篇)齐平[7] - 中国在专利、政策及临床试验中AI引用量占比达41.6%,全球领先[8] 细分领域竞争格局 - 中国在地球环境科学和工程交叉领域具有先发优势[9] - 欧盟与美国在AI与生命科学交叉领域保持优势,中国位居第三[9] - 印度在地球环境、工程和人文社科领域居全球第三[9] - 中美合作AI出版物2024年达1.22万篇,为2015年两倍[9] 科研影响力动态 - 美国高质量AI论文引用量2020年达30.22万次,保持领先[8] - 中国高质量AI论文引用量从2015年1.03万次跃升至2020年14.48万次[8] - 中国在AI应用型创新领域从"跟随者"转变为"引领者"[8]
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
机器之心· 2025-05-05 11:40
核心观点 - 研究系统分析了LLM在决策场景中的三种常见失败模式:贪婪性、频率偏差和知-行差距 [2][4] - 提出通过强化学习微调(RLFT)自动生成的思维链(CoT)推理过程,实验证明该方法能有效提升LLM决策能力 [2][8] - RLFT通过环境交互奖励优化CoT推理,使模型倾向于选择高奖励动作,显著改善探索行为和知-行差距 [8][22] 失败模式分析 - **贪婪性**:LLM过早锁定局部最优动作,在10臂老虎机实验中27B模型仅覆盖45%动作空间 [15][17] - **频率偏差**:2B模型机械复制高频动作(熵值降低50%),27B模型虽减弱此现象但仍保持贪婪 [5][18] - **知-行差距**:87%推理正确但58%情况仍选择贪婪动作,与最优动作选择率(21%)形成显著落差 [20] 模型规模差异 - 小模型(2B)受频率偏差影响严重,重复动作选择率随上下文出现次数线性增长 [5][18] - 大模型(27B)能减弱频率偏差但维持贪婪策略,在20臂老虎机中动作覆盖率停滞在55% [6][15] RLFT方法细节 - 采用裁剪目标函数和KL约束进行微调,数学表达式见公式(2) [11] - 输入包含指令文本和最近C步的状态-动作-奖励轨迹 [10] - 测试环境包括多臂老虎机(MAB)和井字棋游戏 [13] 实验结果 - RLFT使2B/9B模型遗憾值降低30%,优于随机基线 [22] - 微调后模型探索率提升,10步后动作覆盖率突破60% [17][22] - 知-行差距缩小,正确推理对应最优动作执行率从21%提升至40% [20][22]
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
机器之心· 2025-04-27 18:40
研究背景 - 增加推理时间被认为是提升大语言模型推理能力的重要途径,包括引入强化学习与奖励模型优化单一模型的推理路径,以及构建多智能体系统协同解决复杂任务 [5] - 多智能体方法理论上更具灵活性与可扩展性,但面临自动扩展能力不足、智能体能力评估困难、奖励信号设计粗糙、缺乏动态演化机制等挑战 [7][8] ReSo框架核心创新 - 提出奖励驱动的自组织多智能体系统ReSo,能够自主适应复杂任务和灵活数量的智能体候选,无需手动设计合作解决方案 [12] - 引入协作奖励模型(CRM),提供细粒度奖励信号实现数据驱动的多智能体系统性能优化 [12] - 采用任务图生成与智能体图构建的两阶段方法,将复杂问题分解为有向无环任务图(DAG),再为每个子任务匹配最佳agent [11][15] 技术实现细节 - 任务图生成:使用大语言模型将复杂问题转化为分步骤的有向无环任务图,测试了闭源模型(gpt4o)和开源LLM(Qwen-7b) [16] - 两阶段智能体选择:粗粒度搜索采用UCB算法筛选候选智能体,细粒度筛选通过CRM评估候选智能体实际表现 [20][23] - 动态智能体数据库(DADB)存储智能体基本信息、历史性能及计算成本,用于生成初步质量评分 [19] 实验结果 - ReSo在Math-MAS-Hard和SciBench-MAS-Hard上的准确率分别达到33.7%和32.3%,显著优于其他方法 [36] - 在复杂推理任务中表现全面优于现有MAS方法,如MetaGPT、DyLAN、GPTSwarm等 [37] - 与单模型相比,ReSo在保持较高准确率的同时,展现出更强的适应性和可扩展性 [37] 数据集贡献 - 提出自动化方法生成多智能体任务数据,包括随机生成任务图、填充子任务及构建自然语言依赖关系 [32] - 开源MATH-MAS和Scibench-MAS数据集,单个样本包含多学科任务,复杂度分为3、5、7三个级别 [32]
中科院领衔万字长文,全面系统梳理多模态LLM对齐算法
量子位· 2025-03-23 19:12
CASIA等 投稿 量子位 | 公众号 QbitAI 万字长文,对多模态LLM中对齐算法进行全面系统性回顾! 从现有 对齐算法涵盖的应用场景 ,到 构建对齐数据集的核心因素 ,再到 用于评估对齐算法的 基准 ,还有 对齐算法未来潜在发展方向 , 全都梳理了一遍。 大语言模型 (LLMs) 能够通过简单的提示完成多种任务,且无需进行任务特定的训练。然而,这些模型主要处理文本数据,对于多模态数 据的处理存在局限。 由于世界本质上是多模态的,包括视觉、听觉和文本等数据,研究者开始在LLM的基础上开发多模态大语言模型 (MLLMs) ,以处理更复 杂的数据形式。 然而,现有的MLLMs仍面临一系列挑战,尤其是在真实性、安全性、推理能力和与人类偏好对齐方面,这些问题尚未得到充分解决。 因此,针对这些问题的对齐算法应运而生,成为解决这些挑战的有效途径。 本文这项研究的主要贡献是对多模态大型语言模型 (MLLMs) 中的对齐算法进行全面的系统性回顾。 具体而言,探讨了以下四个关键问题: 现有对齐算法的应用 场景: 文章通过分类当前的对齐算法,清晰地展示了它们在不同应用领域的适用性,并为研究者提供了一个统一的 符号系统,帮助 ...