大语言模型(LLM)
搜索文档
马斯克亲自点名Karpathy迎战Grok 5,别神话LLM,AGI还要等十年
36氪· 2025-10-21 10:21
AGI发展时间表与现状评估 - 行业专家预测实现通用人工智能仍需约10年时间 [1][3][12] - 该时间线相对于当前市场炒作氛围显得保守,但相对于怀疑论者仍属乐观预期 [17] - 专家认为比旧金山同行对AGI时间线的预测悲观5-10倍 [17] AGI实现路径的技术挑战 - 强化学习方法存在信号稀疏问题,仅通过二元对错信号进行学习效率低下 [21][23] - 模型崩塌现象阻碍大语言模型实现人类式学习能力 [2] - 系统集成与安全防护构成重大技术障碍,包括越狱和投毒等风险 [17] - 环境与评估体系匮乏,需要大量多样化高质量环境集作为训练基础 [25] 大语言模型发展现状与趋势 - 行业正处于LLM炒作的"幻灭低谷期",但将进入生产力缓慢提升的"启蒙斜坡"阶段 [7][9] - 模型发展呈现"先大后小"趋势:先扩大规模承载能力,再通过架构优化实现小型化 [29] - 智能体时代将从2025年开始,未来10年都将处于"智能体时代" [15][17] 新型学习范式探索 - 系统提示学习作为强化学习替代方案,通过编辑操作而非梯度下降实现优化 [26] - 新范式可使LLM自动生成系统提示,形成强大的新型学习机制 [26] - 记忆功能等特性已成为新学习范式的早期部署样本 [27] 人机协作模式演进 - 倡导"协作式中间态"而非全自动编程,避免产生代码沼泽和安全风险 [32] - AI编程助手应定位为"天才实习生",需保持防御性、谨慎多疑的工作态度 [32][36] - 当前工具尚未充分优化人机协作流程,用户体验存在巨大改进空间 [33] 行业应用与自动化前景 - 工作自动化程度取决于输入输出标准化、错误代价和决策频率等因素 [34] - 放射科等领域呈现人机互补模式,模型作为第二读片者提升整体质量 [34] - AGI预计将融入过去约2.5个世纪以来每年约2%的GDP增长趋势 [2]
世界模型:机器能否理解现实?
36氪· 2025-10-20 21:01
世界模型的概念与重要性 - 世界模型是AI系统内部携带的环境表征,用于在执行任务前对预测和决策进行评估 [1] - 多位深度学习领域权威人物认为世界模型是构建真正聪明、科学且安全的AI系统不可或缺的部分 [1] - 该概念在心理学、机器人学和机器学习等领域已有数十年历史,类似于人类大脑中避免危险的本能模型 [1] 世界模型的历史渊源 - 世界模型的概念可追溯至1943年心理学家肯尼斯·克雷克提出的"外部现实小尺度模型"设想 [2] - 克雷克的设想预示了认知革命,并将认知与计算能力直接联系起来 [2] - 20世纪60年代末的SHRDLU等AI系统曾使用简易模型,但手工构建的模型难以规模化 [3] 当前AI与世界模型的现状 - 当前大语言模型展现的许多能力使世界模型成为一个颇具解释力的思路 [4] - 然而,生成式AI更像是在学习成百上千条互不关联的经验法则,而非一个自洽的整体世界模型 [4] - 研究者尝试寻找世界模型证据时,发现的是零散的启发式规则,而非连贯的表征 [4] 世界模型的优势与挑战 - 大语言模型可以在其数万亿个参数中编码大量启发式规则,通过数量实现质量 [5] - 缺乏连贯世界模型导致系统鲁棒性不足,例如当1%街道封闭时,LLM的导航能力明显崩溃 [6] - 一个鲁棒且可验证的世界模型有望消除AI幻觉、支持可靠推理并提升系统可解释性 [6] 未来发展方向 - Google DeepMind和OpenAI认为通过足够多的多模态训练数据,世界模型会在神经网络中自然形成 [7] - Meta的杨立昆则认为构建世界模型需要完全不同于生成式AI的全新架构 [7] - 构建世界模型是大型AI实验室和学术界的重点研发方向,但其具体实现方法仍属未知 [7]
LLM记忆管理终于不用“手把手教”了,新框架让智能体自主管理记忆系统
量子位· 2025-10-20 18:29
技术方案与核心创新 - 提出名为Mem-α的强化学习框架,用于训练大语言模型智能体自主管理复杂的记忆系统[2] - 采用数据驱动的强化学习方法,让模型在交互中自主学习最优记忆管理策略,而非依赖预设指令[4] - 将记忆构建问题转化为可通过强化学习优化的序列决策问题,实现端到端的优化[14] - 训练时智能体依次处理信息块并决定记忆操作,通过下游任务表现获得反馈进行优化[16] 技术背景与现有挑战 - 大语言模型智能体受限于有限的上下文窗口,使得外部记忆系统对长期信息理解至关重要[5] - 即使支持100万tokens的模型如GPT-4.1,在长期交互中也会因窗口增长导致成本激增和延迟增加[6] - 当前记忆增强智能体依赖预定义指令和工具进行记忆更新,缺乏决定存储内容、组织结构和更新时机的能力[7][8] - 传统方法导致次优记忆构建和信息丢失,严重影响智能体在长期交互中的表现[9] 记忆系统架构设计 - 设计包含三种记忆类型的复杂系统:核心记忆(容量512 tokens)、情景记忆(记录带时间戳的事件)和语义记忆(存储结构化知识)[20][22] - 每种记忆类型支持插入、更新、删除操作,智能体需学习在适当时机选择合适工具和记忆类型[23] - 记忆系统灵感来源于认知科学中的记忆分类理论,涵盖持久信息、事件记录和结构化知识[20] 实验性能与效果验证 - 在30k tokens上训练后,模型在验证集上问答准确率等指标显著提升[27] - 主实验显示Mem-α在MemoryAgentBench上全面超越现有方法,平均性能达64.2%[29][33] - 相比Long-Context和RAG-Top2,记忆占用减少约50%的同时保持更优性能,在BookSum等任务上压缩效果更佳[35] - 训练仅使用平均<30K tokens的文档,成功泛化到超过400K tokens的文档,最长泛化至474K tokens[35] 技术突破与行业意义 - 证明在LLM智能体记忆管理领域,学习胜过工程,传统需精心工程化的系统组件可通过端到端学习优化[34][35] - 结构化架构必要性得到验证,扁平记忆基线性能明显受限,凸显分层记忆设计和强化学习优化的有效性[35] - 展现出对未见分布的强泛化能力,在精确检索和长期理解任务上表现尤其突出[35]
微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速
机器之心· 2025-10-20 15:48
大语言模型(LLM)不仅在推动通用自然语言处理方面发挥了关键作用,更重要的是,它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性,但在下游任务中高效部署仍面临重大挑战。随着模型规模的急剧扩大,这些挑战被进一步放大,尤其是在资源受限的设备上(如智能手 机),内存占用和计算开销都变得极其昂贵。 如图 1 所示,直接对已有的全精度 LLM 进行 1.58 比特量化感知训练(Quantization-Aware Training, QAT)时,在特定下游任务上的训练过程往往不稳定,难以保 持原有的性能,并表现出较差的可扩展性:当模型规模从 0.6B 增大到 4B 时,相对于全精度基线的性能差距从 13.9 扩大到 15.3。 | 机器之心报道 | | --- | | 编辑:+0、陈陈 | 为应对这些问题,近期研究提出了极低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。这种方法旨在显著降低内存占用并加 速推理,从而为 LLM 在下游应用中的高效部署提供一条可行途径。 然而,要让 1.58 比特的 BitNe ...
卡帕西:强化学习很糟糕,但其他所有方法都更糟
量子位· 2025-10-18 17:30
AGI发展时间框架 - 通用人工智能至少还需要十年时间才能达到理想状态[5][6][10] - 当前智能体系统在智能水平、多模态能力和复杂任务操作方面存在明显局限[8] - 智能体需要具备持续学习能力并解决认知架构缺陷才能实现真正协作[9] 大语言模型技术局限 - 现有大语言模型存在认知缺陷,容易陷入编程范式思维定势[15] - 模型训练数据导致过度追求生产级标准代码,造成代码库膨胀和复杂度增加[15] - 业界对大语言模型能力存在过度夸大,实际仍需大量改进[16] 强化学习技术评估 - 强化学习方法存在严重缺陷,但其他替代方法表现更差[18] - 强化学习通过正确结果反向强化整个解题路径的做法充满噪声且不合理[20] - 当前系统缺乏人类式的复杂复盘机制,仅依赖正确错误二元判断[21][23] AGI经济影响预测 - AGI将延续现有2%的GDP增长趋势,不会产生突然的技术跳跃[5][29] - AGI替代人类工作将采用渐进式自动化模式,实现自主性滑块分配[26] - 智力爆炸已通过历史GDP指数增长体现,AGI只是自动化趋势的延续[28] 自动驾驶技术挑战 - 自动驾驶技术从演示到产品的差距极大,失败代价高昂[30][31] - 可靠性每增加一个9(如90%到99%)都需要大量工作[32] - 真实产品需要应对各种边缘情况,特斯拉五年仅达到两到三位9的可靠性[32] 教育领域应用前景 - 理想的教育系统应提供个性化导师体验,能够快速判断学生知识水平[36] - 优秀导师能提供适度挑战,既不太难也不太简单[36] - 当前大语言模型尚无法实现真正个性化教学,需要构建完整课程体系[36]
最新自进化综述!从静态模型到终身进化...
自动驾驶之心· 2025-10-17 08:03
文章核心观点 - 当前主流AI智能体存在静态配置的局限性,无法动态适应环境变化,而自进化AI智能体通过与环境交互持续优化内部组件,实现终身学习 [1][5][6] - 论文首次明确定义自进化AI智能体,提出三大定律和四阶段演进框架,构建从技术到落地的完整图谱 [1][7][9] - 自进化AI智能体的目标是让AI系统成为能与人类长期协作的伙伴,实现从静态模型到终身进化的范式转变 [42] 自进化AI智能体的定义与核心原则 - 自进化AI智能体是通过与环境交互,持续且系统性地优化内部组件,以适应任务、上下文和资源变化的自主系统 [6] - 提出自进化AI智能体三定律:存续定律(维持安全与稳定性)、卓越定律(保持或提升性能)、进化定律(自主优化内部组件) [8][12] - 四阶段演进历程包括模型离线预训练(MOP)、模型在线适配(MOA)、多智能体协同(MAO)和多智能体自进化(MASE) [9] 技术框架与组件 - 四组件反馈循环框架包括系统输入(定义进化目标)、智能体系统(执行任务)、环境(提供反馈信号)、优化器(迭代优化智能体) [10][11][15] - 系统输入分为任务级输入(针对特定任务的整体优化)和实例级输入(针对单个任务实例的精细优化) [13][16] - 智能体系统分为单智能体(由基础模型、提示、记忆、工具等构成)和多智能体(由多个单智能体、通信协议和拓扑结构组成) [14][17] - 环境反馈分为客观反馈(可量化的性能指标)和主观反馈(需通过LLM评估的质性指标) [14][18] - 优化器由搜索空间(定义可优化对象)和优化算法(定义如何搜索最优配置)组成 [19][22] 单智能体优化技术 - LLM行为优化分为训练式优化(通过数据反馈更新模型参数)和推理时优化(不修改模型参数,通过推理策略提升性能) [20][23] - 提示优化技术包括编辑式优化、生成式优化、文本梯度式优化和进化式优化 [26] - 记忆优化分为短期记忆优化(优化当前任务的上下文管理)和长期记忆优化(构建跨任务的持久化记忆) [26] - 工具优化分为训练式工具优化、推理时工具优化和工具功能优化(自主创建新工具) [26] 多智能体优化技术 - 手动设计多智能体系统包括并行工作流、分层工作流和多智能体辩论 [30][31] - 自进化多智能体系统优化技术包括拓扑优化、统一优化和LLM骨干优化 [30][31] - 多智能体系统通过协作提升复杂任务处理能力,例如医疗诊断多智能体系统模拟临床流程 [30][32] 领域特定优化应用 - 生物医学领域注重安全优先和精准适配,例如多智能体模拟临床流程和分子发现 [30][32] - 编程领域注重效率导向和错误修正,例如自反馈与多角色协作优化代码生成和调试 [30][38] - 金融与法律领域注重合规优先和规则对齐,例如多源信息整合优化金融决策和模拟司法流程优化法律推理 [30][33][38] 评估方法与安全伦理 - 评估方法分为基准测试评估(基于标准化数据集和任务)和LLM驱动评估(用LLM作为评估者) [35][39] - 安全与伦理风险包括安全风险(进化过程中出现有害行为)、稳定性风险(进化导致性能波动)和合规风险(进化后违反领域法规) [36][40] - 需要建立进化安全审计机制,确保每个进化步骤符合安全与伦理要求 [36] 挑战与未来方向 - 核心挑战包括安全与进化的平衡、评估体系的完善、多模态与跨领域泛化、效率与性能的权衡 [37][41] - 未来方向包括开发MASE模拟环境、推进工具自主创建、构建终身评估基准、优化多智能体效率 [37][41] - 自进化AI为构建更自适应、更自主、更可持续的AI系统提供了清晰的路径 [42]
Sutton判定「LLM是死胡同」后,新访谈揭示AI困境
机器之心· 2025-10-15 15:33
大语言模型的技术路径争议 - 强化学习之父Rich Sutton认为大语言模型是死胡同,不符合《苦涩的教训》精神,因其无法从持续实际互动中学习[1][3] - Sutton主张智能应来自强化学习与环境的持续交互,奖励函数包含内在动机如好奇心,学习应是默认持续过程而非一次性训练[3] - 当前大语言模型依赖大规模预训练和人为监督微调,Sutton指出监督微调在自然界不存在,预训练方法被人类偏见污染[3] 强化学习实现的根本挑战 - 纯粹强化学习极难实现,因无法定义通用奖励函数,实践常退回模仿学习[7] - 理想系统应像松鼠被置于新环境后自主学习,而当前系统无法在未见过的场景中学习新事物[8] - 强化学习应是利用与探索的结合,但当前模型设计走向极端,仅在有限经验基础上进行纯粹利用[11] 大语言模型的设计缺陷与数据问题 - 模型依赖写作数据而非思维模式数据,但写作时的思考方式与现实世界不同,导致数据采样分布偏差[12] - 自回归机制更像神经网络的顺序展开路径,而非可随时间微调的目标函数,限制真正理解能力[11] - 模型缺乏强制探索行动与结果关系的机制,难以构建良好世界模型,仅在明确行动空间如围棋中表现较好[20] 技术路径的可行性质疑 - Sutton指出大语言模型的极端主张缺乏非凡证据,仅通过观察人类行为样本难以涌现真正推理能力[23] - 大语言模型可能无法兑现宏伟愿景,若15年内未实现价值,考虑到数百上千亿美元投入,可能引发市场崩溃或泡沫破裂[23] - 模型过度依赖人类知识和互联网数据,存在可扩展性边界,终将陷入过度依赖专家微调的困境[24] 行业发展的路径依赖与重构需求 - 行业陷入修补式迭代恶性循环,工程师优先修复而非系统重构,导致系统日益脆弱和过拟合[28] - 当模型遇到瓶颈时,市场商业化浪潮绑架既定路径,直到集体意识必须重构新系统[28] - 大语言模型领域已显现转变,从单纯依赖算力扩展正转向更注重推理能力的方法链和强化学习环境探索[28] 模型实际能力与公众期望的错位 - 需要区分模型被认为能做的事和实际能做的事,公众推断可能误导,但模型现有能力本身具有难以置信的价值和用途[32][33] - 纯粹模仿已产生非凡特性和涌现能力,这是重要学术问题,尽管不会达到真正智能,仍能找到很好用途[34] - 公共讨论应聚焦已发生的奇迹,而非过度期待智能水平,类似互联网泡沫期某些公司的期望过头现象[33][34]
4小时喜提专属 ChatGPT、卡帕西又整活,自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师
36氪· 2025-10-14 20:52
项目概述 - 特斯拉前AI总监Andrej Karpathy发布了一个名为nanochat的极简开源项目,用于从零构建全流程的大语言模型训练和推理工具链 [1] - 该项目在GitHub上已获得7.9k星标,整个代码库仅一个文件,依赖项极少 [1] - 项目目标是为LLM101n课程提供核心项目,并有望发展成为研究工具框架或基准测试工具 [6] 成本与性能 - 使用nanochat,仅需约100美元成本(在8卡H100节点上训练约4小时)即可训练出可对话的简易版ChatGPT复现模型 [2] - 训练约12小时后,模型性能可超过GPT-2的CORE指标 [2] - 将成本提升至约1000美元(训练约41.6小时),模型的连贯性会显著提升,能够解决简单的数学题和代码任务 [3] - 一个深度为30的模型训练24小时后,在MMLU数据集上可取得40多分,在ARC-Easy数据集上可取得70多分,在GSM8K数据集上可取得20多分 [3] 技术实现与架构 - 项目总共约8000行代码,完全由Karpathy手写完成,代码结构清晰 [7] - 模型架构整体类似Llama模型,采用稠密Transformer结构,使用旋转位置编码和QK归一化 [7][8] - 优化器采用Muon+AdamW组合,未来计划尝试移除对Muon的依赖 [9] - 实现高效推理引擎,支持KV缓存、工具使用(如Python解释器),并提供命令行和网页两种交互界面 [4] 功能与评估 - nanochat提供从预训练、中期训练到指令微调和强化学习的完整流程 [4] - 项目可自动生成Markdown格式的"报告卡",以游戏化方式总结各项指标 [4] - 评估指标涵盖CORE、ARC-Challenge、GSM8K、HumanEval、MMLU等多个数据集,并展示了模型在不同训练阶段的性能变化 [5] 社区影响与潜在应用 - 该项目被社区认为将对机器学习学习者和科研人员产生深远影响,降低了训练大语言模型的门槛 [10] - 有观点认为,此类工具可能削弱像Anthropic、OpenAI这类公司在技术上的优势,使更多工程师能够训练出强大的大语言模型 [10] - 项目为科研人员提供了现成的工具流程,使改进大语言模型的想法更容易从空想变为可实施的实验 [10]
4小时喜提专属 ChatGPT、卡帕西又整活!自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师
AI前线· 2025-10-14 17:46
项目发布与核心特点 - 特斯拉前AI总监Andrej Karpathy发布名为nanochat的极简开源项目,该项目在GitHub上已获得7.9k星标 [2] - nanochat是一个从零构建的全流程训练/推理工具链,可用于搭建简易版ChatGPT复现模型,整个代码库仅一个文件,依赖项极少 [2] - 项目被描述为“100美元能买到的最好的ChatGPT”,用户可在云GPU服务器上运行脚本,最快4小时后即可在类ChatGPT网页界面与自己训练的大语言模型对话 [4] 成本效益与性能表现 - 在8卡H100节点上训练约4小时(成本约100美元),即可获得一个能写故事、写诗、回答简单问题的可对话模型 [6] - 训练约12小时后,模型性能便可超过GPT-2的CORE指标 [6] - 将成本提升至约1000美元(训练约41.6小时),模型连贯性显著提升,能够解决简单数学题、代码任务及完成多项选择题测试 [7] - 一个深度为30、计算量与GPT-3 Small相当的模型,在MMLU数据集上可取得40多分,在ARC-Easy数据集上可取得70多分,在GSM8K数据集上可取得20多分 [7] 技术实现与架构 - 项目基于全新Rust语言实现训练分词器,并在FineWeb数据集上对Transformer架构大语言模型进行预训练 [5] - 模型架构整体类似Llama模型但更简洁,采用稠密Transformer、旋转位置编码、QK归一化、多查询注意力等技术 [13] - 优化器采用Muon+AdamW组合,代码仓库总共约8000行,为手写完成,未使用AI编程助手辅助 [11] 行业影响与潜在应用 - 该项目被视为极简的端到端训练/推理工具链,预计将对机器学习学习者和科研人员产生深远影响 [14] - 有观点认为该工具链可能削弱如Anthropic、OpenAI等公司的技术优势,因为优秀工程师可利用足够资源训练出更强大的模型 [14] - 项目最大的潜在受众是科研人员,其提供了一个现成的工具流程,可将改进大语言模型的想法快速付诸实验 [14] - 项目旨在成为LLM101n课程的核心项目,并有潜力发展成研究工具框架或基准测试工具 [9]
永别了,人类冠军,AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
36氪· 2025-10-13 07:57
AI大模型在天文奥赛中的突破性表现 - 在国际天文与天体物理奥赛(IOAA)中,GPT-5和Gemini 2.5 Pro达到金牌水平,在理论和数据分析测试中完胜人类选手[1][3] - 这是继国际数学奥赛(IMO)和国际信息学奥赛(IOI)之后,AI再次在顶级科学奥赛中夺冠[2] - 此次表现标志着AI已能与物理学和天文学领域最顶尖的年轻头脑抗衡,涉及中子星、吸积流、磁场和轨道力学等尖端推理[13] 主要AI模型竞赛成绩详情 - 在理论考试上,Gemini 2.5 Pro总体得分85.6%,GPT-5总体得分84.2%[4] - 在数据分析考试中,GPT-5总体得分88.5%,Gemini 2.5 Pro总体得分75.7%[5] - 五大LLM参与测试,包括GPT-5、Gemini 2.5 Pro、OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,几乎全线获得金牌[18][36] - 研究由俄亥俄州立大学团队完成,选取了最近四届IOAA理论考试(2022-2025)作为评估基准[20] 模型在不同难度和类别问题上的表现差异 - GPT-5在难题上的表现优于简单与中等难度题,在2024年试卷的几何与空间可视化题目上出现重大失误[24][25] - 模型在物理/数学类问题上的得分(67–91%)明显高于几何/空间类问题(49–78%),两者相差15–26个百分点[44] - 几何/空间类问题涉及天球、球面三角学等需要空间可视化的内容,而物理/数学类主要涉及计算,不要求几何可视化[45] - 在2024年几何问题主导的考试中,只有Gemini 2.5 Pro保持了相对较高的性能(74.7%),其他模型性能下降至35–59%[44] 多模态能力与错误模式分析 - GPT-5在数据分析部分表现出色(88.5%),高于其理论考试成绩(84.2%),这得益于其更强的多模态图表解读能力[31][32] - 在理论考试中,概念性错误和几何/空间可视化错误占主导地位,共同占去60-70%的总失分[51] - 在数据分析考试中,错误分布相对平衡,绘图和图表阅读是主要错误类别,特别是对于能力较弱的模型[52][64] - 所有LLM在空间和时间推理方面都存在困难,例如难以理解球面三角学、混淆时间计量系统[47][49] 与人类选手的比较及行业意义 - AI模型不仅达到金牌水平,其水平高达人类金牌得主的2.7倍,在200-300名人类参赛者中跻身前两名[6][12] - 在2022、2023、2025理论考试中,GPT-5均超过了当年的IOAA最佳学生,Gemini 2.5 Pro在2022和2023年同样力压最佳人类选手[40] - 此次评估揭示了需要更全面地评估天文学领域的LLM,以测试其超越单纯知识回忆的问题解决能力[28] - AI在奥赛中的表现预示着其将推动全部学科的进展,标志着我们已进入AI能进行宇宙级科学推理的时代[7][13]