大语言模型(LLM)
搜索文档
4小时喜提专属 ChatGPT、卡帕西又整活!自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师
AI前线· 2025-10-14 17:46
项目发布与核心特点 - 特斯拉前AI总监Andrej Karpathy发布名为nanochat的极简开源项目,该项目在GitHub上已获得7.9k星标 [2] - nanochat是一个从零构建的全流程训练/推理工具链,可用于搭建简易版ChatGPT复现模型,整个代码库仅一个文件,依赖项极少 [2] - 项目被描述为“100美元能买到的最好的ChatGPT”,用户可在云GPU服务器上运行脚本,最快4小时后即可在类ChatGPT网页界面与自己训练的大语言模型对话 [4] 成本效益与性能表现 - 在8卡H100节点上训练约4小时(成本约100美元),即可获得一个能写故事、写诗、回答简单问题的可对话模型 [6] - 训练约12小时后,模型性能便可超过GPT-2的CORE指标 [6] - 将成本提升至约1000美元(训练约41.6小时),模型连贯性显著提升,能够解决简单数学题、代码任务及完成多项选择题测试 [7] - 一个深度为30、计算量与GPT-3 Small相当的模型,在MMLU数据集上可取得40多分,在ARC-Easy数据集上可取得70多分,在GSM8K数据集上可取得20多分 [7] 技术实现与架构 - 项目基于全新Rust语言实现训练分词器,并在FineWeb数据集上对Transformer架构大语言模型进行预训练 [5] - 模型架构整体类似Llama模型但更简洁,采用稠密Transformer、旋转位置编码、QK归一化、多查询注意力等技术 [13] - 优化器采用Muon+AdamW组合,代码仓库总共约8000行,为手写完成,未使用AI编程助手辅助 [11] 行业影响与潜在应用 - 该项目被视为极简的端到端训练/推理工具链,预计将对机器学习学习者和科研人员产生深远影响 [14] - 有观点认为该工具链可能削弱如Anthropic、OpenAI等公司的技术优势,因为优秀工程师可利用足够资源训练出更强大的模型 [14] - 项目最大的潜在受众是科研人员,其提供了一个现成的工具流程,可将改进大语言模型的想法快速付诸实验 [14] - 项目旨在成为LLM101n课程的核心项目,并有潜力发展成研究工具框架或基准测试工具 [9]
永别了,人类冠军,AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
36氪· 2025-10-13 07:57
AI大模型在天文奥赛中的突破性表现 - 在国际天文与天体物理奥赛(IOAA)中,GPT-5和Gemini 2.5 Pro达到金牌水平,在理论和数据分析测试中完胜人类选手[1][3] - 这是继国际数学奥赛(IMO)和国际信息学奥赛(IOI)之后,AI再次在顶级科学奥赛中夺冠[2] - 此次表现标志着AI已能与物理学和天文学领域最顶尖的年轻头脑抗衡,涉及中子星、吸积流、磁场和轨道力学等尖端推理[13] 主要AI模型竞赛成绩详情 - 在理论考试上,Gemini 2.5 Pro总体得分85.6%,GPT-5总体得分84.2%[4] - 在数据分析考试中,GPT-5总体得分88.5%,Gemini 2.5 Pro总体得分75.7%[5] - 五大LLM参与测试,包括GPT-5、Gemini 2.5 Pro、OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,几乎全线获得金牌[18][36] - 研究由俄亥俄州立大学团队完成,选取了最近四届IOAA理论考试(2022-2025)作为评估基准[20] 模型在不同难度和类别问题上的表现差异 - GPT-5在难题上的表现优于简单与中等难度题,在2024年试卷的几何与空间可视化题目上出现重大失误[24][25] - 模型在物理/数学类问题上的得分(67–91%)明显高于几何/空间类问题(49–78%),两者相差15–26个百分点[44] - 几何/空间类问题涉及天球、球面三角学等需要空间可视化的内容,而物理/数学类主要涉及计算,不要求几何可视化[45] - 在2024年几何问题主导的考试中,只有Gemini 2.5 Pro保持了相对较高的性能(74.7%),其他模型性能下降至35–59%[44] 多模态能力与错误模式分析 - GPT-5在数据分析部分表现出色(88.5%),高于其理论考试成绩(84.2%),这得益于其更强的多模态图表解读能力[31][32] - 在理论考试中,概念性错误和几何/空间可视化错误占主导地位,共同占去60-70%的总失分[51] - 在数据分析考试中,错误分布相对平衡,绘图和图表阅读是主要错误类别,特别是对于能力较弱的模型[52][64] - 所有LLM在空间和时间推理方面都存在困难,例如难以理解球面三角学、混淆时间计量系统[47][49] 与人类选手的比较及行业意义 - AI模型不仅达到金牌水平,其水平高达人类金牌得主的2.7倍,在200-300名人类参赛者中跻身前两名[6][12] - 在2022、2023、2025理论考试中,GPT-5均超过了当年的IOAA最佳学生,Gemini 2.5 Pro在2022和2023年同样力压最佳人类选手[40] - 此次评估揭示了需要更全面地评估天文学领域的LLM,以测试其超越单纯知识回忆的问题解决能力[28] - AI在奥赛中的表现预示着其将推动全部学科的进展,标志着我们已进入AI能进行宇宙级科学推理的时代[7][13]
从组件到系统,Agent 的 Evaluation 怎么做?
机器之心· 2025-10-12 09:27
Agent评估范式的演进与挑战 - Agentic AI的兴起将AI系统重心从被动生成文本的大语言模型转向能够自主规划、行动并与数字世界交互的AI Agent,拓宽了AI的应用边界[3] - 相比评估LLM,Agent评估的目标是衡量完整自主系统在动态环境中实现特定目标的端到端成功率、可靠性和效率,其最终表现是架构、LLM、工具及环境交互后涌现的综合属性[5][6] - Agent评估焦点从模型本身转移到模型与环境交互产生的实际效果,必须考察其完整行为过程而不仅仅是单一文本输出质量,传统面向LLM的评估方法无法直接沿用[7] 各代AI评估范式差异 - LLM评估代际的代表性工作包括MMLU、GLUE、TruthfulQA,评估目标为生成能力、零/少试泛化能力,但无法衡量行动能力且知识静态、易被污染[10] - 初代Agent评估的代表性工作包括GAIA、AgentBench、WebArena,评估目标为多步推理、工具熟练度、客观答案,但环境为“只读”、缺乏对动态性和状态变化的感知,无法评估时间敏感性任务[10] - 新一代Agent评估的代表性工作包括GAIA2、MCP-Universe、mcpmark,评估目标为动态/异步环境、状态化交互、通过MCP连接真实工具,但缺乏对长程任务、工具泛化、多智能体协作及效率、安全与成本综合考量等方面的评估[10] Agent评估的技术发展现状 - 业界愈发关注好的Agent评估方法,并涌现了GAIA系列、MCP-universe、MCPMark、MCP-AgentBench等工作[8] - 归因于数据泄露和模型能力快速提升,LLM基准正以越来越快速度被LLMs解决到接近人类水平,甚至无法继续用于验证LLM能力[11] - Agent核心价值体现于它能“做什么”,其定义以自主性、规划和与环境互动实现目标的能力展开,因此面向Agent的评估范式必须能够衡量这些以行动为导向的核心能力[11]
破解MoE模型“规模越大,效率越低”困境!中科院自动化所提出新框架
量子位· 2025-10-11 09:15
文章核心观点 - 中科院自动化所提出一种针对混合专家模型(MoE)的统一优化框架,通过动态专家分组与结构化压缩,系统性解决了MoE面临的负载失衡、参数冗余和通信开销“三难困境” [1][2] - 该框架在几乎不损失模型性能的前提下,实现了总参数量削减80%,负载方差降低至原来的三分之一,峰值内存消耗逼近轻量级传统稠密模型,吞吐量提升10%-20% [2][11][34] - 此项研究为大参数大语言模型(LLM)的低成本、高效率部署提供了新的技术路径和坚实的理论与实践基础 [2][12] 技术挑战与现有局限 - MoE作为大语言模型扩展参数量的核心路径,长期受困于负载失衡、参数冗余和通信开销的“三难困境”,这些瓶颈深度耦合、相互制约,成为大模型落地部署的主要障碍 [2][5] - 现有优化方案如负载均衡损失函数、参数压缩技术和通信感知路由多为碎片化的被动补救,未能从系统层面统一解决问题 [6] - 硬件限制具体表现为:MoE巨大参数量对GPU显存构成压力;传统Top-K路由导致计算资源利用率低;分布式训练中的“All-to-All”通信模式造成高昂延迟 [7] 核心方法:统一框架与四大组件 - 框架将MoE优化形式化为一个联合优化数学问题,目标函数同时最小化任务损失、负载不均衡、参数冗余和通信成本 [13] - **在线双相似度聚类**:通过融合专家的结构相似性(参数空间余弦相似度)和功能相似性(激活质心相似度),周期性地对专家进行动态重组,实现粗粒度负载均衡 [14][15][16] - **共享基底与低秩残差压缩**:将簇内专家权重矩阵分解为一个共享的公共基底和每个专家特有的低秩残差矩阵,在典型配置下(d=4096, K=8, r=16)实现簇内压缩比高达6.6倍 [18][19][20][23] - **分层路由**:将路由决策分解为簇级别路由和专家级别路由两个阶段,将路由计算复杂度从O(E·d)降低到O(G·d+K·d),显著减少了分布式环境中的通信数据交换 [24][26][29] - **异构精度与动态内存管理**:对共享基底采用FP16格式,对低秩残差因子量化至INT4格式,并结合动态内存卸载与预取策略,大幅降低峰值内存消耗 [30][31] 实验验证与性能收益 - 在GLUE和WikiText-103基准测试中,相较于基线模型Switch Transformer(总参数量875M),该框架(总参数量188M)在维持相近模型质量(GLUE Avg. 83.5 vs 85.1)的同时,总参数量减少约80% [33][34] - 框架实现了吞吐量提升10%-20%(从基线7.2-8.9 k tokens/s提升至8.5-10.2 k tokens/s),峰值内存消耗降低近50%(从基线33.1GB降低至19.2GB),启用动态卸载与量化后内存占用(15.7GB)可与标准稠密Transformer模型(15.4GB)相媲美 [33][34] - 消融实验证实,在线聚类、低秩压缩和分层路由等组件对性能增益均有不可或缺的贡献,例如移除在线聚类会导致负载均衡指标(Load Balance)从0.12恶化至0.37 [36][37]
中金 | 大模型系列(4):LLM动态模型配置
中金点睛· 2025-09-23 08:14
量化投资策略演进 - Alpha因子数量呈现指数级增长 但因子挖掘的边际效用递减 核心矛盾转向模型配置[2][5] - 不同因子合成模型在不同市场阶段表现差异明显 没有单一模型能始终适应所有市场环境[8][10][12] - 线性模型(IC加权、线性回归)在趋势明确市场表现更好 非线性模型(XGBoost)在市场结构变化时展现优势[7][10] 传统配置方法局限性 - 均值-方差模型对输入参数高度敏感 历史数据微小扰动会导致输出权重较大变化[14][15] - 机器学习集成方法存在"黑箱"问题 可解释性差 影响投资决策信任度[16] - 传统方法陷入"收益-可解释性-稳定性"不可能三角 需要新的配置方法[13][16] LLM研判推理框架 - 采用三层架构:训练层(多模型策略库)、分析层(自动化绩效分析)、决策层(LLM配置决策)[3][19][21] - 分析层生成结构化"绩效分析简报" 包含市场状态刻画和多维度绩效评估[24][25][28] - 决策层通过精心设计的Prompt引导LLM扮演投资经理 进行逻辑推理和权重分配[3][29][31] 框架实施效果 - 在沪深300成分股内回测显示年化超额收益达7.21% 信息比率0.68[41][44] - 最大回撤-9.47% 低于所有基准模型和等权基准的-10.50%[41][44] - 在2021年9月市场风格切换中成功规避回撤 通过高配XGB模型和低配IC模型[39][44] 框架优势特点 - 将模型配置从数值优化问题转变为逻辑推理任务 追求逻辑合理性而非数学最优解[18][25] - 决策过程透明可解释 输出包含精确权重和决策理由 建立人机信任[31][44] - 能够动态适应市场变化 根据市场状态调整模型权重配置[25][39] 未来优化方向 - 扩展基础模型库 加入深度学习模型和另类策略等低相关策略[44] - 丰富市场状态维度 融入宏观数据和情绪指标等另类数据[45]
20年后你会患哪些疾病?这款AI大模型登上Nature,能够预测上千种疾病风险
生物世界· 2025-09-19 12:04
文章核心观点 - 一款名为Delphi-2M的AI大模型能够通过分析个人医疗记录和生活方式,预测其在未来20年内患上多达1258种疾病的风险,生成完整的未来健康轨迹,这代表了疾病预测领域的重大突破 [2] 技术模型与开发 - 研究团队开发了名为Delphi-2M的AI大模型,该模型基于生成式预训练Transformer架构改进而成,具备一次性模拟和预测多种疾病的能力 [2][5] - 该模型利用来自英国生物样本库的40万名参与者的长期生物医学监测数据进行训练,数据涵盖个人病史、年龄、性别、体重指数及吸烟饮酒等健康习惯 [5] 模型性能与验证 - 对于大多数疾病,包括痴呆症、心血管疾病及死亡风险,Delphi-2M的预测准确性与当前用于评估单一疾病风险的模型相当甚至更高 [7] - 该模型的表现优于利用生物标志物来预测多种疾病风险的机器学习算法,其预测效果好得令研究团队惊讶 [7] - 在预测遵循可预测发展规律的疾病(如某些类型癌症)轨迹时,Delphi-2M效果最佳 [9] - 研究团队在丹麦国家患者登记处的190万份健康数据上测试了Delphi-2M,发现其预测结果仅略逊于对训练数据集的预测,表明模型在应用于其他国家卫生系统数据时仍能保持相对可靠的性能 [9] 研究意义与当前局限 - Delphi-2M能够为超过1000种疾病提供风险评估,并提前数十年做出精准预测,有助于医生和健康规划者更好地理解和应对个性化健康需求 [2] - 该模型解决了现有大多数AI工具只能评估单一疾病风险的问题,避免了医疗专业人员需运行数十种工具才能获得全面答案的困境 [5] - 模型当前的一个局限性在于其训练数据仅记录了参与者首次患病的情况,而一个人患病的次数对于健康轨迹建模非常重要 [9] - 研究团队表示将进一步使用来自多个国家的数据集评估Delphi-2M的预测准确性,以扩大其应用范围 [9]
DeepSeek团队发表重磅论文,《自然》配发社论狂赞呼吁同行效仿
扬子晚报网· 2025-09-18 21:19
研究论文发表 - DeepSeek-R1推理模型研究论文登上《自然(Nature)》封面 成为全球首个经过同行评审的主流大语言模型[2] - 论文披露更多模型训练细节 强调大语言模型推理能力可通过纯强化学习提升 减少人类输入工作量[2] - 训练出的模型在数学 编程竞赛和STEM领域研究生水平问题等任务上表现优于传统训练的LLM[2] 同行评审意义 - 《自然》配发社论强调同行评审对AI模型至关重要 指出目前几乎所有主流大模型都未经过独立同行评审[4] - 同行评审有助于厘清LLM工作原理并评估其是否真正实现宣称功能[6] - DeepSeek-R1成为目前唯一接受同行评审的大语言模型[6] 评审过程与改进 - R1模型经过八位专家评审 从原创性 方法学和鲁棒性等方面接受评估[9] - 公司提供减少数据污染的技术细节 并补充模型发布后新基准评估结果[9] - 同行评审促使论文作出重要修改 所有举措被视作迈向透明化与可复现性的进步[9] 行业影响与呼吁 - 《自然》呼吁其他AI公司效仿DeepSeek做法 将AI模型开发纳入科学研究规范框架[10] - 开放模型允许更广泛群体发现并修复缺陷 虽存在安全争议但具有积极意义[10] - 若同行评审形成趋势 将极大促进AI行业健康发展 DeepSeek-R1被期待成为首个而非最后一个案例[10]
链接全球!腾讯云海外客户规模一年翻番
搜狐财经· 2025-09-17 07:18
公司业绩表现 - 腾讯云国际业务2025年Q2收入同比大幅增长 [1] - 腾讯云海外客户规模过去一年同比翻番 [1] - 过去3年腾讯云国际业务持续高双位数增长 [1] 市场地位与客户覆盖 - 90%以上互联网企业和95%以上头部游戏公司出海选择腾讯云 [1] - 海外客户覆盖80多个国家和地区 [2] - 与GoTo集团、正大集团、e&UAE、Orange、Com2uS等国际知名企业达成深度合作 [2] 产品与技术优势 - 边缘安全加速平台EdgeOne结合大语言模型推出EdgeOne Pages [1] - 新产品上线3个月已助力超10万用户走向全球市场 [1] - 拥有遍布全球21个地区超3200个全球加速节点的基础设施 [2] 全球扩张计划 - 将新增沙特和大阪数据中心 [2] - 通过本地化服务网络和具有竞争力的产品方案拓展国际市场 [2]
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
机器之心· 2025-09-12 08:51
文章核心观点 - 提出名为EviNote-RAG的全新检索增强生成框架,旨在解决现有RAG系统在复杂任务中面临的低信噪比和错误累计两大核心痛点 [4] - 该框架通过引入支持性证据笔记和证据质量奖励两大创新,将传统流程重构为“检索-笔记-回答”三阶段,实现了性能的显著提升和训练稳定性的质的飞跃 [5][14][17] - 在多个权威开放域问答基准测试中取得突破性表现,尤其在多跳和跨域复杂推理任务上提升显著,例如在2Wiki数据集上F1分数相对提升91% [7][25] 研究背景与动机 - 现有RAG系统存在低信噪比问题,即关键信息淹没在冗余文档中,以及错误累计问题,即推理错误在多跳链路中放大,制约了其在复杂任务中的可靠性 [4][10][16] - 过往研究尝试改进检索质量或引入规则缓解问题,但缺乏端到端、稳健且可泛化的解决方案,推动RAG演进需从根本上突破这两大瓶颈 [10] 技术方案与创新 - 核心创新是支持性证据笔记模块,模仿人类做笔记习惯,用结构化方式过滤噪声并标记不确定信息,从源头缓解低信噪比问题 [5][17][20] - 另一核心创新是证据质量奖励机制,通过轻量级自然语言推理模型作为“蕴含判别器”,确保生成的笔记能逻辑上支撑最终答案,减轻错误累计风险 [5][17][20] - 两大创新协同作用,形成“检索-笔记-回答”新范式,取代传统的“检索-回答”范式,为模型提供更密集、高质量的学习信号 [14][17][19] 实验表现与性能 - 在7个主流开放域问答基准数据集上测试,涵盖同分布和跨域任务,评价指标包括F1和精确匹配 [24] - 在HotpotQA多跳推理任务上,F1分数相比基础模型提升0.093,相对提升20%;在Bamboogle跨域复杂问答上F1提升0.151,相对提升40%;在2Wiki多跳跨域问答上F1提升0.256,相对提升91% [7][25] - 综合性能表现超越多种现有先进方法,包括基于提示的代理RAG和基于强化学习的代理RAG [24] 训练稳定性与效率 - EviNote-RAG彻底改变了传统RAG训练不稳定的局面,训练曲线从动荡转向平滑,优化过程更稳健 [27][39] - 关键发现指出稳定性源于结构化指令而非奖励本身,通过“先做笔记、再回答”的流程显式约束推理证据 [28] - 支持性证据笔记在训练早期过滤无关证据,使输出更简洁,显著降低推理时延,提升计算效率 [29][40] 消融实验与机制验证 - 消融实验表明,支持性证据笔记是性能提升的基石,能显著过滤噪声增强答案相关性;证据质量奖励则是质量提升的关键,进一步稳定复杂推理 [38][41][45] - 对比实验证明,强行要求输出总结的策略反而因奖励稀疏导致性能下降,而支持性证据笔记结合证据质量奖励的方案在稳定性和准确性上均达最佳 [38][42] - 结构化证据组织与逻辑监督被验证是突破RAG在噪声环境中性能瓶颈的关键 [43]
攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL
36氪· 2025-09-10 17:53
大语言模型推理能力挑战 - 当前大语言模型在复杂代码、多步逻辑和抽象任务中经常出现逻辑跳跃、步骤混乱和答非所问等问题 [1] - 现有方法难以兼顾推理能力、训练效率与通用性 面临奖励信号差异微弱、计算成本高、泛化能力差以及数据标注成本高等难题 [1][3][4] 清华大学ReST-RL新方法 - 提出统一的强化学习新范式ReST-RL 将改进的GRPO算法与价值模型辅助的测试时解码方法相结合 [1] - 方法包含ReST-GRPO和VM-MCTS两个核心组件 分别针对训练和推理阶段进行优化 [5] - ReST-GRPO通过策略自身筛选训练数据 剔除奖励标准差低于阈值σ₀的提示语 聚焦高奖励解答轨迹 [6] - VM-MCTS在解码阶段使用价值模型提供验证信号并引导推理路径探索 通过MCTS平衡探索与利用 [9] 实验性能表现 - 在APPS、BigCodeBench和HumanEval等编程基准上优于其他强化训练基线和解码验证基线 [2] - ReST-GRPO相比原始GRPO和DAPO在相同训练步数下拥有更高训练效率 [10] - VM-MCTS在相同验证预算条件下准确性优于基于公开数据训练的Math-Shepherd风格PRM或ORM [10] 方法局限性 - 尚未在数学推理和常识推理等代码以外任务中验证有效性 [13] - 价值模型在域外任务中的准确性缺乏充分研究 [14] - 部分实验设置对最终结果的影响尚未得到系统性分析 [13]