大语言模型(LLM)
搜索文档
从组件到系统,Agent 的 Evaluation 怎么做?
机器之心· 2025-10-12 09:27
Agent评估范式的演进与挑战 - Agentic AI的兴起将AI系统重心从被动生成文本的大语言模型转向能够自主规划、行动并与数字世界交互的AI Agent,拓宽了AI的应用边界[3] - 相比评估LLM,Agent评估的目标是衡量完整自主系统在动态环境中实现特定目标的端到端成功率、可靠性和效率,其最终表现是架构、LLM、工具及环境交互后涌现的综合属性[5][6] - Agent评估焦点从模型本身转移到模型与环境交互产生的实际效果,必须考察其完整行为过程而不仅仅是单一文本输出质量,传统面向LLM的评估方法无法直接沿用[7] 各代AI评估范式差异 - LLM评估代际的代表性工作包括MMLU、GLUE、TruthfulQA,评估目标为生成能力、零/少试泛化能力,但无法衡量行动能力且知识静态、易被污染[10] - 初代Agent评估的代表性工作包括GAIA、AgentBench、WebArena,评估目标为多步推理、工具熟练度、客观答案,但环境为“只读”、缺乏对动态性和状态变化的感知,无法评估时间敏感性任务[10] - 新一代Agent评估的代表性工作包括GAIA2、MCP-Universe、mcpmark,评估目标为动态/异步环境、状态化交互、通过MCP连接真实工具,但缺乏对长程任务、工具泛化、多智能体协作及效率、安全与成本综合考量等方面的评估[10] Agent评估的技术发展现状 - 业界愈发关注好的Agent评估方法,并涌现了GAIA系列、MCP-universe、MCPMark、MCP-AgentBench等工作[8] - 归因于数据泄露和模型能力快速提升,LLM基准正以越来越快速度被LLMs解决到接近人类水平,甚至无法继续用于验证LLM能力[11] - Agent核心价值体现于它能“做什么”,其定义以自主性、规划和与环境互动实现目标的能力展开,因此面向Agent的评估范式必须能够衡量这些以行动为导向的核心能力[11]
破解MoE模型“规模越大,效率越低”困境!中科院自动化所提出新框架
量子位· 2025-10-11 09:15
下面详细来看—— 一套统一框架直击MoE底层运作模式 随着LLM参数规模的持续扩张,模型规模增长与计算效率优化难以协同推进的核心挑战逐渐显现,混合专家模型(MoE)作为一种稀疏激活架 构,为模型规模的持续扩展提供了理论上极具吸引力的技术途径。 中科院自动化所团队 投稿 量子位 | 公众号 QbitAI 大模型参数量飙升至千亿、万亿级,却陷入"规模越大,效率越低" 困境? 中科院自动化所新研究给出破局方案—— 首次让MoE专家告别"静态孤立",开启动态"组队学习" 。 具体而言,MoE本是大语言模型(LLM)实现参数量扩张且计算成本仅呈线性增长的核心路径,却长期受困于负载失衡、参数冗余、通信开销 的"三难困境",成为大模型落地部署的主要瓶颈。 而中科院自动化所的研究团队通过专家集群动态重组,不仅让大模型总参数量 直降80% ,负载方差 降低至原来的三分之一 ,消耗内存更 直 逼轻量级传统稠密模型 ,更一举达成通信延迟、负载均衡、内存占用的三重优化,为大参数LLM的低成本部署提供了新路径。 例如,负载均衡损失函数是一种被动的补偿机制;参数压缩技术(如MoE-Lite)虽减少了参数,却将专家视为独立的实体,忽视了其 ...
中金 | 大模型系列(4):LLM动态模型配置
中金点睛· 2025-09-23 08:14
量化投资策略演进 - Alpha因子数量呈现指数级增长 但因子挖掘的边际效用递减 核心矛盾转向模型配置[2][5] - 不同因子合成模型在不同市场阶段表现差异明显 没有单一模型能始终适应所有市场环境[8][10][12] - 线性模型(IC加权、线性回归)在趋势明确市场表现更好 非线性模型(XGBoost)在市场结构变化时展现优势[7][10] 传统配置方法局限性 - 均值-方差模型对输入参数高度敏感 历史数据微小扰动会导致输出权重较大变化[14][15] - 机器学习集成方法存在"黑箱"问题 可解释性差 影响投资决策信任度[16] - 传统方法陷入"收益-可解释性-稳定性"不可能三角 需要新的配置方法[13][16] LLM研判推理框架 - 采用三层架构:训练层(多模型策略库)、分析层(自动化绩效分析)、决策层(LLM配置决策)[3][19][21] - 分析层生成结构化"绩效分析简报" 包含市场状态刻画和多维度绩效评估[24][25][28] - 决策层通过精心设计的Prompt引导LLM扮演投资经理 进行逻辑推理和权重分配[3][29][31] 框架实施效果 - 在沪深300成分股内回测显示年化超额收益达7.21% 信息比率0.68[41][44] - 最大回撤-9.47% 低于所有基准模型和等权基准的-10.50%[41][44] - 在2021年9月市场风格切换中成功规避回撤 通过高配XGB模型和低配IC模型[39][44] 框架优势特点 - 将模型配置从数值优化问题转变为逻辑推理任务 追求逻辑合理性而非数学最优解[18][25] - 决策过程透明可解释 输出包含精确权重和决策理由 建立人机信任[31][44] - 能够动态适应市场变化 根据市场状态调整模型权重配置[25][39] 未来优化方向 - 扩展基础模型库 加入深度学习模型和另类策略等低相关策略[44] - 丰富市场状态维度 融入宏观数据和情绪指标等另类数据[45]
20年后你会患哪些疾病?这款AI大模型登上Nature,能够预测上千种疾病风险
生物世界· 2025-09-19 12:04
撰文丨王聪 编辑丨王多鱼 排版丨水成文 20 年后,你会患上哪些疾病 ?这个看似无法回答的问题如今可能有了答案—— 一款名为 Delphi-2M 的 AI 大模型能够 通过分析一个人的医疗记录和生活方式,为超过 1000 种疾病提供风险评估,甚至能够提前数十年做出精准预测。 这项研究于 2025 年 9 月 17 日 发表在了国际顶尖学术期刊 Nature 上 ,论文题为: Learning the natural history of human disease with generative transformers ,研究团队 来自 德国癌症研究中心 (DKFZ) 、 欧洲分子生物学实验室欧洲生物信息学研究所 (EMBL-EBI) 、哥本哈根大学。 该研究开发了一款名为 Delphi-2M 的 AI 大模型,具有 令人惊叹的一次性模拟和预测多种疾病的能力, 利用健康记录和生活方式因素来预测一个人在未来 20 年 内患上癌症、皮肤病、免疫疾病等多达 1258 种疾病的可能性,从而 生成完整的未来健康轨迹,帮助 医生和健康规划者更好地理解和应对个性化健康需求。 对于大多数疾病 (包括痴呆症、心血管疾病以及死 ...
DeepSeek团队发表重磅论文,《自然》配发社论狂赞呼吁同行效仿
扬子晚报网· 2025-09-18 21:19
研究论文发表 - DeepSeek-R1推理模型研究论文登上《自然(Nature)》封面 成为全球首个经过同行评审的主流大语言模型[2] - 论文披露更多模型训练细节 强调大语言模型推理能力可通过纯强化学习提升 减少人类输入工作量[2] - 训练出的模型在数学 编程竞赛和STEM领域研究生水平问题等任务上表现优于传统训练的LLM[2] 同行评审意义 - 《自然》配发社论强调同行评审对AI模型至关重要 指出目前几乎所有主流大模型都未经过独立同行评审[4] - 同行评审有助于厘清LLM工作原理并评估其是否真正实现宣称功能[6] - DeepSeek-R1成为目前唯一接受同行评审的大语言模型[6] 评审过程与改进 - R1模型经过八位专家评审 从原创性 方法学和鲁棒性等方面接受评估[9] - 公司提供减少数据污染的技术细节 并补充模型发布后新基准评估结果[9] - 同行评审促使论文作出重要修改 所有举措被视作迈向透明化与可复现性的进步[9] 行业影响与呼吁 - 《自然》呼吁其他AI公司效仿DeepSeek做法 将AI模型开发纳入科学研究规范框架[10] - 开放模型允许更广泛群体发现并修复缺陷 虽存在安全争议但具有积极意义[10] - 若同行评审形成趋势 将极大促进AI行业健康发展 DeepSeek-R1被期待成为首个而非最后一个案例[10]
链接全球!腾讯云海外客户规模一年翻番
搜狐财经· 2025-09-17 07:18
公司业绩表现 - 腾讯云国际业务2025年Q2收入同比大幅增长 [1] - 腾讯云海外客户规模过去一年同比翻番 [1] - 过去3年腾讯云国际业务持续高双位数增长 [1] 市场地位与客户覆盖 - 90%以上互联网企业和95%以上头部游戏公司出海选择腾讯云 [1] - 海外客户覆盖80多个国家和地区 [2] - 与GoTo集团、正大集团、e&UAE、Orange、Com2uS等国际知名企业达成深度合作 [2] 产品与技术优势 - 边缘安全加速平台EdgeOne结合大语言模型推出EdgeOne Pages [1] - 新产品上线3个月已助力超10万用户走向全球市场 [1] - 拥有遍布全球21个地区超3200个全球加速节点的基础设施 [2] 全球扩张计划 - 将新增沙特和大阪数据中心 [2] - 通过本地化服务网络和具有竞争力的产品方案拓展国际市场 [2]
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
机器之心· 2025-09-12 08:51
文章核心观点 - 提出名为EviNote-RAG的全新检索增强生成框架,旨在解决现有RAG系统在复杂任务中面临的低信噪比和错误累计两大核心痛点 [4] - 该框架通过引入支持性证据笔记和证据质量奖励两大创新,将传统流程重构为“检索-笔记-回答”三阶段,实现了性能的显著提升和训练稳定性的质的飞跃 [5][14][17] - 在多个权威开放域问答基准测试中取得突破性表现,尤其在多跳和跨域复杂推理任务上提升显著,例如在2Wiki数据集上F1分数相对提升91% [7][25] 研究背景与动机 - 现有RAG系统存在低信噪比问题,即关键信息淹没在冗余文档中,以及错误累计问题,即推理错误在多跳链路中放大,制约了其在复杂任务中的可靠性 [4][10][16] - 过往研究尝试改进检索质量或引入规则缓解问题,但缺乏端到端、稳健且可泛化的解决方案,推动RAG演进需从根本上突破这两大瓶颈 [10] 技术方案与创新 - 核心创新是支持性证据笔记模块,模仿人类做笔记习惯,用结构化方式过滤噪声并标记不确定信息,从源头缓解低信噪比问题 [5][17][20] - 另一核心创新是证据质量奖励机制,通过轻量级自然语言推理模型作为“蕴含判别器”,确保生成的笔记能逻辑上支撑最终答案,减轻错误累计风险 [5][17][20] - 两大创新协同作用,形成“检索-笔记-回答”新范式,取代传统的“检索-回答”范式,为模型提供更密集、高质量的学习信号 [14][17][19] 实验表现与性能 - 在7个主流开放域问答基准数据集上测试,涵盖同分布和跨域任务,评价指标包括F1和精确匹配 [24] - 在HotpotQA多跳推理任务上,F1分数相比基础模型提升0.093,相对提升20%;在Bamboogle跨域复杂问答上F1提升0.151,相对提升40%;在2Wiki多跳跨域问答上F1提升0.256,相对提升91% [7][25] - 综合性能表现超越多种现有先进方法,包括基于提示的代理RAG和基于强化学习的代理RAG [24] 训练稳定性与效率 - EviNote-RAG彻底改变了传统RAG训练不稳定的局面,训练曲线从动荡转向平滑,优化过程更稳健 [27][39] - 关键发现指出稳定性源于结构化指令而非奖励本身,通过“先做笔记、再回答”的流程显式约束推理证据 [28] - 支持性证据笔记在训练早期过滤无关证据,使输出更简洁,显著降低推理时延,提升计算效率 [29][40] 消融实验与机制验证 - 消融实验表明,支持性证据笔记是性能提升的基石,能显著过滤噪声增强答案相关性;证据质量奖励则是质量提升的关键,进一步稳定复杂推理 [38][41][45] - 对比实验证明,强行要求输出总结的策略反而因奖励稀疏导致性能下降,而支持性证据笔记结合证据质量奖励的方案在稳定性和准确性上均达最佳 [38][42] - 结构化证据组织与逻辑监督被验证是突破RAG在噪声环境中性能瓶颈的关键 [43]
攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL
36氪· 2025-09-10 17:53
大语言模型推理能力挑战 - 当前大语言模型在复杂代码、多步逻辑和抽象任务中经常出现逻辑跳跃、步骤混乱和答非所问等问题 [1] - 现有方法难以兼顾推理能力、训练效率与通用性 面临奖励信号差异微弱、计算成本高、泛化能力差以及数据标注成本高等难题 [1][3][4] 清华大学ReST-RL新方法 - 提出统一的强化学习新范式ReST-RL 将改进的GRPO算法与价值模型辅助的测试时解码方法相结合 [1] - 方法包含ReST-GRPO和VM-MCTS两个核心组件 分别针对训练和推理阶段进行优化 [5] - ReST-GRPO通过策略自身筛选训练数据 剔除奖励标准差低于阈值σ₀的提示语 聚焦高奖励解答轨迹 [6] - VM-MCTS在解码阶段使用价值模型提供验证信号并引导推理路径探索 通过MCTS平衡探索与利用 [9] 实验性能表现 - 在APPS、BigCodeBench和HumanEval等编程基准上优于其他强化训练基线和解码验证基线 [2] - ReST-GRPO相比原始GRPO和DAPO在相同训练步数下拥有更高训练效率 [10] - VM-MCTS在相同验证预算条件下准确性优于基于公开数据训练的Math-Shepherd风格PRM或ORM [10] 方法局限性 - 尚未在数学推理和常识推理等代码以外任务中验证有效性 [13] - 价值模型在域外任务中的准确性缺乏充分研究 [14] - 部分实验设置对最终结果的影响尚未得到系统性分析 [13]
ICLR 2026史上最严新规:论文用LLM不报,直接拒稿
36氪· 2025-08-29 11:23
ICLR 2026新规上线,最严「AI管制令」来了!组委会只有两大要求:用LLM写论文、审稿,必须摆出来;所有人要对内容全负责。严重违规 的,直接拒稿没商量。 下一届ICLR,出台新规了! 28日,ICLR 2026官方组委会正式发布了一项「LLM使用新政」,严格规定: 也就是说,不论是写稿的,还是审稿的,用了AI一定要明示。而且,论文中「提示注入」明令禁止。 今年4月,ICLR 2025在新加坡博览中心召开,共收到了11,565份投稿,录用率32.08%。 ICLR 2025总投稿数,首次破万(去年7304) 明年,ICLR 2026 将于4月23日-27日在巴西里约热内卢召开。 只要用了LLM的,就必须论文中「致谢」 ICLR的作者和审稿人,最终要对自己的贡献负全责 按规划,提交论文的ddl还有四周。 在提交论文之前,先来看看ICLR 2026最新规定,具体讲了啥? | Dates and Deadlines | | | | --- | --- | --- | | Paper Submissions | | | | Abstract Submission Deadline | Sep 19 '25 (An ...
晚点独家丨理想自研智驾芯片上车路测,部分计算性能超英伟达 Thor-U
晚点LatePost· 2025-08-28 14:09
核心观点 - 理想汽车自研智驾芯片M100取得关键进展 预计明年量产上车 其采用软硬结合研发策略 目标是通过软件调度提升硬件算力利用率 在性能上实现对竞争对手的降维打击 [4][6][7] 芯片研发进展 - M100于今年一季度样片回片 完成功能测试和性能测试后已小批量上样车做道路测试 [4] - 在处理大语言模型计算任务时 1颗M100有效算力相当于2颗英伟达Thor-U 在处理传统视觉任务时 1颗M100有效算力可对标3颗英伟达Thor-U [4] - 芯片研发耗资巨大 项目规划资金预算达数十亿美元 [6] 技术战略 - 采用软硬结合研发策略 通过软件调度能力提升芯片硬件算力利用率 [6] - 研发工作包括NPU SoC等硬件以及软件开发与适配 是一个多层次的解决方案 [6] - 智驾芯片设计与Transformer架构密切相关 需要原生高效支持FP4 FP6等超低精度优化 [7] 产品策略 - 采取两条腿走路策略 一方面用外部方案确保当下市场竞争力 另一方面用自研芯片谋求未来核心优势 [7] - 纯电车型倾向于搭载英伟达高算力芯片 如MEGA i8全系搭载英伟达Thor-U i6也有意全系搭载 [7] - L系列增程车型根据AD Max和AD Pro版本分别搭载英伟达Thor-U或地平线征程6M [8] 研发背景 - 理想汽车CTO谢炎主要推动软硬结合研发策略 其拥有编译器技术背景 曾任AliOS首席架构师 华为终端OS部部长等职 [6] - 自研智驾芯片核心原因是作为专用芯片能够针对公司算法进行特定优化 性价比和效率都很高 [8] - 目前仍使用英伟达芯片是因为其对新的算子支持较好 算力充足 且算法仍处于迭代过程中 [8]