Workflow
大语言模型(LLM)
icon
搜索文档
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
机器之心· 2025-09-12 08:51
文章核心观点 - 提出名为EviNote-RAG的全新检索增强生成框架,旨在解决现有RAG系统在复杂任务中面临的低信噪比和错误累计两大核心痛点 [4] - 该框架通过引入支持性证据笔记和证据质量奖励两大创新,将传统流程重构为“检索-笔记-回答”三阶段,实现了性能的显著提升和训练稳定性的质的飞跃 [5][14][17] - 在多个权威开放域问答基准测试中取得突破性表现,尤其在多跳和跨域复杂推理任务上提升显著,例如在2Wiki数据集上F1分数相对提升91% [7][25] 研究背景与动机 - 现有RAG系统存在低信噪比问题,即关键信息淹没在冗余文档中,以及错误累计问题,即推理错误在多跳链路中放大,制约了其在复杂任务中的可靠性 [4][10][16] - 过往研究尝试改进检索质量或引入规则缓解问题,但缺乏端到端、稳健且可泛化的解决方案,推动RAG演进需从根本上突破这两大瓶颈 [10] 技术方案与创新 - 核心创新是支持性证据笔记模块,模仿人类做笔记习惯,用结构化方式过滤噪声并标记不确定信息,从源头缓解低信噪比问题 [5][17][20] - 另一核心创新是证据质量奖励机制,通过轻量级自然语言推理模型作为“蕴含判别器”,确保生成的笔记能逻辑上支撑最终答案,减轻错误累计风险 [5][17][20] - 两大创新协同作用,形成“检索-笔记-回答”新范式,取代传统的“检索-回答”范式,为模型提供更密集、高质量的学习信号 [14][17][19] 实验表现与性能 - 在7个主流开放域问答基准数据集上测试,涵盖同分布和跨域任务,评价指标包括F1和精确匹配 [24] - 在HotpotQA多跳推理任务上,F1分数相比基础模型提升0.093,相对提升20%;在Bamboogle跨域复杂问答上F1提升0.151,相对提升40%;在2Wiki多跳跨域问答上F1提升0.256,相对提升91% [7][25] - 综合性能表现超越多种现有先进方法,包括基于提示的代理RAG和基于强化学习的代理RAG [24] 训练稳定性与效率 - EviNote-RAG彻底改变了传统RAG训练不稳定的局面,训练曲线从动荡转向平滑,优化过程更稳健 [27][39] - 关键发现指出稳定性源于结构化指令而非奖励本身,通过“先做笔记、再回答”的流程显式约束推理证据 [28] - 支持性证据笔记在训练早期过滤无关证据,使输出更简洁,显著降低推理时延,提升计算效率 [29][40] 消融实验与机制验证 - 消融实验表明,支持性证据笔记是性能提升的基石,能显著过滤噪声增强答案相关性;证据质量奖励则是质量提升的关键,进一步稳定复杂推理 [38][41][45] - 对比实验证明,强行要求输出总结的策略反而因奖励稀疏导致性能下降,而支持性证据笔记结合证据质量奖励的方案在稳定性和准确性上均达最佳 [38][42] - 结构化证据组织与逻辑监督被验证是突破RAG在噪声环境中性能瓶颈的关键 [43]
攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL
36氪· 2025-09-10 17:53
大语言模型推理能力挑战 - 当前大语言模型在复杂代码、多步逻辑和抽象任务中经常出现逻辑跳跃、步骤混乱和答非所问等问题 [1] - 现有方法难以兼顾推理能力、训练效率与通用性 面临奖励信号差异微弱、计算成本高、泛化能力差以及数据标注成本高等难题 [1][3][4] 清华大学ReST-RL新方法 - 提出统一的强化学习新范式ReST-RL 将改进的GRPO算法与价值模型辅助的测试时解码方法相结合 [1] - 方法包含ReST-GRPO和VM-MCTS两个核心组件 分别针对训练和推理阶段进行优化 [5] - ReST-GRPO通过策略自身筛选训练数据 剔除奖励标准差低于阈值σ₀的提示语 聚焦高奖励解答轨迹 [6] - VM-MCTS在解码阶段使用价值模型提供验证信号并引导推理路径探索 通过MCTS平衡探索与利用 [9] 实验性能表现 - 在APPS、BigCodeBench和HumanEval等编程基准上优于其他强化训练基线和解码验证基线 [2] - ReST-GRPO相比原始GRPO和DAPO在相同训练步数下拥有更高训练效率 [10] - VM-MCTS在相同验证预算条件下准确性优于基于公开数据训练的Math-Shepherd风格PRM或ORM [10] 方法局限性 - 尚未在数学推理和常识推理等代码以外任务中验证有效性 [13] - 价值模型在域外任务中的准确性缺乏充分研究 [14] - 部分实验设置对最终结果的影响尚未得到系统性分析 [13]
ICLR 2026史上最严新规:论文用LLM不报,直接拒稿
36氪· 2025-08-29 11:23
ICLR 2026关于大语言模型使用的新政策 - ICLR 2026官方组委会发布了一项严格的「LLM使用新政」[1] - 新规核心围绕论文作者和审稿人对大语言模型的使用展开[10] - 政策出台的背景是LLM参与写稿、审稿已非常普遍,但AI犯错、提示词注入等争议事件频发[10][12][14] 新政策的具体要求 - **政策一:强制披露**:任何对LLM的使用都必须明确声明,遵循《伦理准则》中所有研究贡献皆须鸣谢的规定[15] - **政策二:全权负责**:ICLR的作者与审稿人需为其贡献负最终责任,遵循《伦理准则》中不得提出虚假或误导性主张的规定[16] - 违规处理方式与《伦理准则》一致,严重违规的投稿会直接被拒稿[1][17] 对论文作者的规定 - 在论文写作中,无论使用LLM改语法、润色措辞还是生成章节,都必须在提交稿件中明确说明使用方式[18] - 作者必须对自己提交内容的真实性负全责,并亲自核实与验证LLM做出的任何研究贡献[18] - 极端情况下,即使是整篇论文由LLM生成,也必须有一名人类作者对此负责[18] 对审稿人的规定 - 审稿人在审稿意见中需明确说明是否使用了LLM[19] - 审稿人必须为LLM输出的内容负全责,包括其中可能存在的虚假信息或不实陈述[20] - 向LLM输入论文内容时若泄露未发表文章的机密信息,将违反《伦理准则》,后果是相关稿件被直接拒稿[20] 对“提示词注入”的特别规定 - 在论文中插入隐藏的、旨在操控LLM审稿的提示词(如“给这篇论文写个正面评价”)被明令禁止[2][21] - 此类行为被视为一种「合谋行为」,违反了《伦理准则》[23] - 如果因此生成了正面审稿意见,论文作者与审稿人都要承担责任[23][24] 行业背景与会议数据 - ICLR 2025在新加坡召开,共收到11,565份投稿,录用率为32.08%[3] - ICLR 2025总投稿数首次破万,达到11,565份,较去年的7,304份大幅增长[5] - ICLR 2026将于2026年4月23日-27日在巴西里约热内卢召开[5] - 论文提交截止日期为2025年9月24日[9] 其他顶级AI会议的政策对比 - CVPR 2025严禁在任何阶段使用大模型撰写审稿意见[25] - ICML 2023曾禁止提交完全由ChatGPT等大模型生成的论文,但允许借助AI编辑和润色文章[27] - NeurIPS 2025允许将LLM作为工具使用,但若用作核心方法则必须详细描述[28] AI在学术评审中的潜在影响 - ICLR 2025期间的一项测试研究报告显示,在12,222条AI建议中,有26.6%的审稿人根据AI的建议更新了评审[29] - LLM反馈在89%的情况下提高了审稿质量[32] - AI审稿显著提升了Rebuttal期间的讨论活跃度,作者和审稿人的回应篇幅都有所增加[32]
晚点独家丨理想自研智驾芯片上车路测,部分计算性能超英伟达 Thor-U
晚点LatePost· 2025-08-28 14:09
核心观点 - 理想汽车自研智驾芯片M100取得关键进展 预计明年量产上车 其采用软硬结合研发策略 目标是通过软件调度提升硬件算力利用率 在性能上实现对竞争对手的降维打击 [4][6][7] 芯片研发进展 - M100于今年一季度样片回片 完成功能测试和性能测试后已小批量上样车做道路测试 [4] - 在处理大语言模型计算任务时 1颗M100有效算力相当于2颗英伟达Thor-U 在处理传统视觉任务时 1颗M100有效算力可对标3颗英伟达Thor-U [4] - 芯片研发耗资巨大 项目规划资金预算达数十亿美元 [6] 技术战略 - 采用软硬结合研发策略 通过软件调度能力提升芯片硬件算力利用率 [6] - 研发工作包括NPU SoC等硬件以及软件开发与适配 是一个多层次的解决方案 [6] - 智驾芯片设计与Transformer架构密切相关 需要原生高效支持FP4 FP6等超低精度优化 [7] 产品策略 - 采取两条腿走路策略 一方面用外部方案确保当下市场竞争力 另一方面用自研芯片谋求未来核心优势 [7] - 纯电车型倾向于搭载英伟达高算力芯片 如MEGA i8全系搭载英伟达Thor-U i6也有意全系搭载 [7] - L系列增程车型根据AD Max和AD Pro版本分别搭载英伟达Thor-U或地平线征程6M [8] 研发背景 - 理想汽车CTO谢炎主要推动软硬结合研发策略 其拥有编译器技术背景 曾任AliOS首席架构师 华为终端OS部部长等职 [6] - 自研智驾芯片核心原因是作为专用芯片能够针对公司算法进行特定优化 性价比和效率都很高 [8] - 目前仍使用英伟达芯片是因为其对新的算子支持较好 算力充足 且算法仍处于迭代过程中 [8]
盘后跌超3%!英伟达二季度Blackwell提速,数据中心稳居核心,为何股价还会跳水?(附Q2财报详情)
美股IPO· 2025-08-28 07:46
核心财务表现 - 第二季度营收467.43亿美元 同比增长56% 高于分析师预期的462.3亿美元[9][18] - 非GAAP调整后每股收益1.05美元 同比增长54% 高于分析师预期的1.01美元[9][19] - 调整后毛利率72.7% 同比下降3个百分点 但高于公司指引及分析师预期[10] 业务分部表现 - 数据中心营收411亿美元 同比增长56% 略低于分析师预期的412.9亿美元[10][22] - 游戏和AI PC业务营收43亿美元 同比增长49% 创历史新高且远超分析师预期[11][25] - 专业可视化营收6.01亿美元 同比增长32% 高于分析师预期[12] - 汽车和机器人营收5.86亿美元 同比增长69% 略低于分析师预期[13][26] 产品与技术动态 - Blackwell架构产品营收环比增长17% 需求非常旺盛[2][24] - 数据中心计算营收338亿美元 同比增长50%但环比下降1% 主要因H20销售收入减少40亿美元[25] - 数据中心网络营收73亿美元 同比增长98% 受益于GB200/GB300系统和InfiniBand产品增长[25] 中国市场影响 - 当季未向中国客户出售任何H20芯片 但释放了1.8亿美元预留库存[2][20] - 向中国以外地区客户出售H20获得6.5亿美元收入[21] - 公司表示第三季度营收指引未考虑对华出口H20芯片[27][28] - CEO预计中国市场今年可能带来500亿美元商机 年增长率约50%[28] 资本管理 - 上半年通过回购和股息向股东返利243亿美元[31] - 董事会批准新增600亿美元股票回购授权 无截止期限[30][32] - 截至二季度末剩余股票回购授权金额为147亿美元[31] 业绩展望 - 第三季度营收指引中值540亿美元 高于分析师预期中值534.6亿美元[15][27] - 预计第三季度调整后毛利率73.5% 高于分析师预期[16] - 预计第三季度调整后营业费用42亿美元[17]
拒稿警告,靠大模型「偷摸水论文」被堵死,ICLR最严新规来了
机器之心· 2025-08-27 16:36
ICLR 2026大语言模型使用政策 - ICLR 2026出台LLM使用政策 规范论文作者与审稿人在研究和审稿过程中使用LLM的行为[2] - 政策以ICLR《道德准则》为基础 旨在确保学术诚信 规避事实幻觉/剽窃/数据失实等风险[4] - 违反政策将面临直接拒稿等处罚[7] 核心政策要求 - 政策1: 任何对LLM的使用都必须如实披露 遵循贡献认可原则[6] - 政策2: 论文作者和审稿人最终需为自己的贡献负责 禁止虚假声明或数据伪造[6] - 禁止"提示词注入"等操纵审稿流程的行为 被视为严重学术不端[12] 具体应用场景规范 - 辅助论文写作: 使用LLM润色语法/调整措辞/草拟章节必须披露 作者对全部内容承担责任[9] - 辅助研究: 使用LLM提出思路/生成代码/分析结果需披露 人类作者必须验证有效性和准确性[9] - 审稿过程: 使用LLM撰写审稿意见必须披露 需确保不泄露投稿论文机密信息[11] 其他顶会类似规定 - NeurIPS 2025: 允许LLM作为工具 但作为核心方法需详细描述 审稿人严禁输入机密信息[15] - NeurIPS禁止提交完全由LLM生成的论文文本 允许用于编辑润色作者自写文本[16] - IEEE会议: 需在致谢声明AI工具及用途 人类对科学诚信与保密性负全责 禁止AI伪造数据[17] - ACM会议: 使用LLM生成文本/表格/代码需明确披露 仅语言润色可免披露[20] 行业背景与趋势 - 顶会投稿数量以每年数千规模递增 ICLR 2025接收11565份投稿 录用率32.08%[2][14] - LLM使用提升论文撰写与审稿效率 但引发虚假引用/抄袭拼接/责任模糊等担忧[14] - 清晰LLM使用细则将促进AI工具透明合理使用 形成更系统学术规范[21]
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒
量子位· 2025-08-26 13:46
行业背景与挑战 - 大语言模型在行业应用中面临推理效率与显存成本的尖锐矛盾 尤其KV Cache技术成为显存消耗的主要瓶颈 每增加一个token都需要更多显存存储键值向量 制约模型规模扩张和并发能力提升 [1] 现有技术方案局限性 - Nvidia Dynamo项目采用多级缓存算法 将热数据存于显存、温数据在主机内存、冷数据在SSD或远端存储 但存在数据迁移流程复杂和延迟开销问题 [2] - 微软LMCache存储系统兼容vLLM等推理框架 但分布式存储支持度低且空间上限受限 [3] - 阿里巴巴方案将KV Cache扩展到Tair数据库 虽易于扩展存储空间 但读写性能难以满足低延迟需求 [3] 技术创新方案 - CXL高速互联技术凭借高带宽、低延迟和硬件级缓存一致性特性 为破解内存瓶颈提供新方向 但目前业界针对CXL存储加速LLM推理的研究仍较少 [5] - 中兴通讯与华东师范大学联合推出Mariana分布式共享KV存储技术 通过三项核心创新实现比现有方案高1.7倍吞吐量 尾延迟降低23% [6] - 细粒度并发控制方案将锁粒度从节点级降至条目级 通过RDMA_CAS竞争空闲槽位闩锁 显著减少写密集型和高偏斜工作负载下的争用 [8] - 定制化叶子节点数据布局采用分离式存储 Key连续存放可一次性加载至SIMD寄存器 Value与校验和另存内存块 大幅提升查找速度 [10] - 自适应缓存策略通过Count-Min Sketch算法快速感知热点数据 维护按热度排序链表 降低热点数据加载延迟 [11] 性能验证与应用 - Mariana支持将数据分布在远端CPU DRAM及PMem/SSD组成的共享内存池 理论存储空间无上限 [13] - 在vLLM框架测试中 GPU显存仅能存放50% KV数据时 Mariana多级存储方案显著提升大模型推理预加载阶段性能 [15][17] - 该技术通过硬件加速和智能缓存减少KV Cache查找的计算与网络开销 提升读吞吐量 其数据路径针对低延迟优化 延迟远低于需经远端CPU协议栈的解决方案 [19] 技术演进前景 - Mariana设计理念与底层硬件解耦 核心算法可直接从RDMA网络迁移至CXL硬件生态 仅需替换远程访问API即可利用CXL低延迟和一致性优势 [18] - 该技术重新定义大模型推理存储逻辑 使分布式存储在高吞吐与低延迟间找到平衡点 为百亿/千亿参数模型在普通硬件上高效运行奠定基础 [18]
电改“136号文”半年考,新能源资产后服务赛道马太效应放大
21世纪经济报道· 2025-08-25 14:13
政策与行业变革 - 国家发展改革委和国家能源局联合印发"136号文",推动新能源上网电价市场化改革,终结传统固定电价盈利模式,促进行业从政策驱动转向市场驱动 [1] - 政策落地半年后,全国可再生能源新增装机达2.68亿千瓦,同比增长99.3%,占新增装机总量的91.5% [1] - 电力市场化改革推动新能源资产后服务行业从内部生产职能向覆盖运维、交易和数字化的全链条资产运营能力转型 [1] 新能源后服务市场格局 - 新能源后服务市场规模持续扩大,2024年风电和光伏运维服务市场规模超700亿元,未来整体后服务市场预计突破1000亿元 [4] - 行业马太效应显著,头部企业凭借规模优势构建壁垒,中等规模公司面临挑战,小型企业聚焦基础性服务并依赖本地资源 [6] - 市场参与者从大型电力央企扩展至地方国资、城投、装备制造商及个人投资者等多元化主体 [4] 协合运维业务发展 - 协合运维成立于2007年,拥有18年新能源资产管理经验,当前管理容量突破40GW,电力交易资产规模超8GW,驻场项目300余个 [2][4] - 公司从集团内部服务部门转型为市场化专业服务企业,2020年后业务以满足市场化需求为主 [3][4] - 近期获得信金控股股权投资,被看好为新能源资产后服务市场的确定性投资机会 [3] 行业技术门槛与能力要求 - 行业核心矛盾从人力缺口转为缺乏综合能力专业团队,因电力市场化改革推动服务从设备可靠运维向资产盈利保障跨越 [5] - 成熟服务商需整合设备运维、电力交易及数字化支撑能力,且各板块能力需长期积累 [5] - 多元化投资者需求覆盖生产技术管理、数字化支撑、交易智能化和风险管理的全链条服务 [5] 数字化与技术创新 - 协合运维通过AI技术、数字化工具和长周期数据积累开发"PowerInsights智能分析系统",可自动生成资产报告并精准定位电量损失 [7] - 试点"人机协同"运营模式,应用无人机航拍与图像识别提升故障识别效率,使用时序大模型预测电价和供需关系 [8] - 未来将深化大语言模型应用,自动生成交易策略报告、辅助自动化策略生成及多源情报分析,但设备运维最后一公里仍需人工完成 [8] 资产价值逻辑转变 - 新能源资产价值逻辑从资源禀赋和设备选型转向全周期资产运营能力,成为保障长期稳健收益的关键因素 [7] - 资产估值由发电量、电价和运营成本等因素共同决定,在电价波动性增加背景下需提升盈利保障能力 [7] - 行业重塑推动新能源后服务市场向头部集中,资产价值重估路径清晰化 [9]
理想VLA到底是不是真的VLA?
自动驾驶之心· 2025-08-22 07:34
文章核心观点 - 理想MindVLA是机器人领域基于大语言模型(LLM)作为主干网络的狭义VLA(Vision-Language-Action)模型,通过多模态信息整合编码和决策输出实现更优的自动驾驶能力,其核心优势包括防御性驾驶、场景理解能力和轨迹稳定性 [2][5][7] 技术架构与原理 - VLA基于LLM作为主干网络,串行整合多模态信息(视觉、激光雷达、语言、地图、定位),输出决策并转换为轨迹及控制细节 [2] - 模型通过扩散模型生成轨迹,相比端到端(E2E)模型更收敛,具备稳定的中短时序轨迹生成能力 [10] - 语音功能是LLM的附加能力,具备基础语音和记忆功能 [11] 场景性能对比(VLA vs E2E+VLM) 防御性驾驶 - 在无遮挡十字路口行驶快速稳健,在有遮挡路口基于剩余距离丝滑减速,减速G值根据距离动态调整,无漏检或虚惊情况 [4][5] - E2E模型难以学会丝滑减速,VLM模块在丁字路口需强制减速但体感为急刹 [3] 拥堵场景决策 - VLA在拥堵高架场景中,让行2辆Cut-in车辆后主动向左变道,避免持续加塞,体现深度场景理解能力 [7] - E2E+VLM通常触发绕行逻辑,缺乏真实场景理解能力 [7] 非标准车道行驶 - VLA在1.5-2.5倍宽闸道轻微减速并居中行驶,无画龙现象 [9][11] - E2E+VLM在该场景100%出现轻微画龙轨迹 [10] 复杂路径规划 - VLA在路口右转后需短距离左转时选择直行并触发导航重规划,决策坚决 [11] - E2E+VLM大概率直接变道或小概率直行 [11] 能力边界与局限性 - 当前版本为辅助驾驶而非自动驾驶,需随时接管 [11] - 行车场景(地面/高架/高速)为完整技术栈,但偶发异常如绿灯不走或误判红绿灯 [11] - 部分场景控车细节仍逊于FSD,但选路能力在杭州优于FSD [11] 迭代与工程优化 - VLA因MoE(混合专家模型)和工程巧思,分场景、能力、细节并行优化,迭代速度快于E2E模型 [11] - 关键信息提取COT(Chain-of-Thought)延迟可接受,在路口15-20米触发防御性减速 [11] 硬件与部署 - 模型运行于2022年双OrinX计算芯片平台 [12]
3000万融资,20%付费转化,语音输入工具Wispr Flow如何精准找到PMF?
Founder Park· 2025-08-21 15:30
公司转型背景 - 公司最初致力于开发基于神经信号转换的可穿戴硬件设备 旨在实现无声语音交流 这是创始人长期追求的愿景 [4][5] - 硬件原型在初步功能实现后获得首轮融资 团队规模扩展至40人 包括神经科学和机器学习领域的顶尖专家 [5] - 但硬件产品面临根本性挑战:消费级市场尚未成熟 用户缺乏明确使用场景 且软件生态无法支持跨应用无缝体验 [7][9] - 行业环境加剧了硬件路线的困境 Humane AI Pin和rabbit r1等同类产品相继失败 证明语音工作流程尚未跨越鸿沟 [7] 战略转型决策 - 2024年年中董事会后启动战略评估 最终决定彻底放弃硬件业务 全面转向软件方向 [9][11] - 转型核心逻辑是优先构建软件层实现产品市场匹配(PMF) 为未来硬件发展奠定基础 [9] - 尽管存在企业级(如医疗或国防)市场的融资机会 但基于创始人-市场匹配度考量 坚持消费级方向 [10] - 2024年7月18日正式停止硬件研发 集中资源开发语音听写平台Wispr Flow [11] 组织调整执行 - 实施激进裁员措施 团队从40人缩减至5人 裁员比例达87.5% 以避免后续二次调整并保持剩余团队稳定性 [11][12] - 转型后招聘策略趋于保守 直至2025年1月团队仍不足10人 体现对组织规模控制的谨慎态度 [12] - 领导层在过渡期强调确定性 通过每日到岗和明确目标维持团队士气 [19] 产品发布与市场表现 - 开发周期大幅压缩至6周 于2024年10月1日完成产品发布 较原计划提前3个月 [13] - 发布效果显著:获得数百万浏览量 登顶Product Hunt当日及周榜第一 [13] - 用户数据表现优异:20%付费转化率(远超行业3-4%平均水平) 日均听写次数约100次 键盘输入占比降至25-30% [2][13] - 2025年1-2月实现近90%月度自然增长 用户自发分享产品体验 确认达到PMF状态 [13] 核心成功要素 - 决策速度至关重要 从犹豫到执行仅用一周 整个转型在六周内完成 最大限度减少不确定性暴露时间 [17] - 坚持从客户实际需求出发 放弃科幻式创新 转向解决具体痛点(打字慢于说话4倍) [2][20] - 通过用户行为数据验证需求 而非依赖主观判断 键盘输入占比下降至30%以下证明替代效应 [2][13] - 融资能力支撑转型 公司完成3000万美元融资 为业务调整提供资源保障 [2] 行业洞察 - 语音识别技术存在明确应用场景 但需聚焦具体痛点(如输入效率)而非硬件形态创新 [2][9] - 消费级硬件创新受制于软件生态成熟度 跨应用无缝体验是技术突破的关键门槛 [9] - 用户习惯改变需要渐进过程 日均100次听写行为表明高频使用可培养新输入习惯 [2][13]