推理

搜索文档
推理“刹不住车”?新框架让DeepSeek-R1们告别过度思考,已开源
量子位· 2025-06-03 14:21
核心观点 - 大模型在推理任务中普遍存在过度思考现象,导致效率降低和错误累积 [1][2] - 研究团队提出Self-Braking Tuning(SBT)方法,通过内部机制让模型自主判断何时终止推理 [3][4][10] - SBT框架包含刹车信号机制、多任务微调等设计,无需外部干预即可实现高效推理 [5][6][7] - 该方法显著减少冗余推理步骤(如Llama-3.1-8B模型token生成量减少62.8%),同时保持94.1%准确率 [40][41] 技术原理 过度推理识别 - 构建基础方案与进化方案两阶段评估体系,量化推理冗余程度 [17][18] - 采用推理效率比(步骤优化率)和过度推理标记比(特定词汇频率)双指标交叉验证 [19][20][21] 数据构建策略 - SBT-E:统一截断策略,保留基础方案+1个进化方案并掩码冗余内容 [25][26] - SBT-D:动态调整策略,根据过度推理分数阈值逐步掩码超长推理 [28][29] 制动机制设计 - 掩码训练:冗余部分不计入损失函数,引导模型聚焦关键步骤 [33][34][35] - 自然语言提示:通过语义信号(如"Wait")辅助模型主动停止推理 [36][37] 实验效果 - 在AIME、AMC等数学推理测试中实现"少思考不失准确"的效果 [38][39] - 方法具有跨模型架构通用性,验证了冗余推理可剔除的理论假设 [41][42] 资源链接 - 论文与项目主页提供技术细节和开源代码 [42][43]
AI推理成为新增长引擎,5G通信ETF(515050)蓄力回调,近5日净流入5287万元
每日经济新闻· 2025-06-03 11:38
AI算力与5G通信行业表现 - AI方向表现分化 网络游戏和金融科技概念活跃 5G通信ETF(515050)跌0.29% 持仓股深南电路、移远通信、领益智造、光库科技领涨 [1] - 英伟达2026财年Q1营收达441亿美元 同比增长69% 净利润187.75亿美元 数据中心业务为核心推动力 [1] - AI推理成为主流工作负载 ChatGPT、Gemini、Grok等推动云厂商和科技巨头加速部署大规模推理平台 [1] - AI浪潮带动算力需求爆发 服务器、存储、PCB板等环节价值量大幅提升 [1] 资金流向与ETF布局 - 近5个交易日5G通信ETF(515050)获资金净流入超5287万元 [2] - 5G通信ETF(515050)跟踪中证5G通信主题指数 覆盖5G、AI算力、英伟达产业链 涉及6G、消费电子、PCB、通信设备、服务器、光模块、物联网等细分行业龙头 [2] - 创业板人工智能ETF华夏(159381)跟踪创业板人工智能指数 聚焦AI硬件+软件+应用龙头 前十大成分股包含新易盛、中际旭创、天孚通信三大光模块龙头 [2] ETF产品信息 - 华夏中证5G通信主题ETF(515050)场外联接A类008086 C类008087 [3]
券商晨会精华:低估值具身智能应用标的和红利资产继续受青睐
新浪财经· 2025-06-03 08:49
市场表现 - 上周五市场全天震荡调整 创业板指领跌 沪指跌0.47% 深成指跌0.85% 创业板指跌0.96% [1] - 板块方面 猪肉 创新药 银行 CRO等板块涨幅居前 黄金 草甘膦 可控核聚变 人形机器人 环保设备 消费电子等板块跌幅居前 [1] 券商观点 中信建投 - 人形机器人板块继续分化 市场聚焦低估值具身智能应用标的 中长期建议挖掘AI+机器人投资机会 包括传感器 灵巧手 机器狗 外骨骼机器人方向 [2] - 降息背景下 高股息率的红利资产继续受市场青睐 [2] - 出海板块H股发行计划增多 创业公司赴港上市数量增加 预计H股高端制造板块将吸引更多全球资金 [2] 中金公司 - 多模态推理是提升智能驾驶能力的重要途径 正成为头部企业算法演进重点 [2] - 蔚来世界模型NVM首个版本具备全量理解 想象重构和推理能力 在ETC车道通行 停车场寻路等场景性能提升显著 [2] - 理想自研VLA大模型具备思维链推理能力 模拟人类驾驶员思维运作方式 [2] 华泰证券 - A50产业巨头 消费 大金融等核心资产有望从重估韧性切换至重估增长 在ROE企稳回升周期中充当先锋手 [3] - A50非金融ROE已于2024年报起先于全A非金融筑底企稳 [3] - 当前估值隐含股权成本高于市场平均水平 若重新定价增长韧性 风险溢价存在可观下修空间 [3]
中金:多模态推理助力智能驾驶能力升阶,相关主线值得关注
快讯· 2025-06-03 08:32
多模态技术进展 - 3月Google Gemini2.5发布,实现多模态融合推理 [1] - 4-5月阶跃星辰、商汤、MiniMax先后发布多模态推理成果 [1] - 多模态思维链的加入推动多模态与推理模型架构统一 [1] - 多模态理解能力显著提升 [1] 行业应用场景 - 理想、蔚来等车企已在车端交互中实现多模态推理落地 [1] - 技术架构融合创新将持续拓展应用场景 [1] - 多模态推理主线成为行业关注焦点 [1]
中金 | AI智道(9):多模态推理技术突破,向车端场景延伸
中金点睛· 2025-06-03 07:45
多模态推理技术进展 - 2025年3月Google发布Gemini 2.5模型,原生支持文本、图像、音频、视频、代码库等多模态输入,并在LMArena排行榜超越GPT-4.5和Claude 3.7 [1][2] - 2025年4月阶跃星辰发布多模态推理模型Step-R1-V-Mini,商汤发布SenseNova V6模型,后者实现10分钟长视频理解能力 [2] - 2025年5月MiniMax开源视觉RL统一框架V-Triune,使VLM掌握视觉推理和感知的统一能力 [2] 技术架构创新 - MiniMax V-Triune框架采用三层组件架构:多模态样本数据格式化、异步客户端-服务器架构的验证器奖励计算、数据源级指标监控 [3] - 通过动态IoU奖励机制和冻结ViT参数等优化,Orsta 32B模型在MEGA-Bench Core基准测试性能提升14.1% [3][6] - 商汤SenseNova V6采用多模态长思维链构建、多模态强化学习和多模态全局记忆技术创新 [2] 智能驾驶应用 - 蔚来NVM世界模型具备全量理解、想象重构和推理能力,在ETC车道通行和停车场寻路等场景性能显著提升 [3][7] - 理想自研VLA大模型通过多模态推理模拟人类驾驶员思维运作方式 [3] - 多模态推理技术可增强道路交通标志识别判断能力,提升复杂场景泛化性 [3] 性能对比 - Orsta 7B模型在MEGA-Bench Core测试中相比骨干模型提升3.2个百分点 [6] - Orsta 32B模型在知识、数学、感知等多项指标上实现5.9-20.2个百分点的提升 [6] - 在32B+模型对比中,Orsta 32B-0326版本相比骨干模型在核心指标提升2.1个百分点 [6]
数据中心:英伟达对行业的启示
2025-06-02 23:44
纪要涉及的行业和公司 - **行业**:数据中心、美国通信基础设施 [1][34] - **公司**:英伟达(NVDA)、微软(MSFT)、Meta(META)、亚马逊(AMZN)、谷歌(GOOG)、甲骨文(ORCL)、Digital Realty Trust(DLR)、Equinix(EQIX)、Iron Mountain(IRM)、American Tower(AMT)、Crown Castle International(CCI)、SBA Communications(SBAC)、Uniti Group(UNIT) [1][3][16][34] 纪要提到的核心观点和论据 英伟达对行业的展望 - **核心观点**:重申对人工智能采用速度和规模的乐观展望,认为仍处于大规模必要基础设施建设的早期阶段,主要看好人工智能进入企业/本地部署 [1][7][8] - **论据**:推理模型计算密集,推动推理需求呈阶跃式增长,如微软第一季度处理超 100 万亿个令牌,同比增长五倍;与单轮聊天机器人相比,基于大语言模型的人工智能代理计算需求大幅增加;许多公司的数据仍在本地,访问控制重要,难以将所有数据迁移到云端 [7] 分析师对数据中心增长机会的看法 - **核心观点**:英伟达 2026 财年第一季度财报可能支持投资者对人工智能的持续热情,但对数据中心增长机会比大多数投资者更谨慎,对 IRM 评级为增持,对 EQIX 评级为持平,对 DLR 评级为减持 [2] - **论据**:人工智能采用速度可能无法带来预期的数据中心租赁量;人工智能推理工作负载部署在托管设施中的份额可能令人失望;租赁停滞和/或效率持续提升可能导致供应过剩 [2] 各公司评级及目标价 | 公司名称 | 股票评级 | 行业观点 | 收盘价(日期) | 目标价 | 估值方法 | 风险因素 | | --- | --- | --- | --- | --- | --- | --- | | Digital Realty Trust(DLR) | 减持 | 中性 | 169.58 美元(2025 年 5 月 28 日) | 139 美元 | 基于 2026 年调整后运营资金(AFFO)估计值 6.96 美元的 20 倍倍数 | 宏观条件变化可能导致股票重新评级;美元走弱、利率降低和能源成本降低将有利于收益和估值 [44][51] | | Equinix(EQIX) | 持平 | 中性 | 880.62 美元(2025 年 5 月 28 日) | 837 美元 | 使用 2026 年调整后运营资金(AFFOps)估计值的 21 倍倍数 | 宏观因素对收益和估值有重大影响;美元、能源成本和利率的不利变动可能阻碍实现目标 [52][59][60] | | Iron Mountain(IRM) | 增持 | 中性 | 97.29 美元(2025 年 5 月 28 日) | 121 美元 | 使用 2026 年预期调整后运营资金(AFFO)每股收益的 22 倍倍数 | 文件存储业务呈缓慢长期下降趋势,可能加速下滑;新增业务板块利润率低于传统业务,可能影响盈利能力 [61][68][69] | 其他重要但可能被忽略的内容 - **利益冲突披露**:巴克莱资本公司及其附属机构与研究报告中涵盖的公司有业务往来,可能存在影响报告客观性的利益冲突 [5] - **研究覆盖情况**:英伟达由 Tom O'Malley 覆盖,亚马逊、Meta 和谷歌由 Ross Sandler 覆盖,甲骨文和微软由 Raimo Lenschow 覆盖 [3] - **评级系统说明**:巴克莱采用相对评级系统,股票评级分为增持、持平、减持,行业观点分为积极、中性、消极 [30][31][34] - **合规与分发说明**:报告为机构投资者准备,不同地区有不同的分发和合规要求,如美国、欧洲、亚洲、中东等地区 [71][77][78][80] - **可持续投资研究说明**:目前可持续投资没有全球公认的框架或定义,评估公司或投资的方式不同,相关法规和市场实践在不断演变 [94]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
猿大侠· 2025-06-02 12:22
核心观点 - 提出两种专为推理优化的注意力机制GTA和GLA,在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%;GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][11] - 通过优化注意力机制的内存使用和计算逻辑,提升大语言模型的推理效率和硬件资源利用率,尤其在长上下文场景中优势突出[5][8] 技术贡献 GTA(分组绑定注意力机制) - 将不同查询头的键和值状态进行组合与重用,减少内存传输次数[15] - 多头注意力的头分为若干组,每组内的头共享相同的Key和Value参数,仅查询参数独立[15] - 相比GQA,通过参数绑定实现更彻底的KV重复利用,KV缓存减少约50%[16][28] GLA(分组潜在注意力机制) - 通过共享联合潜在表示减少每个设备需要加载的KV缓存量,减少内存访问量[19] - 增加每字节内存加载的计算量,减少对内存带宽的依赖,保持并行可扩展性[18] - 解码速度比FlashMLA快2倍,随着序列长度从1K增加到64K,优势更明显[30] 实验验证 模型性能 - 在四种规模模型(183M/433M/876M/1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA相当[22][23] - 下游任务(Winogrande/SciQ等7个基准)整体表现差距不大,但GTA和GLA可保持或提高从中型到XL尺寸的性能[24][25] 效率指标 - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[28] - GLA在64个并发请求的输出吞吐量上均优于MLA,处理长上下文时吞吐量更高[31][34] - MLA计算瓶颈达610 TFLOPS/s,GLA尚未饱和(360 TFLOPS/s),资源利用率更高[29] 行业影响 - 研究团队来自普林斯顿大学,核心作者Tri Dao曾提出Mamba架构和FlashAttention系列工作,在优化Transformer领域具有权威性[46][48][49] - 成果已应用于DeepSeek Coder V2 Base(236B)模型,验证了GLA在处理长上下文时的吞吐量优势[34] - 该研究是迈向推理"理想"架构的第一步,未来可能进一步推动大模型推理效率的提升[50]
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
量子位· 2025-06-02 12:13
视觉语言大模型的空间推理能力 - 当前视觉语言大模型(VLMs)在大规模图文数据中学习到的空间信息是片段化的,仅限于静态视角的理解,缺乏多维度、多视角的空间推理能力 [1] - 面对需要多视角空间推理的任务时,模型表现不佳,缺乏空间感与换位思考能力 [2][20] - 具备稳健的空间推理能力与视角理解能力的AI系统才能成为与人类协作的智能体 [3] ViewSpatial-Bench基准体系 - 研究团队提出首个系统评估VLM多视角多任务下空间定位能力的基准体系ViewSpatial-Bench,涵盖五种任务类型,覆盖相机和人类双重视角 [4][7] - 基准包含5700个问答对,通过自动化3D标注流水线生成精确方向标签,覆盖丰富3D场景 [4][16] - 五大任务包括:物体相对方向识别、人物视线方向识别(相机视角),以及从人类视角出发的三类任务(物体相对方向识别、人物视线方向识别、场景模拟的相对方向识别) [9][10][11][12][13][14] 主流模型的表现评估 - 评估显示GPT-4o、Gemini 2.0等主流模型在空间关系理解上表现不足,整体准确率不高 [19] - 模型在摄像头视角下的人物面朝方向判断任务平均准确率仅为25.6%,远低于物体相对方向判断的38.9%,但在人物视角下趋势反转 [22] - 大多数模型在人物视角任务上表现略优于摄像头视角,如GPT-4o在人物视角平均准确率为36.29%,高于摄像头视角的33.57% [25] Multi-View Spatial Model(MVSM) - 研究团队开发MVSM专门用于跨视角空间理解优化,采用自动化空间标注框架生成约43000个高质量样本 [27][28] - MVSM相比骨干模型Qwen2.5-VL实现46.24%的绝对性能提升,验证针对性训练的有效性 [5][28] - 在VSI-App评估中,MVSM在室内场景表现提升20%,户外场景提升4.00%,展示处理动态轨迹和人机交互场景的能力 [32] 研究意义与未来方向 - ViewSpatial-Bench和MVSM为多模态模型空间理解能力提供系统评估工具,重构视角采择建模方式 [33] - 研究揭示当前训练语料在视角分布上存在结构性不平衡,为未来数据构建和模型优化指明方向 [26] - 更聪明的空间感知是下一代机器人与多模态助手的关键一步 [34]
这8个常见的逻辑谬误,会让我们陷入思维困境
36氪· 2025-06-02 08:05
逻辑谬误分析 相关性不是因果关系 - 两件事同时发生不代表存在因果关系 如吃冰淇淋与失业率上升仅是时间巧合[5] - 媒体常将相关性误报为因果关系 如"社交媒体导致抑郁"实为数据巧合[7][8] - 学术研究中存在将相关性包装为因果关系的现象 如尼古拉斯·凯奇电影与溺水事件的虚假关联[10][12] 滑坡谬误 - 将轻微负面后果与极端后果强行关联 如"青少年饮酒→吸毒→犯罪→人生毁灭"的链条夸大概率[15] - 商业组织和家庭教育中常见此类谬误 易引发不必要焦虑[15] 错误的二分法 - 人为简化复杂问题为二元对立选项 如"支持我们或反对我们"掩盖中间立场[19] - 政客常用此手法操纵选择 自我评判时也易陷入非此即彼的思维陷阱[19] 内定结论谬误 - 用未经证实的假设循环论证 如"《圣经》真实因为《圣经》说它真实"[21] - 表现为循环推理 典型结构为"A正确因为A说A正确"[20][21] 红鲱鱼谬误 - 引入无关论点转移焦点 如素食伦理讨论中提及希特勒素食[23][25] - 新闻内容常含此类干扰信息 也用于逃避责任[26] 诉诸情感/权威/大众 - 通过外部资源而非逻辑支撑观点 包括诉诸权威/同情/从众心理[27][28] - 人类超社会性导致易受群体意见影响 但真相与认同度无关[27][30] 人身攻击谬误 - 攻击辩论者而非论点本身 如政治辩论中贬损对手外貌[31][32] - 现代政治话语高频使用此手法 削弱实质问题讨论[32] 稻草人谬误 - 曲解原论点后攻击简化版本 如将堕胎权支持扭曲为"喜爱杀婴"[33][34] - 社交媒体常见此现象 导致讨论偏离核心问题[34] 逻辑推理价值 - 识别逻辑谬误是思维纠偏关键 反直觉特性需专门训练[3][9] - 理性思考能避免恶性循环 需承认错误以接近真相[35]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
核心观点 - 提出两种新型注意力机制GTA和GLA,在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][2][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%[2][3][25] - GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][29] 注意力机制优化 - 针对推理阶段的内存冗余、计算低效、长上下文瓶颈等问题重新设计注意力机制[8] - GTA通过参数绑定实现更彻底的KV重复利用,减少内存传输次数[15][16] - GLA采用双层结构,提高硬件效率并保持并行可扩展性[17][18] 实验验证 - 在四种规模模型(183M-1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA质量相当[21][22] - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[25][26] - GLA在序列长度从1K增加到64K时,解码速度比FlashMLA快2倍[29] - 在DeepSeek Coder V2 Base模型上,GLA-8在长上下文处理中吞吐量明显高于MLA[33] 作者背景 - 三位作者均来自普林斯顿大学,Tri Dao因提出Mamba架构和FlashAttention系列工作闻名学界[38][44][46][47] - Tri Dao是生成式AI初创公司Together AI的首席科学家[44] - 其他作者Ted Zadouri和Hubert Strauss在机器学习和Transformer优化方面有丰富经验[39][40][41][42][43]