思维链推理

搜索文档
ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
机器之心· 2025-07-28 12:24
核心观点 - 提出UV-CoT框架,实现无监督视觉思维链推理,动态聚焦关键区域并提升细粒度推理能力[3][4] - 通过自动化偏好数据生成与评估流程替代人工标注,降低高昂成本并增强泛化能力[7][8] - 采用改进的sDPO算法量化偏好分数差异,结合迭代学习策略优化模型输出分布[16][17] 方法设计 - **数据生成机制**:利用目标模型和评估模型生成多样化推理响应,通过偏好评分构建数据集[11] - 响应生成:每个时间步t随机生成n个响应(含边界框和推理结果)[13] - 评估标准:综合当前区域得分及对后续回答的影响(公式:$s^i = s_{cur}^i + \gamma s_{nxt}^i$)[11] - **偏好优化**:从响应中随机选择k个偏好对构建数据集,保留最高评分链用于后续推理[14] - **迭代学习**:将数据分为m个子集动态更新,缓解模型生成分布与训练数据的差异[17] 性能表现 - **基准测试**:在六大基准上平均得分0.286(UV-CoT)和0.312(UV-CoT*),显著超越有监督模型Visual-CoT-7B(0.261)[20][22] - 具体任务:在Visual7w上达0.432,高于Visual-CoT-7B的0.397[22] - 复杂任务:GPT4V-hard OCR任务中得分0.677,对比Visual-CoT-7B的0.593[22] - **边界框质量**:自评估模式下性能仍超LLaVA-1.5-7B 4.8%,接近OmniLMM-12B(差距0.2%)[23] - 辅助推理:应用UV-CoT边界框使OmniLMM-12B和LLaVA-1.5-7B性能分别提升7.3%和4.7%[23] 应用价值 - 为多模态推理提供高效可扩展的新思路,减少对人工标注的依赖[25] - 开源资源包括论文、代码及模型(Hugging Face仓库),促进后续研究[10]
3D芯片堆叠,新方法
半导体行业观察· 2025-07-01 09:03
半导体封装技术进展 - 半导体封装的下一个重大飞跃需要新技术、新工艺和新材料,以实现性能数量级提升,对人工智能时代至关重要 [1] - AMD、台积电、三星、英特尔等公司在混合键合、玻璃芯基板、微通道冷却等方面取得显著进步 [1] - 人工智能对计算的需求将持续增长,芯片制造和封装创新将发挥核心作用 [2] 热管理与液体冷却技术 - 芯片级液体冷却技术正在兴起,以解决强制风冷技术的极限问题 [4] - 台积电的硅集成微冷却器 (IMEC-Si) 在10升/分钟水流条件下可实现超过3,000瓦的均匀功耗,功率密度高达2.5 W/mm² [6] - 佐治亚理工学院提出“芯片作为冷却剂”概念,采用5nm TSV的硅散热器冷却能力超过300W/cm² [9] - 三星在移动处理器中采用铜基散热块,散热性能提高20% [11][13] 混合键合技术 - 混合键合间距已从10µm微缩至1µm,英特尔展示了相关研究成果 [5][16] - 工研院和Brewer Science展示了五层堆叠结构,采用聚合物/铜RDL进行铜-铜混合键合,适用于高速数字应用 [14] - 晶圆间键合和芯片间键合各有优势,后者在贴装精度和翘曲控制方面面临挑战 [17] 背面供电技术 - 背面供电技术在晶圆背面构建供电网络,降低晶体管电压降,但加剧了热点问题 [19] - IBM开发了AI模型用于精确计算后端堆栈的传热,优化设计阶段的散热考虑 [21] - Imec模拟显示,背面供电网络在逻辑和存储器堆叠中的热影响显著,逻辑芯片位于顶层的配置受存储器温度限制 [23][24] 共封装光学器件 (CPO) - 共封装光学器件将光学引擎与GPU和HBM集成,传输速度从200 Gb/s提升到6.4Tb/s,带宽提高32倍 [26] - ASE展示了用于ASIC交换机和以太网/HBM的模块化CPO平台 [28] - 康宁和Fraunhofer IZM提出可扩展的平面二维波导电路,减少光纤电缆端接和手动组装需求 [28] 热模拟与封装设计 - 热模拟在多芯片组封装设计中发挥关键作用,用于选择最终设计并降低风险 [28] - Imec的3D堆栈模拟显示,层间冷却技术可将温度从500°C降至50°C左右 [24]
8个数据集全面胜出!思维链推理刷新图学习表现上限
量子位· 2025-06-08 11:40
核心观点 - GCoT是首个应用于无文本图数据的类思维链提示学习框架,通过多步推断机制显著提升少样本学习性能 [1] - 在8个图数据集的少样本节点分类与图分类任务中全面超越现有SOTA方法,1-5样本设置下优势最显著 [1][19] - 框架创新性融合层次化结构知识生成节点专属提示,拓展了图学习推理方式 [24][25] 方法解析 整体框架 - 将图和提示输入预训练图编码器,聚合各层隐藏表示生成"思维"指导下一步推断 [5] - 包含三阶段:基于提示的推断→思维构建→基于思维的提示学习 [6][7][8] 关键技术 - **思维构建**:对编码器各层嵌入加权求和生成融合向量,捕获节点层次化结构知识 [7][24] - **节点专属提示**:通过条件网络将上轮思维转化为节点特定提示矩阵,动态调整下一步输入 [8][25] - **标准提示学习**:采用GPF+方法生成偏置项提示,但作用于最终嵌入而非初始特征矩阵 [9][10] 实验结果 性能表现 - 节点/图分类任务中均超越基准模型,预训练方法优于监督学习 [18] - 1-10样本实验中全面领先,1-5样本区间提升最显著(具体数据未披露) [19] - 多步推断机制是关键:完整GCoT优于单步变体GCoT\L1/L2/L3 [20] 消融实验 - 移除分步推断的GCoT\CoT性能大幅下降,验证逐步推断必要性 [20] - 将CoT机制植入GPF/GPF+/ProG等基准模型后,所有模型性能均提升 [21] 创新价值 - 首次实现思维链提示学习在图数据中的应用,突破无文本数据推理瓶颈 [22] - 提出层次化思维融合与动态提示生成机制,为图学习提供新方法论 [23][24] - 开源代码与论文推动行业技术迭代(论文链接见原文) [25]
海天瑞声20250605
2025-06-06 10:37
纪要涉及的公司 海天瑞声 纪要提到的核心观点和论据 - **财务表现**:2024 年全年营收 2.37 亿元,同比增长 39.45%,毛利率提升至 66.46%,同比增加 10.45 个百分点,归母净利润 1134 万元,较上年同期改善 4172 万元,经营性现金流净额 2873 万元,同比增加 5978 万元;2025 年第一季度营收 6981 万元,同比增长 72%,毛利率 47.41%,归母净利润 37 万元,同比增长 101 万元 [2][3][14] - **应对全球市场机遇**:通过创新品牌营销拓展海外市场,构建全球化供应链和服务能力,在智能驾驶领域紧跟车企出海布局海外数据采集,优化算法和平台功能,推动 2024 年业绩增长 [5] - **核心能力建设成果**:2024 年在一体化平台建设和基础算法研究取得进展,包括升级智能驾驶数据处理平台、构建智能化数据运营平台、搭建 data x 数据中台、增厚算法储备并启动语音大模型自研项目 [6] - **构建差异化竞争壁垒**:确立科技引领战略,通过研发投入突破技术瓶颈,布局多模态融合等领域,针对自动驾驶点云标注提出动静态分类标注方案,依托标注工具链等保持领先 [7] - **智能驾驶标注领域创新**:推出多帧点云叠加及物体跟踪算法提升标注效率,向 4D 标注转化,自研 SLAM 算法优化泊车场景 4D 点云标注,开发智能分段加载解决方案突破边缘场景标注瓶颈 [2][8] - **语音识别和合成领域进展**:与清华合作启动语音大模型 Dolphin 训练项目,收集 21.2 万小时数据集,覆盖 40 种东方语种和 22 种中国方言,新增 11 个语种,深入核心场景并推出特色音色 [3][10] - **计算机视觉与自然语言处理领域**:计算机视觉打造多种数据集,自然语言处理构建思维链数据和高价值数据集,支撑大模型复杂推理和行业应用 [11] - **2025 年度计划**:以技术加产品双轮驱动,构建智能化数据管理平台,升级多模态数据产品矩阵,探索具身智能,扩充专业领域标注资源网络 [12] - **参与国家数字经济战略布局**:融入国家数字要素市场建设,与地方政府等合作构建数据治理与流通体系,联合高校培养人才,助力打造基地和新生态,开发解决方案赋能政企客户 [13] 其他重要但是可能被忽略的内容 - 2024 年公司获得国内外领军企业多类多模态数据订单,高毛利标准化数据及产品收入占比提升和定制服务毛利率改善推动业绩增长 [4] - 2025 年第一季度业绩增长得益于计算机视觉业务大型客户采购增加、自然语言处理业务垂直领域需求增长、海外业务拓展定制服务市场 [14]
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]