Workflow
思维链推理
icon
搜索文档
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 12:46
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 如果一个视觉语言模型(VLM)只会"看",那真的是已经不够看的了。 因为现在真实世界的任务简直不要太复杂,要想让AI干点实事儿,光有多模态还不够,必须还得有 深度思考 的强推理能力。 而就在刚刚, 智谱 发布并开源了一个仅9B大小的模型—— GLM-4.1V-9B-Thinking ,在28项评测中一举拿下 23个SOTA! 毫无悬念地成为10B级别里 效果最好的VLM模型 ;而在18项评测中,它都可以与自身8倍参数量的Qwen-2.5-VL-72B一较高下,甚至是超 越的程度。 整体来看,GLM-4.1V-9B-Thinking之所以能够这般"以小搏大",核心原因就是 会思考 : 引入了 思维链 (Chain-of-Thought)推理机制,并通过 课程采样强化学习 (RLCS,Reinforcement Learning with Curriculum Sampling)来全面提升模型能力。 值得一提的是,在智谱这次发布新模型之际,浦东创投集团和张江集团对其进行了 10亿元投资 ,并将于近期完成首次交割。 评测是一方面,但也正如我们刚才提到的,现在的A ...
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 11:51
核心观点 - 阿里通义语音团队开源泛音频生成模型ThinkSound 首次将CoT思维链推理引入音频领域 解决传统视频配乐技术难以捕捉动态细节和空间关系的难题 实现音画同步的高保真音频生成 [4][5][6] - ThinkSound在VGGSound数据集上对比6种主流方法 在核心指标上均实现显著提升 如FDJ指标降至34.56(越低越好) MOS-Q1主观评分达4.02±0.73(越高越好) 参数规模1.3B 生成时间仅1.07秒 [7] - 模型采用三阶思维链驱动架构 通过基础音效推理链构建、对象级推理链构建和指令编辑推理链构建 模仿人类音效师多阶段创作流程 精准建立音画对应关系 [16][17][18][19][22] - 配套发布AudioCoT数据集 包含2531.8小时精选音视频对 涵盖动物鸣叫、机械运转等真实场景 通过音频-文本对齐过滤等三重处理流程确保数据质量 [30][31][36] 技术架构 - 底层采用结合视觉、语言和上下文信息的多模态流式建模方法 基于条件流匹配技术实现高保真音频合成 [25][28] - 第一阶段通过VideoLLaMA2生成CoT推理链 结合Qwen2-Audio和GPT-4.1-nano输出结构化步骤 实现时空对齐 [18] - 第二阶段利用Grounded SAM-2标注"感兴趣区域"(ROI) 跟踪视频中可能发声的对象 融合多视频CoT信息优化音频处理 [20][21] - 第三阶段支持自然语言指令编辑 如"加点爆炸声" 通过GPT-4.1-nano生成结构化编辑步骤 [23][24] 性能表现 - 消融实验证明CoT推理显著提升音频质量 采用T5链式推理比CLIP文本编码生成效果更优 [35] - 门控融合机制在特征整合中表现最佳 实现音画同步的各项指标最优 [39] - 提供1.3B/724M/533M三种模型规格 支持GitHub/HuggingFace/魔搭社区下载 [7][48] 行业布局 - 通义语音团队持续深耕开源社区 CosyVoice系列在GitHub获14.9k星 上月刚发布3.0版本支持多语言语音生成 [41][42] - 此前推出音频多模态大模型MinMo 在语音对话、翻译等任务中表现良好且延迟低 [44][45] - ThinkSound延续开源路线 未来计划发布API 进一步扩大技术影响力 [48] 应用场景 - 支持为Sora生成视频自动匹配音效 可识别地上跑、水里游等物体并生成环境噪音 [14] - 最佳适配10秒视频时长 理论上不限制上传时长 [15] - 开发者可快速体验音效生成与编辑功能 如去除人声、增强特定音效等 [23][48]
3D芯片堆叠,新方法
半导体行业观察· 2025-07-01 09:03
半导体封装技术进展 - 半导体封装的下一个重大飞跃需要新技术、新工艺和新材料,以实现性能数量级提升,对人工智能时代至关重要 [1] - AMD、台积电、三星、英特尔等公司在混合键合、玻璃芯基板、微通道冷却等方面取得显著进步 [1] - 人工智能对计算的需求将持续增长,芯片制造和封装创新将发挥核心作用 [2] 热管理与液体冷却技术 - 芯片级液体冷却技术正在兴起,以解决强制风冷技术的极限问题 [4] - 台积电的硅集成微冷却器 (IMEC-Si) 在10升/分钟水流条件下可实现超过3,000瓦的均匀功耗,功率密度高达2.5 W/mm² [6] - 佐治亚理工学院提出“芯片作为冷却剂”概念,采用5nm TSV的硅散热器冷却能力超过300W/cm² [9] - 三星在移动处理器中采用铜基散热块,散热性能提高20% [11][13] 混合键合技术 - 混合键合间距已从10µm微缩至1µm,英特尔展示了相关研究成果 [5][16] - 工研院和Brewer Science展示了五层堆叠结构,采用聚合物/铜RDL进行铜-铜混合键合,适用于高速数字应用 [14] - 晶圆间键合和芯片间键合各有优势,后者在贴装精度和翘曲控制方面面临挑战 [17] 背面供电技术 - 背面供电技术在晶圆背面构建供电网络,降低晶体管电压降,但加剧了热点问题 [19] - IBM开发了AI模型用于精确计算后端堆栈的传热,优化设计阶段的散热考虑 [21] - Imec模拟显示,背面供电网络在逻辑和存储器堆叠中的热影响显著,逻辑芯片位于顶层的配置受存储器温度限制 [23][24] 共封装光学器件 (CPO) - 共封装光学器件将光学引擎与GPU和HBM集成,传输速度从200 Gb/s提升到6.4Tb/s,带宽提高32倍 [26] - ASE展示了用于ASIC交换机和以太网/HBM的模块化CPO平台 [28] - 康宁和Fraunhofer IZM提出可扩展的平面二维波导电路,减少光纤电缆端接和手动组装需求 [28] 热模拟与封装设计 - 热模拟在多芯片组封装设计中发挥关键作用,用于选择最终设计并降低风险 [28] - Imec的3D堆栈模拟显示,层间冷却技术可将温度从500°C降至50°C左右 [24]
8个数据集全面胜出!思维链推理刷新图学习表现上限
量子位· 2025-06-08 11:40
GCoT团队 投稿 量子位 | 公众号 QbitAI 图神经网络还能更聪明?思维链提示学习来了! 由于图数据拥有复杂的非线性结构和缺少文本信息,语言模型中的思维链(Chain-of-Thought,CoT)提示 学习方法难以简单直接地应用于图数据。 基于此,来自新加坡管理大学和中国科学技术大学的研究者们提出了 GCo T ——首个应用于无文本图数据 的类思维链提示学习框架。 实验结果表明,GCoT在八个图数据集上的少样本节点分类与图分类任务全面超越现有SOTA方法,尤其在 1-5样本的极少样本设置下表现最为显著。 GCoT方法解析 GCoT的核心思想是将下游的推断过程拆分为多个推断步骤。具体包含: 研究 者们在八个公开 数据集上进行了全面实验以评估和分析GCoT。 整体框架 研究者们将思维链提示学习分为三个部分: 2. 思维构建 为有效利用多层结构信息,研究人员将每一层的嵌入表示做加权求和得到融合后的"思维" 。 3. 基于思维的提示学习Thought conditioned prompt learning 研究人员设计的"思维" 捕获了图中节点的结构知识并用于指导下一步推断。由于每个节点可能具有不同 的特质 ...
海天瑞声20250605
2025-06-06 10:37
Q&A 海天瑞声在 2024 年度的财务表现如何? 海天瑞声 20250605 摘要 海天瑞声 2024 年扭亏为盈,归母净利润达 1,134 万元,经营性现金流 净额 2,873 万元,主要受益于多模态数据订单增加、高毛利产品占比提 升及定制服务毛利率改善。公司积极拓展海外市场,尤其在智能驾驶领 域,紧跟车企出海趋势,布局海外数据采集业务,优化智能驾驶数据处 理算法和平台功能。 公司持续投入研发,在智能驾驶数据处理平台、智能化数据运营平台和 Data x 数据中台建设上取得重要进展,并不断增厚算法储备,优化推理 框架,启动语音大模型自研项目,提升点云标注效率,支撑国家人工智 能基础设施建设。 海天瑞声确立科技引领战略,通过持续研发投入突破技术瓶颈,推动训 练数据生产智能化、规模化,重点布局多模态融合、思维链推理等领域, 构建差异化竞争壁垒,如针对自动驾驶点云标注场景提出动静态分类标 注方案。 在智能驾驶标注领域,公司推出多帧点云叠加及物体跟踪算法,提升标 注效率,并逐步向 4D 标注转化,自研 SLAM 算法优化泊车场景 4D 点 云标注,开发智能分段加载解决方案,突破高难度边缘场景标注瓶颈。 2024 年 ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
选自 Ahead of AI 作者:Sebastian Raschka 机器之心编译 推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《 Reasoning From Scratch 》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。 近日,他在自己的博客上放出了这本书的第一章,为 LLM 领域的推理进行了入门级的介绍,同时还概述了推断时间扩展和强化学习等技术方法。 机器之心编译了这本书的第一章,以飨读者。 原文地址:https://magazine.sebastianraschka.com/p/first-look-at-reasoning-from-scratch (注:为了行文清晰,本文会将 inference 译为「推断」,将 reasoning 译为「推理」;其中 inference ...
卓驭科技接入通义大模型,联合打造端到端世界模型
阿里云· 2025-04-24 17:13
24日 ,行业一流的智能驾驶供应商及服务商卓驭科技宣布接入通义大模型,并基于阿里云打造端到 端世界模型。此外,其大数据等核心业务系统已接入阿里云。 图|卓驭科技总经理沈劭劼(右)、 阿里云智能集团副总裁、AI汽车行业线总经理李强 卓驭的端到端世界模型区别于传统端到端模型, 引入了强化学习和思维链推理技术 ,不仅将城市领 航辅助的安全性提升一个层级,也支持千人千面驾驶风格、自然语言交互控制驾驶行为、复杂场景慢 推理的智能化体验。 由于卓驭大模型训练采用预训练+后训练结合的方式,以"天"为单位的迭代速度对云端算力提出了较 高的需求。 / END / Related reading 相关阅读 对此, 卓驭基于阿里云PAI平台打造了多种GPU融合的算力资源池 。通过存储资源共享,其数据流 动、数据管理等成本显著降低,相比单GPU集群算力, 卓驭模型训练效率提升50%以上 。 同时,阿里云PAI平台的Serverless能力简化了集群的运维难度, 保障训练全链路可观测,帮助卓驭 将GPU利用率提升至95%以上 。 目前,卓驭的大数据系统、智能制造等核心业务已全面搬上阿里云。其中,在研发领域 卓驭已接入 通义灵码、通义千 ...