Workflow
推理
icon
搜索文档
下一代大模型高效计算:参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦!
自动驾驶之心· 2025-07-04 15:13
大模型优化课程核心内容 课程简介与目标 - 聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展、复杂推理三大方向[1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等[1] - 采用LLaMA、GPT等主流模型作为实验平台,结合理论讲解与实验实践[1] 课程结构与内容 - 12周在线科研+2周论文指导+10周论文维护期的完整科研周期[11] - 每周1-1.5小时课程,覆盖剪枝稀疏化、量化加速、PEFT微调、RAG知识扩展、CoT推理等核心技术[16][18] - 提供公开数据集和Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目[15] 学员收获与产出 - 系统掌握大模型优化知识体系,解决零散知识整合问题[5] - 获得定制化研究idea,完成论文初稿并掌握顶会论文写作方法论[11][18] - 提升coding能力,在baseline代码基础上开展创新实验[11] 招生要求与资源配置 - 每期限招6-8人,要求具备PyTorch和Python基础,熟悉深度学习框架[3][7] - 硬件建议配置4张4090显卡,最低要求2张4090[12] - 需完成Linux开发环境搭建,掌握CUDA基础语法和代码辅助工具[12] 核心技术与参考文献 - 重点论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)、LLaVA多模态(NeurIPS 2023)等[15][17] - 涉及TVM编译器优化(OSDI 2018)、PagedAttention内存管理(SOSP 2023)等系统级优化技术[17] - 涵盖Flamingo多模态学习(NeurIPS 2022)、CoT推理(NeurIPS 2022)等前沿算法[17]
为什么 DeepSeek 大规模部署很便宜,本地很贵
AI前线· 2025-07-04 14:10
核心观点 - AI推理服务提供商在吞吐量和延迟之间存在基本权衡,高吞吐量通常伴随高延迟,低吞吐量则伴随低延迟[1] - 批处理大小是影响吞吐量和延迟的关键因素,大批次可提高GPU效率但增加延迟,小批次则相反[2] - 专家混合模型(如DeepSeek-V3)需要更大的批次大小才能保持GPU效率,导致更高的延迟[6] - 具有多层的大型模型需要足够大的批次以避免"管道气泡",这会显著影响吞吐量[8] - 注意力机制限制了批处理的灵活性,因为只能批量处理相同序列长度的token[9] 批处理推理机制 - GPU擅长执行大型矩阵乘法(GEMMs),批量处理多个token比逐个处理更高效[1] - 推理服务器通过将多个用户的请求堆叠成矩阵进行批量处理,显著提高GPU利用率[3] - 大批次处理减少了GPU命令开销和权重内存访问时间,这是小批次无法实现的优势[4] - 服务器设置"收集窗口"来决定批次大小,窗口时间从5毫秒到200毫秒不等[5] 专家混合模型特性 - 专家混合模型包含多个独立的前馈权重块,路由层选择子集处理每个token[6] - 这种架构导致需要执行大量小型矩阵乘法,GPU效率较低[6] - 大批次处理可确保每个专家获得足够工作量,否则吞吐量会急剧下降[12] - DeepSeek-V3作为专家混合模型,在个人使用场景效率低下,因为无法形成足够大的批次[12] 管道化与延迟问题 - 大型模型采用管道化处理,不同GPU负责不同层,需要保持连续token流[6] - "预热"和"排水"阶段导致GPU空闲,小批次会放大这种效率损失[7] - "管道气泡"发生在处理token数少于层数时,会严重影响吞吐量[8] - 消除管道气泡需要足够大的批次,这必然增加延迟[8] 注意力机制限制 - 注意力GEMMs只能批量处理相同形状的序列,限制了批处理的灵活性[9] - 解码过程中只能批量处理同一步骤的token,迫使采用短"tick"运行[9] - 不同用户的请求可以批量处理,但同一用户的token必须顺序处理[10] - 现代推理栈将注意力和FFN步骤合并成大GEMMs以提高效率[9] 行业实践观察 - OpenAI和Anthropic模型响应迅速,可能采用更高效架构或特殊优化技巧[12] - 连续批处理技术在实际中应用,但核心吞吐量-延迟权衡不变[12] - transformer模型可批量预填充长提示,这是递归模型无法实现的优势[12]
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 09:42
核心观点 - 多模态智能面临视觉Token激增导致的算力瓶颈,腾讯AI Lab与CMU提出的VScan通过两阶段剪枝机制实现2.91倍推理加速,几乎不损性能[1][2] - VScan兼容主流视觉语言模型(如LLaVA/Qwen2.5-VL),覆盖图像问答/视频理解等16项任务,最高压缩88.9%视觉Token时性能仅降3.3%[4][31][32] - 该方法突破现有文本无关/文本相关剪枝方法的局限,首次实现跨视觉编码与语言解码阶段的协同优化[8][9][24] 技术背景 - 现有LVLM处理高分辨率图像时视觉Token达2,880-16,384个,自注意力计算复杂度呈平方增长导致显存与计算负担指数级上升[2][3] - 传统剪枝方法分两类:文本无关方法依赖视觉自注意力权重(如VisionZip),文本相关方法基于Token-查询相关性(如SparseVLM),但均缺乏跨阶段分析[8] - 早期剪枝存在位置偏置问题,中间层(第16-20层)才是多模态交互的黄金剪枝时机[18][21][22] 解决方案 - **第一阶段**:视觉编码阶段结合全局扫描(提取语义核心Token)与局部扫描(保留细节Token),通过相似性引导融合被剪Token信息[26][30] - **第二阶段**:语言解码阶段在中间层按注意力强度筛选文本相关Token,避免过早剪枝导致信息损失[27] - 支持FlashAttention与KV Cache压缩,LLaVA-NeXT-7B预填阶段加速达2.91倍,显存占用显著降低[36] 性能验证 - 在LLaVA-1.5-7B上,保留192/128/64个Token(原576个)时平均准确率仅降1.0%/1.2%/3.3%,显著优于VisionZip等基线[31][32] - Qwen2.5-VL-7B处理视觉定位任务时,75%剪枝率下VScan性能保持80.7%,而FastV/PyramidDrop性能腰斩[33][34] - 覆盖3B-32B不同规模模型,在GQA/MMBench等16个数据集上实现零损剪枝至88.9%压缩率[28][29][38] 行业影响 - 为多模态落地提供轻量级解决方案,尤其适合实时工业应用与边缘设备部署[5][38] - 开源方案降低工程门槛,推动社区优化视觉Token效率范式[6][39]
科创板年内新增最大IPO融资项目拆解:摩尔线程的商业化初探
华尔街见闻· 2025-07-03 21:09
国产GPU行业竞争格局 - "国产GPU四小龙"中摩尔线程和沐曦集成科创板IPO已获受理,壁仞科技、燧原科技、格兰菲智能处于IPO辅导阶段,行业集体迈向资本化[1] - 摩尔线程计划募资80亿元,为2024年上半年科创板最大IPO募资规模,沐曦集成募资额约为其一半[5][6][7] - 行业竞争焦点在于谁能率先成为"国产GPU第一股",市场高度关注[8] 摩尔线程核心竞争力 - 核心团队来自英伟达,MTT S80显卡单精度浮点算力接近RTX 3060,千卡GPU智算集群效率超过国外同代产品[2] - 2024年收入达4.38亿元同比增长超2倍,AI智算产品首次创收3.36亿元占比超7成[3][11] - 研发投入达13.59亿元,净亏损14.92亿元但同比减亏10%[4] 产品与技术进展 - 产品线覆盖AI智算、专业图形加速、桌面级图形加速和智能SoC,形成全功能布局[9][10] - 2023年推出第三代GPU芯片MTT S4000,2024年披露新品MTT S5000,FP32算力达32TFLOPS超越A100但低于H100和MI325X[12][13][15][17] - 基于MTT S5000构建的千卡集群效率超过国外同代产品,计划投资25亿元研发新一代AI训推一体芯片[16] 商业化策略与财务表现 - 消费级产品MTT S80/S70累计收入仅0.72亿元,因国际品牌竞争采取低价策略导致毛利率为负[20] - 转向聚焦B端市场,AI智算和专业图形加速板卡毛利率分别达90.7%和83.13%,显著高于沐曦集成同类产品[21][22] - 在手订单4.4亿元,管理层预计2027年可实现盈利[23][24] 行业技术发展趋势 - FP8低精度浮点格式成为技术突破方向,可在保持低精度同时实现准确性、效率、内存和能耗的平衡[14][15] - 摩尔线程通过支持FP8计算与存储实现训练加速和内存占用降低,与BF16基线相比精度损失控制在0.25%以内[15]
智谱再获10亿融资,推出会看“苏超”的开源新模型
观察者网· 2025-07-03 18:30
核心观点 - 智谱发布新一代通用视觉语言模型GLM-4.1V-Thinking,突破多模态推理能力,并在多项评测中超越更大参数模型 [1][7][10] - 公司获得10亿元战略融资,联合上海国资打造"算电模"一体化基础设施,建设万卡集群 [3][5] - 大模型商业化加速,API调用量同比增长30倍,价格大幅下调80%-90% [12][14] - Agent平台和智能硬件成为商业化落地重点方向 [15][18][19] 技术突破 - GLM-4.1V-Thinking支持图像/视频/文档输入,引入思维链推理机制和课程采样强化学习策略 [7] - 轻量版GLM-4.1V-9B-Thinking在28项评测中23项领先10B级模型,18项持平72B的Qwen-2.5-VL [7][8] - 模型实现动态视频理解能力,可完成足球解说、GUI操作等复杂任务 [9][10] - 90亿参数模型性能超越GPT-4o,接近720亿参数的Qwen-2.5-VL [10] 资本与生态 - 年内完成5轮融资,最新10亿元融资由浦东创投和张江集团联合投资 [3][5] - 与上海仪电、浦发集团共建"算电模"设施,利用绿电直连支撑万卡集群 [5] - "模力社区"已聚集近70家垂类大模型企业,25家完成安全备案 [3] 商业化进展 - API日均Token调用量同比增30倍,消耗金额增52% [12] - GLM-4-Plus等API价格降幅达90%,推动应用普及 [14] - 推出Agent聚合平台"应用空间",启动数亿元专项扶持计划 [1][15] - 教育、医疗、企服等领域Agent落地周期有望提前 [17] 行业趋势 - 上海将发展AGI作为战略任务,重点突破算力、语料、基础模型 [6] - AI向自主智能体演进,可能催生全新商业模式 [17] - 端侧算力提升推动AI能力嵌入汽车、眼镜等智能硬件 [18][19]
҈ 热 ҈ 热 ҈ 热 ҈ !高温宅家自救指南来了
AI研究所· 2025-07-03 17:47
海龟汤之谜推广 - 核心内容为推广「海龟汤之谜」互动推理游戏 通过夏日解暑场景切入 强调其题库涵盖细思极恐 温情治愈 都市传说 校园秘闻等多元化题材 [8] - 游戏特色包括精准匹配用户奇思妙想 提供10086种离谱剧情 结合空调WiFi形成夏日娱乐场景 [8] - 推广方式为引导用户通过讯飞星火搜索「海龟汤之谜」参与 并设置扫码直达入口 [8] 解暑场景营销 - 以39℃高温 出门5分钟流汗2小时等极端炎热场景为背景 突出清凉解暑的产品关联性 [2] - 通过冰块使用场景的趣味互动(如冰镇饮料 冰帽降温)引导用户关注 最终指向游戏推广 [3][6] - 采用"躺平啃瓜"等网络流行语强化年轻化传播定位 [2] 互动设计 - 设置谜题互动环节 用户需猜测"冰块扔喷泉溅水降温"等场景的真实用途 答案揭晓为制作冰帽的创意解暑方式 [3][6] - 强调题库为"冰山一角" 通过悬念式文案激发探索欲 [8]
华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025
量子位· 2025-07-03 17:00
大模型推理框架创新 - 华为诺亚方舟实验室提出全新高阶推理框架"思维森林"(FoT),借鉴人类多角度思考认知方式,构建多棵并行推理树,引入动态自我修正与多视角共识决策策略[2] - FoT打破传统LLM线性推理范式,通过稀疏激活减少计算开销,仅保留置信度最高节点提升效率[9][10] - 框架包含三大核心机制:动态自校正(实时检测路径偏差)、共识引导决策(融合多树答案集体投票)、稀疏激活(优化计算资源)[11][12][13] 技术性能突破 - 在GSM8K数据集上,FoT结合的QwQ-32B模型准确率达97.33%,超越GPT-4o和rStar-Math等先进模型[4] - AIME 2024测试中准确率提升至53.33%,较rStar-Math高出6.66个百分点[4] - 实验显示FoT在24点游戏任务中树数增加可提升14%准确率,优于传统ToT的叶子节点扩展方式[15] 多场景应用优势 - FoT与LLaMA3、Mistral、GLM等主流开源模型兼容,树数增加性能呈新型scaling law曲线提升[16] - 在MATH数据集全等级测试中保持稳定优势,复杂问题处理能力突出[17] - 框架特别适用于数学推导、科学多跳问答等需要多步严谨推理的场景[6][11] 行业影响展望 - 该方法缓解了大模型在金融风控、法律分析、科研辅助、医疗诊断等高阶推理场景的局限性[20] - 通过结构化可解释的推理机制,提升模型输出的可信度与决策稳定性[18][13] - 论文将于ICML 2025大会发表并开源,推动行业技术迭代[3][21]
大模型角力视觉推理,推理AI新时代来临
21世纪经济报道· 2025-07-03 13:11
多模态大模型技术突破 - 智谱发布并开源视觉语言大模型GLM-4.1V-Thinking,支持图像、视频、文档等多模态输入,具备复杂认知任务处理能力 [1] - 模型通过预训练构造视觉理解模型,监督微调提升推理能力,首次实现推理与视觉理解的有机结合 [1] - 2023年视觉推理成为行业竞争焦点,OpenAI、字节跳动、阿里等企业相继推出具备视觉推理能力的模型 [1] 视觉推理能力应用场景 - 多模态模型可解析PDF中的图片、图表、表格布局,理解页面结构,提升结构化信息提取效率 [3] - GLM-4.1V-Thinking支持图片理解(如看图买菜)、数学与科学推理(如几何题解)、视频时序分析与事件逻辑建模 [3] - 视觉推理能力可应用于GUI与网页智能体任务,实现交互操作,提升人机交互可控性 [4] - 模型能与Python数据分析、网络搜索等工具协同,解决复杂问题,提供多模态Agent体验 [4] 商业化落地路径 - 面向B端客户提供Agent应用空间,降低企业接入门槛,实现成熟、安全、可控的Agent能力 [6] - Agent类型包括任务型、交互型、自主型、协作型,目标为替代基础性、重复性工作以提升效率 [6] - 视觉推理与工具调用深度融合,加速教育、医疗、企服等垂直场景的Agent商业化进程 [6] - 生成式AI向"自主智能体"演进,可能催生全新商业模式 [7] 智能硬件与端侧部署 - 早期模型依赖云端推理,现通过端侧算力提升实现端云结合,部署于汽车、AI眼镜等硬件 [8] - 未来机器人、汽车、眼镜等设备均将接入AI能力,形成更广泛的应用生态 [9]
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
量子位· 2025-07-03 12:26
长链推理中的幻觉现象研究 - 核心观点:随着推理链从3步延伸到50+步,幻觉率暴增10倍,反思节点不仅无法纠错,反而会强化错误[1][2] - 核心机制:模型为保持语义一致性,宁可篡改协议定义也不否定前提,导致错误沿推理链滚雪球式放大[2][3][13] 实验设计与发现 - 实验方法:基于RFC协议文档构建受控知识域,包含1515道限定问题,其中30%预埋三重错误事实[7][9][11] - 关键发现: - 55.9%的预埋错误会触发内部知识编造流程[20] - 反思操作中模型使用更多模糊词汇(如"perhaps"出现37.14次/样本)和犹豫表达(如"but wait"出现27.85次/样本)[17] - 错误知识在Type II场景的采纳率达25.93%,且重复强化次数达2.06次/关键主张[17][18] 干预实验与检测瓶颈 - 正向干预实验显示: - Edit1(错误发生前干预)对下游影响最大,修正传播率达40%[26][27] - Edit2(直接替换错误节点)接受度65%,但幻觉残留率仍达70%[26][28] - 检测技术局限: - 最优检测方法耗时2小时/样本,准确率仅79%[27] - 分钟级检测方法准确率≤61.6%,78.9%高精度方案需高算力支持[30] - 现有技术无法识别元认知漂移现象(如反思中错误强化)[30] 数据表现对比 - 控制组与幻觉组差异: - 控制组幻觉主张仅0.68%(0.25条/样本),Type II组达18.14%(7.01条/样本)[17] - 错误主张深度:控制组11.53步,Type I组达38.10步[17] - 知识采纳行为: - 内部错误采纳率在Type I组达45.55%,且伴随41.65%的虚假修正[17] - 外部错误在Type II组的拒绝率仅45.13%,显著低于理想水平[17]
【大涨解读】算力:出货量可能超iPhone,英伟达新服务器蓄势待发,配套部件有望迎来数倍需求提升
选股宝· 2025-07-03 11:07
市场表现 - 算力板块持续活跃,服务器相关股票表现突出,工业富联上涨8.27%,华勤技术上涨5.32% [1][2] - 新亚电子涨停,涨幅达10.01%,换手率为9.69%,流通市值57.96亿 [2] - 工业富联流通市值达4549.51亿,华勤技术流通市值为468.12亿 [2] 行业动态 - 高盛上调基板式AI服务器预测 [3] - 英伟达GB200量产进入高峰,下一代AI服务器芯片GB300预计2025年下半年上市 [3] - GB300出货量可能超越苹果即将推出的iPhone,成为科技产业新焦点 [3] - 广达电脑负责英伟达AI服务器系统集成,GB300预计9月出货 [3] 机构预测 - 高性能AI服务器H200、B200等2025/26年出货预期上调至52.5万/52.7万台 [4] - AI推理服务器2025/26年出货量预计同比增长10%/16%,市场规模同比增长37%/19% [4] - 2024年全球AI服务器出货量预计181.1万台,同比增长26.29% [4] - 搭载HBM的高阶AI服务器出货量预计108.8万台,同比增长40%以上 [4] - 全球服务器市场规模预计从2024年2164.0亿美元增长至2028年3328.7亿美元,年复合增长率18.8% [4] - AI服务器将占据近70%市场份额 [4] - 中国AI服务器市场规模预计从2020年26.8亿美元增长至2024年75.3亿美元,年复合增长率29.6% [4] 成本结构 - AI服务器中GPU成本占比接近70% [5] - 从普通服务器升级至AI训练服务器,内存、SSD、PCB、电源等部件价值量有数倍提升 [5]