Workflow
大语言模型推理
icon
搜索文档
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 10:02
SRFT团队 投稿 量子位 | 公众号 QbitAI 通过单阶段监督微调与强化微调结合,让大模型在训练时能同时利用专家演示和自我探索试错,有效提升大模型推理性能。 中国科学院自动化研究所深度强化学习团队 联合 美团 ,提出一种 单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning) 。该方法通过基于熵的动态加权机制,将两种训练范式结合。 在大语言模型(LLM)的推理能力提升上,监督微调(SFT) 和强化学习(RL,有时也称作强化微调,RFT)是两条核心技术路线。但它们 各自都存在瓶颈: SFT擅长模仿专家解题思路,类似"背书",能快速为模型打下基础,但缺点是容易陷入死记硬背,缺乏在新问题上灵活应用和寻找最优解的能 力; RFT/RL通过不断试错来探索解题方法,类似"刷题",能够发现更优解法,但其探索过程效率低下,容易面临模式崩溃风险。 因此,目前研究者通常采用两阶段 顺序 方法SFT→RFT/RL:先用SFT学习高质量数据集,再用RFT/RL进一步优化对齐LLM策略(即先"背 完书"再"去刷题")。 然而,这种串行方式不仅影响学习效率,还常常导致模型 ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
猿大侠· 2025-06-02 12:22
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 11:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 曾撼动Transformer统治地位的Mamba作者之一 Tri Dao ,刚刚带来新作—— 提出两种专为推理"量身定制"的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA) ,与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA) ,与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比 FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的 内存使用 和 计算逻辑 ,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资 源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ | Sara Hooker ...
低Token高精度!字节复旦推出自适应推理框架CAR
量子位· 2025-05-27 11:53
核心观点 - 过度依赖CoT思维链推理会降低模型性能,新提出的自适应推理框架CAR能根据模型困惑度动态选择短回答或长文本推理,实现准确性与效率的最佳平衡[1][3] - CAR框架在多模态视觉问答、关键信息提取及文本推理等多个基准测试中超越单纯的短回答与长推理方法[3] - CAR打破了"长文本推理必然性能更好"的固有认知,为大模型推理提供更灵活高效的解决方案[27] 研究背景 - 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现[2] - 已有研究发现长CoT推理并非总能提升准确率,甚至会削弱模型处理简单任务的能力[3] 实验设置 - 研究聚焦文本密集型视觉问答(VQA)和关键信息抽取(KIE)领域,选取8个代表性公开数据集开展实验[4] - VQA数据集包括DocVQA、InfoVQA、ChartQA、VisualMRC,KIE数据集包括SROIE、CORD、FUNSD、POIE[4] - 使用Qwen2.5-0.5B模型进行微调,在域内和域外数据集上开展性能评估[4] 关键发现 - PPL与准确率之间存在显著的强负相关性,数据集整体准确率越高,其平均PPL值越低[7] - 预测正确样本的平均PPL分数显著低于预测错误样本[7] - 以测试集PPL分布的75%分位数作为阈值,PPL值超过阈值时触发长文本推理模式[8] 方法设计 - CAR框架首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理[3] - 使用包含简短答案和长文本推理解答标注的训练示例构建新数据集,采用标准指令微调流程[12] - 对训练集中所有样本进行短答案推理,生成预测答案并计算其困惑度值PPL[13] 性能表现 - 在多模态数据集上,CAR Qwen2VL平均使用86.9个token,仅为Qwen2-VL Long所使用Token数量的15%[22] - 在DocVQA、ChartQA、FUNSD数据集上,CAR Qwen2VL准确率分别达到90.1%、69.9%、73.6%[23] - 使用Qwen2.5-7B模型时平均准确率达81.1%,使用Llama3.1-8B时达74.9%[24] - 在GSM8K、StrategyQA、MathOA数据集上,CAR Qwen2.5平均准确率达81.1%[26]
红帽宣布推出llm-d社区,NVIDIA、Google Cloud为创始贡献者
新浪科技· 2025-05-27 11:42
新浪科技讯 5月27日上午消息,全球开源解决方案提供商红帽公司近日宣布启动新开源项目llm-d,以满 足生成式AI大规模推理需求。据悉,该项目与创始贡献者CoreWeave、Google Cloud、IBM Research和 NVIDIA合作打造,能够利用突破性的大规模生成式AI推理技术,让大语言模型(LLM)推理云能够满 足最苛刻的生产服务级目标(SLO)。 NVIDIA工程AI框架副总裁Ujval Kapasi表示:"llm-d项目是对开源AI生态系统的重要补充,体现了 NVIDIA对合作推动生成式AI创新的支持。可扩展、高性能地推理是下一波生成式AI和代理式AI的关 键。我们正在与红帽和其他支持合作伙伴合作,促进llm-d社区的参与和行业采用,利用NIXL等 NVIDIA Dynamo创新帮助加速llm-d的发展。"(文猛) 责任编辑:杨赐 红帽及其行业合作伙伴正通过llm-d应对这一挑战,将先进的推理能力集成到现有的企业IT基础设施 中。据悉,该统一平台使IT团队能够满足关键业务工作负载的各种服务需求,同时部署创新技术以最大 限度地提高效率,并显著降低与高性能AI加速器相关的总体拥有成本(TCO)。 ...
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心· 2025-05-23 12:17
机器之心发布 机器之心编辑部 现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着 一系列推理层面的难题,比如推不动、算不起、部署慢,导致推理成本高昂,性能冗余浪费严重。 因此,大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题,如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅 是工程挑战,更要在承接大模型推理压力的同时,在能效、延迟、成本等多方面实现可控与优化。 在这一背景下,华为团队和昨天一样(参考: 帮大模型提速 80%,华为拿出昇腾推理杀手锏 FlashComm,三招搞定通算瓶颈 ),用数学补物理,给出了一份深度 融合软硬件的系统性方案! 他们基于昇腾算力,正式发布了三项重要的硬件亲和算子技术研究,带来了大模型推理速度与能效的双重革命 。具体包括如下: 可以看到,华为团队着力通过对大模型推理中关键算子的重构优化,实现能效、多卡协同和速度三大维度的全面突破。 作为 AI 大模型执行计算的「原子级工具」,算子如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。它们不 ...
叶子豪、陈天奇等人开源项目FlashInfer入选,MLSys2025最佳论文奖公布
机器之心· 2025-05-14 12:36
机器之心报道 编辑:泽南、+0 今年的两篇最佳论文一作均为华人。 近日,国际系统领域顶会 MLSys 2025 公布了最佳论文奖。 今年的大奖颁发给了来自华盛顿大学、英伟达、Perplexity AI、卡耐基梅隆大学的 FlashInfer,以及瑞典查尔摩斯理工大学的《The Hidden Bloat in Machine Learning Systems》。 对此,英伟达第一时间发出祝贺,并表示「FlashInfer」的「LLM 推理内核能力」已经被集成到 vLLM 项目、SGLang 以及自定义推理引擎中。 FlashInfer FlashInfer 最初是华盛顿大学 Paul G. Allen 计算机科学院、卡耐基梅隆大学及陈天奇的创业公司 OctoAI 共同发起的合作研究项目,旨在创建一个灵活的 大语言模型(LLM)推理内核库,提供 LLM GPU 内核的高性能实现,如 FlashAttention、SparseAttention、PageAttention、Sampling 等。 英伟达表示,首个适用于 DeepSeek MLA 的 Blackwell 内核也出自 FlashInfer。 Flash ...
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
机器之心· 2025-04-28 16:04
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍 阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。 PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生,共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中,包含至少 50 位 全国中学生物理竞赛金牌得主,更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作,不仅充分展现了北大学子深厚的学术功底和卓越 的组织协调能力,也为 PHYBench 产出高质量成果提供了坚实保障。 在大语言模型(LLMs)飞速发展的当下,模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布,这些大模型凭借强 化学习技术的助力,在许多科学评测基准上频频刷新纪录,甚至声称 "超越人类专家"。 但是,随着模型能力和评测基准的军备竞赛白热化, 越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。 这些题目虽然能 ...