大模型优化

搜索文档
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 14:20
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需要关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调大模型等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受到行业重点关注 [1] 大模型优化课程介绍 - 课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键技术 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式 [2] 课程解决的问题 - 帮助学员系统掌握大模型相关理论知识,形成清晰的体系 [3] - 解决动手能力差、无法复现论文的问题,协助开发设计新模型 [3] - 解决论文写作和投稿难题,积累写作方法论并获得投稿建议 [3] 课程收获 - 掌握大模型优化的核心算法,包括结构化剪枝、低比特量化、动态检索等关键技术 [9] - 获得Coding能力增强,在baseline代码和可用数据集上高效展开研究 [9] - 撰写出论文初稿,可能产出一篇不错的论文 [9] 课程大纲 - 大模型剪枝与稀疏化算法优化:详解让大模型体积更小、运行更快的方法 [19] - 大模型量化加速全景:从数据位宽到编译来优化大模型的加速 [19] - 参数高效微调(PEFT)革命:介绍用少量计算资源让大模型适应垂类任务的高效微调算法 [19] - 基于RAG的大模型知识动态扩展范式:解决大模型的事实性错误和知识更新滞后问题 [19] - Chain-of-Thought推理进阶:针对让大模型分步骤思考解决复杂问题的算法进行深入剖析 [19] 课程资源 - 提供Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目 [16] - 必读基础论文包括GPTQ、Sheared LLaMA、TVM等 [18] - 数据集来自于公开数据集,根据具体任务选用 [13] 招生要求 - 具备深度学习/机器学习基础,熟悉Python和PyTorch [6] - 最好具备4张4090显卡或以上设备性能的机器,最低不少于2张4090显卡 [15] - 掌握基本的编程语言,熟练使用PyTorch等深度学习框架 [15]
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 20:56
大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算:研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展:探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [3] - 复杂推理优化:研究链式思维(CoT)和强化学习优化(GRPO)等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法,包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT,结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论,形成清晰知识体系 [8] - 提升Coding能力,实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象:大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数:6人/期,至多8人 [5] - 要求:具备深度学习基础,熟悉Python和PyTorch,有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿,具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码,涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡,建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea,目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月,确保后续研究支持 [22]
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-08 07:31
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受行业重点关注 [1] 大模型优化课程核心内容 - 课程系统探讨大模型前沿优化方法,聚焦参数高效计算、知识动态扩展和复杂推理三大方向 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等范式 [2] 课程技术重点 - 结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等关键技术 [2] - 使用LLaMA、GPT等主流大模型作为实验平台 [2] - 多智能体协作和多模态理解等前沿方向 [2][3] 课程安排与产出 - 12周在线小组科研+2周论文指导+10周论文维护期 [7] - 每周1-1.5小时课程,涵盖大模型剪枝、量化加速、PEFT、多智能体协作等主题 [18][20] - 最终产出包括论文初稿、写作方法论、投稿建议 [6][7] 学员收获 - 系统掌握大模型优化理论体系,解决知识零散问题 [6] - 获得导师提供的定制化研究idea和baseline代码 [7][17] - 提升Coding能力,掌握论文写作与投稿技巧 [6][7] 技术要求与资源 - 需具备PyTorch和Python基础,建议配备4张4090显卡 [13] - 提供公开数据集和Baseline代码,包括LLM-Pruner、LLaVA等开源项目 [15][16][17] - 必读论文涵盖GPTQ量化、Sheared LLaMA剪枝等前沿研究 [17][19]
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 10:25
大模型优化课程核心内容 - 课程聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展和复杂推理三大方向 [1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等,实验平台采用LLaMA、GPT等主流模型 [1] - 重点解决参数压缩(剪枝稀疏化/量化加速)、知识扩展(RAG/PEFT)和推理优化(CoT/GRPO)等核心挑战 [1] 课程结构与招生信息 - 采用12周在线科研+2周论文指导+10周维护期的教学模式,每期限招6-8人 [3][10] - 目标学员包括大模型方向本硕博学生、科研人员及AI从业者,需具备PyTorch和Python基础 [4][5] - 硬件要求最低配置2张NVIDIA 4090显卡,推荐4张或使用云服务器 [11] 课程产出与学术支持 - 学员将获得定制化研究idea、baseline代码及公开数据集,最终完成论文初稿 [10][13][14] - 论文指导覆盖SCI 1-4区和CCF A/B/C类会议,提供从选题到投稿的全流程方法论 [18] - 必读论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)等前沿成果 [15][17] 课程技术模块 - 剪枝量化模块:涵盖结构化剪枝算法、GPTQ量化技术及TVM编译器优化 [15] - 知识扩展模块:通过RAG解决幻觉问题,采用PEFT实现垂类任务高效微调 [16] - 推理增强模块:包含Chain-of-Thought多步推理和GRPO强化学习优化 [16][17] - 多模态扩展:涉及LLaVA视觉语言模型和Flamingo多模态学习框架 [15][17] 教学安排与服务 - 每周1-1.5小时专题授课,包含多智能体协作、动态知识扩展等14个核心模块 [16][18] - 采用腾讯会议直播+小鹅通回放形式,提供6个月答疑周期和学术诚信监督 [18] - 课程产出包括顶会论文模板应用、动机凝练方法和选刊投稿策略 [18]
下一代大模型高效计算:参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦!
自动驾驶之心· 2025-07-04 15:13
大模型优化课程核心内容 课程简介与目标 - 聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展、复杂推理三大方向[1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等[1] - 采用LLaMA、GPT等主流模型作为实验平台,结合理论讲解与实验实践[1] 课程结构与内容 - 12周在线科研+2周论文指导+10周论文维护期的完整科研周期[11] - 每周1-1.5小时课程,覆盖剪枝稀疏化、量化加速、PEFT微调、RAG知识扩展、CoT推理等核心技术[16][18] - 提供公开数据集和Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目[15] 学员收获与产出 - 系统掌握大模型优化知识体系,解决零散知识整合问题[5] - 获得定制化研究idea,完成论文初稿并掌握顶会论文写作方法论[11][18] - 提升coding能力,在baseline代码基础上开展创新实验[11] 招生要求与资源配置 - 每期限招6-8人,要求具备PyTorch和Python基础,熟悉深度学习框架[3][7] - 硬件建议配置4张4090显卡,最低要求2张4090[12] - 需完成Linux开发环境搭建,掌握CUDA基础语法和代码辅助工具[12] 核心技术与参考文献 - 重点论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)、LLaVA多模态(NeurIPS 2023)等[15][17] - 涉及TVM编译器优化(OSDI 2018)、PagedAttention内存管理(SOSP 2023)等系统级优化技术[17] - 涵盖Flamingo多模态学习(NeurIPS 2022)、CoT推理(NeurIPS 2022)等前沿算法[17]
韩松贾扬清之后,又一家清华系AI公司卖给英伟达,黄仁勋亲自招募95后联创
量子位· 2025-06-29 15:43
核心观点 - 华人AI创业公司Nexusflow被英伟达收购,其联合创始人加入英伟达担任重要职位 [1][4][6] - 英伟达近期在AI领域收购活跃,2024年投资总额达10亿美元,超过2023年的8.72亿美元 [34][35] - 清华校友在AI创业和英伟达收购中扮演重要角色,形成人才聚集效应 [13][14][16] 公司收购与人才流动 - Nexusflow由焦剑涛、朱邦华、Jian Zhang和Kurt Keutzer于2023年创立,专注于生成式AI解决网络安全问题 [24][25] - 公司成立几个月后完成1060万美元种子轮融资,投后估值5300万美元 [25] - 公司转型为企业生成式AI Agents方向,推出NexusRaven-V2和Athene系列开源模型,性能媲美GPT-4o和Claude 3.5 [26][28] - 焦剑涛加入英伟达任研究总监及杰出科学家,朱邦华任Principal Research Scientist [6][39] - 此前韩松创办的OmniML也被英伟达收购,团队加入英伟达担任要职 [11] 技术实力与生态整合 - Nexusflow的Athene-70B模型基于Meta Llama-3-70B微调,在Arena-Hard评测中接近顶级专有模型 [32] - 公司是Together AI主要客户,英伟达曾参与Together AI的A轮和B轮融资 [32] - 被收购公司技术将被整合到英伟达产品线,如Lepton AI成为NVIDIA DGX Cloud Lepton [37][38] - 焦剑涛表示将继续推动开源研究成果,构建开放AI社区 [33] 英伟达收购策略 - 2024年英伟达收购数量超过过去四年总和,参与50轮融资 [34] - 对业务相关性强公司直接收购,对生态相关企业参与投资 [35] - 近期收购包括Run:ai、Deci、OctoAI、Lepton AI和加拿大公司CentML [35][36] 清华校友网络 - 被收购公司创始人贾扬清、韩松、吴迪、毛慧子、焦剑涛、朱邦华均为清华校友 [13][14][16] - 按入学时间可分为三批:2002年、2007-2008年、2012-2014年 [15] - 焦剑涛为2011年清华特等奖学金得主(每年仅10人) [18]