模型优化

搜索文档
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-08 07:31
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受行业重点关注 [1] 大模型优化课程核心内容 - 课程系统探讨大模型前沿优化方法,聚焦参数高效计算、知识动态扩展和复杂推理三大方向 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等范式 [2] 课程技术重点 - 结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等关键技术 [2] - 使用LLaMA、GPT等主流大模型作为实验平台 [2] - 多智能体协作和多模态理解等前沿方向 [2][3] 课程安排与产出 - 12周在线小组科研+2周论文指导+10周论文维护期 [7] - 每周1-1.5小时课程,涵盖大模型剪枝、量化加速、PEFT、多智能体协作等主题 [18][20] - 最终产出包括论文初稿、写作方法论、投稿建议 [6][7] 学员收获 - 系统掌握大模型优化理论体系,解决知识零散问题 [6] - 获得导师提供的定制化研究idea和baseline代码 [7][17] - 提升Coding能力,掌握论文写作与投稿技巧 [6][7] 技术要求与资源 - 需具备PyTorch和Python基础,建议配备4张4090显卡 [13] - 提供公开数据集和Baseline代码,包括LLM-Pruner、LLaVA等开源项目 [15][16][17] - 必读论文涵盖GPTQ量化、Sheared LLaMA剪枝等前沿研究 [17][19]
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 10:25
大模型优化课程核心内容 - 课程聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展和复杂推理三大方向 [1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等,实验平台采用LLaMA、GPT等主流模型 [1] - 重点解决参数压缩(剪枝稀疏化/量化加速)、知识扩展(RAG/PEFT)和推理优化(CoT/GRPO)等核心挑战 [1] 课程结构与招生信息 - 采用12周在线科研+2周论文指导+10周维护期的教学模式,每期限招6-8人 [3][10] - 目标学员包括大模型方向本硕博学生、科研人员及AI从业者,需具备PyTorch和Python基础 [4][5] - 硬件要求最低配置2张NVIDIA 4090显卡,推荐4张或使用云服务器 [11] 课程产出与学术支持 - 学员将获得定制化研究idea、baseline代码及公开数据集,最终完成论文初稿 [10][13][14] - 论文指导覆盖SCI 1-4区和CCF A/B/C类会议,提供从选题到投稿的全流程方法论 [18] - 必读论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)等前沿成果 [15][17] 课程技术模块 - 剪枝量化模块:涵盖结构化剪枝算法、GPTQ量化技术及TVM编译器优化 [15] - 知识扩展模块:通过RAG解决幻觉问题,采用PEFT实现垂类任务高效微调 [16] - 推理增强模块:包含Chain-of-Thought多步推理和GRPO强化学习优化 [16][17] - 多模态扩展:涉及LLaVA视觉语言模型和Flamingo多模态学习框架 [15][17] 教学安排与服务 - 每周1-1.5小时专题授课,包含多智能体协作、动态知识扩展等14个核心模块 [16][18] - 采用腾讯会议直播+小鹅通回放形式,提供6个月答疑周期和学术诚信监督 [18] - 课程产出包括顶会论文模板应用、动机凝练方法和选刊投稿策略 [18]
下一代大模型高效计算:参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦!
自动驾驶之心· 2025-07-04 15:13
大模型优化课程核心内容 课程简介与目标 - 聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展、复杂推理三大方向[1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等[1] - 采用LLaMA、GPT等主流模型作为实验平台,结合理论讲解与实验实践[1] 课程结构与内容 - 12周在线科研+2周论文指导+10周论文维护期的完整科研周期[11] - 每周1-1.5小时课程,覆盖剪枝稀疏化、量化加速、PEFT微调、RAG知识扩展、CoT推理等核心技术[16][18] - 提供公开数据集和Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目[15] 学员收获与产出 - 系统掌握大模型优化知识体系,解决零散知识整合问题[5] - 获得定制化研究idea,完成论文初稿并掌握顶会论文写作方法论[11][18] - 提升coding能力,在baseline代码基础上开展创新实验[11] 招生要求与资源配置 - 每期限招6-8人,要求具备PyTorch和Python基础,熟悉深度学习框架[3][7] - 硬件建议配置4张4090显卡,最低要求2张4090[12] - 需完成Linux开发环境搭建,掌握CUDA基础语法和代码辅助工具[12] 核心技术与参考文献 - 重点论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)、LLaVA多模态(NeurIPS 2023)等[15][17] - 涉及TVM编译器优化(OSDI 2018)、PagedAttention内存管理(SOSP 2023)等系统级优化技术[17] - 涵盖Flamingo多模态学习(NeurIPS 2022)、CoT推理(NeurIPS 2022)等前沿算法[17]
韩松贾扬清之后,又一家清华系AI公司卖给英伟达,黄仁勋亲自招募95后联创
量子位· 2025-06-29 15:43
核心观点 - 华人AI创业公司Nexusflow被英伟达收购,其联合创始人加入英伟达担任重要职位 [1][4][6] - 英伟达近期在AI领域收购活跃,2024年投资总额达10亿美元,超过2023年的8.72亿美元 [34][35] - 清华校友在AI创业和英伟达收购中扮演重要角色,形成人才聚集效应 [13][14][16] 公司收购与人才流动 - Nexusflow由焦剑涛、朱邦华、Jian Zhang和Kurt Keutzer于2023年创立,专注于生成式AI解决网络安全问题 [24][25] - 公司成立几个月后完成1060万美元种子轮融资,投后估值5300万美元 [25] - 公司转型为企业生成式AI Agents方向,推出NexusRaven-V2和Athene系列开源模型,性能媲美GPT-4o和Claude 3.5 [26][28] - 焦剑涛加入英伟达任研究总监及杰出科学家,朱邦华任Principal Research Scientist [6][39] - 此前韩松创办的OmniML也被英伟达收购,团队加入英伟达担任要职 [11] 技术实力与生态整合 - Nexusflow的Athene-70B模型基于Meta Llama-3-70B微调,在Arena-Hard评测中接近顶级专有模型 [32] - 公司是Together AI主要客户,英伟达曾参与Together AI的A轮和B轮融资 [32] - 被收购公司技术将被整合到英伟达产品线,如Lepton AI成为NVIDIA DGX Cloud Lepton [37][38] - 焦剑涛表示将继续推动开源研究成果,构建开放AI社区 [33] 英伟达收购策略 - 2024年英伟达收购数量超过过去四年总和,参与50轮融资 [34] - 对业务相关性强公司直接收购,对生态相关企业参与投资 [35] - 近期收购包括Run:ai、Deci、OctoAI、Lepton AI和加拿大公司CentML [35][36] 清华校友网络 - 被收购公司创始人贾扬清、韩松、吴迪、毛慧子、焦剑涛、朱邦华均为清华校友 [13][14][16] - 按入学时间可分为三批:2002年、2007-2008年、2012-2014年 [15] - 焦剑涛为2011年清华特等奖学金得主(每年仅10人) [18]
上海浦东发展银行股份有限公司2024年年度股东会决议公告
上海证券报· 2025-06-28 05:48
股东会召开情况 - 2025年股东会于6月27日在上海市莲花路1688号召开,采用现场与网络投票结合的方式[2] - 会议由董事长张为忠主持,11名董事、8名监事及高级管理层全员出席[3][4] - 表决程序符合《公司法》及《公司章程》,无否决议案[2][3] 议案审议结果 - 2024年度董事会工作报告、监事会工作报告、财务决算及2025预算报告均获全票通过[5][6] - 利润分配方案:提取法定盈余公积43.29亿元、一般准备83亿元,每10股派现4.1元(含税)[6] - 修订《公司章程》及撤销监事会的特别决议议案获三分之二以上表决通过[8] - 关联交易议案中,国泰海通证券等关联方回避表决[8] 董事会及监事会决议 - 董事会全票通过修订《绿色金融管理办法》《信用风险加权资产计量管理办法》等四项议案[11][12] - 监事会同步批准相同议案,8名监事一致同意[13][14] 公司治理变动 - 选举谢伟为新任董事,其任职资格待金融监管总局核准[6] - 修订《股东会议事规则》《董事会议事规则》获通过,优化治理结构[8][9][10] 财务与资本管理 - 未分配利润结余将按监管要求用于补充资本[6] - 2025年启动首次预期信用损失法模型优化及资产核销程序[12][14]
无需SFT也不用RL,样本级推理优化神器SLOT来了,准确率轻松+10%
机器之心· 2025-06-09 16:03
近期,当很多人还在纠结用什么 label 和 reward 训练大模型的时候,以及纠结用什么样的基准模型进行公平比较的时候,西湖大学 MAPLE 实验室另辟蹊径:既然 LLM 在复杂指令上表现不佳,需要引入单独的 SFT 或者 RL 过程,那为什么不让模型在推理时「临时学习」一下这 个具体的问题呢?这个看似「离谱」的想法,竟然带来了惊人的效果提升。 试想一下,如果你参加考试时,可以在答题前花几秒钟「适应」一下这道具体的题目,你的表现会不会更好? 这正是西湖大学研究团队在最新论文中提出的核心思想。他们开发的 SLOT(Sample-specific Language Model Optimization at Test-time)方法, 把每个输入 prompt 本身当作一份「迷你训练数据」 ,让模型在生成答案前先「学习」理解这个具体问题。 更令人惊讶的是,这个方法 简单到离谱 : Qwen2.5-7B 在 GSM8K 数学推理任务上准确率从 57.54% 飙升至 66.19% ,提升 8.65 个百分点。 DeepSeek-R1-Distill-Llama-70B 在 GPQA Diamond 上达到 68. ...
胜利油田:以AI赋能应急管理
中国化工报· 2025-05-28 10:51
数据治理与智能转型 - 胜利油田通过部署新型传感器,数据采集完整率从68%提升至91%,深海设备年维护成本降低40% [1] - 采用特种合金外壳的耐腐蚀压力传感器在海水环境中稳定运行8个月,单台年维护费用从20万元降至12万元,防爆型传感器使用寿命从3个月延长至1年,单井数据完整率从72%升至93%,月度维护工时减少60% [2] - 部署北斗授时系统实现2.3万个监测点毫秒级时钟同步,时间戳错乱率从15%降至1%,引入小波变换算法使数据偏差从12%缩小到3% [2] 模型优化与算法应用 - 胜利油田通过植入地形高程参数和植被分布特征,火灾蔓延预测误差从45%降至18%,灭火时间缩短25% [3] - 建立动态学习机制,当抽油机振动频谱偏移超过15%时自动触发模型增量训练,故障预警准确率稳定在89%以上 [3] - 开发参数迁移技术,模型适配陆地油库仅需补充10%新数据,训练成本降低70%,运用生成对抗网络(GAN)技术将7起重大井喷事故数据扩展至85组合成样本,识别率从32%提升至78% [4] 人员培训与技能转型 - 推出可视化手册将43项常见操作转化为三维动画,老员工系统操作通过率从52%提升至89% [5] - 采用"师徒结对"模式让老员工适应智能终端,共同开发的智能阀门控制系统在突发停电事件中发挥关键作用 [5][6] - VR演练舱提供12类事故场景模拟,井喷模拟考核平均得分提高37%,"石油工程+AI"双专业培训班学员优化3个应急模型,故障预警准确率提升15% [6] 协同机制与行业影响 - 跨油田应急演练中地质构造数据共享使泄漏扩散模拟误差从30%收窄至12%,联合处置效率提升40% [2] - 23个微服务模块平稳运行,86%老员工通过系统操作考核,智能应急体系实现从单点预警到全局协同的跨越式发展 [6] - 员工提出的17项优化建议中5项已落地应用,预计年创效超200万元 [6]
全国门店超1.4万家,年轻人即将再“吃”出一家IPO?
搜狐财经· 2025-05-02 23:00
从县城崛起的量贩零食连锁,终于正式冲击资本市场。 2025年4月28日,湖南鸣鸣很忙商业连锁股份有限公司(以下简称"鸣鸣很忙"或"公司")正式向港交所递交主板上市申请,高盛、华泰国际为联席保荐人。 这个成立不到十年的量贩零食品牌,凭借"高性价比+下沉市场"的打法,以惊人的速度在全国跑马圈地。截至2024年底,全国门店数量突破1.4万家,年营收 近50亿元,俨然已成为一股不容忽视的新消费力量。 01 鸣鸣很忙的崛起 "下沉市场+加盟快跑"的中国式进击 鸣鸣很忙诞生于2017年长沙。起步阶段,公司选择避开一二线城市的激烈竞争,精准聚焦于三四线及以下城市的下沉市场,通过"便宜好吃、选择多"的策略 打开市场缺口。在零食集合店尚属新鲜事物的当时,"鸣鸣很忙"以迅雷不及掩耳之势迅速复制门店,赢得消费者青睐。 其背后的底层逻辑,是一种"中国式进化":依托加盟模式实现极速扩张,通过标准化选址与装修降低门槛,同时强化供应链压缩成本,形成高周转、高坪效 的商业闭环。 据其招股书披露,截至2024年底,公司门店已达14,180家,覆盖全国31个省级行政区。其中加盟店占比高达97.4%,可谓标准的"轻资产、高复制"典范。这 一模式的 ...