大语言模型
搜索文档
中移动九天团队MultiPL-MoE:全新Hybrid-MoE架构用于增强通用大模型低资源代码能力
机器之心· 2025-10-30 09:41
核心观点 - 中国移动九天团队提出创新性Hybrid MoE架构MultiPL-MoE,旨在解决大语言模型在有限计算资源下提升多编程语言代码生成能力时面临的挑战,特别是低资源语言性能差与高资源语言灾难性遗忘问题[2][4] - 该架构通过耦合token-level和segment-level两层专家选择机制进行优化,在HumanEval和MBPP基准测试中显示出显著进步,有效提升了低资源语言的性能并缓解了灾难性遗忘[2][19] - 该项研究已被EMNLP 2025接收,相关论文和代码已公开[3] 方法与架构 - MultiPL-MoE是一种混合MoE结构,结合了token-level MoE和segment-level MoE[4][7] - Token-level MoE采用配备共享专家及新颖门控权重归一化方法的稀疏MoE,以实现与段落层级专家的高效协同并解决规模不匹配问题[2][7][8] - Segment-level MoE创新性地引入滑动窗口划分与专家选择路由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式[2][7][9] - 最终输出为token-level MoE和segment-level MoE输出的加权融合[13] 实验结果 - 在HumanEval基准测试中,MultiPL-MoE(激活参数3.5B,总参数10.8B)在六种语言上的平均得分为10.8,显著高于基线模型Qwen1.5(1.8B参数)的7.4分[19][20] - 在MBPP基准测试中,MultiPL-MoE平均得分为15.0,高于Qwen1.5的10.0分,尤其在低资源语言Rust上从基线的4.5分提升至16.1分,Go从8.5分提升至17.3分[19][20] - 实验结果表明该方法显著增强了模型在低资源编程语言上的性能,同时有效缓解了高资源编程语言中的灾难性遗忘问题[19]
AI 赋能资产配置(十九):机构 AI+投资的实战创新之路
国信证券· 2025-10-29 15:16
核心观点 - 大语言模型正将海量非结构化文本转化为可量化的Alpha因子,从根本上拓展了传统投研的信息边界[1] - 从大语言模型的信号提取、深度强化学习的动态决策到图神经网络的风险建模,AI赋能资产配置的全链条技术栈已具备现实基础[1] - AI正从辅助工具转向决策中枢,推动资产配置从静态优化迈向动态智能演进,重塑买方的投研与执行逻辑[1] - 头部机构的竞争已升维至“AI原生”战略,其核心是构建专有、可信且能驾驭复杂系统的AI核心技术栈[2] - 对国内资管机构而言,破局之道在于战略重构与组织变革,走差异化、聚焦式的技术落地路径[3] AI技术对资产配置范式的重塑 大语言模型的应用与挑战 - 大语言模型凭借自注意力机制能够精准捕捉词汇在句子中的复杂关系与上下文含义,实现更精准的金融情绪判断,将投资分析从数字领域拓展至语义领域[11][12] - 金融专用大语言模型的开发遵循预训练加微调的两步范式,业界已开发出BloombergGPT(500亿参数)、FinGPT、FinBERT与FinLlama等专用模型[13] - 大语言模型可直接为算法交易系统提供情绪信号,并实现7×24小时不间断监控全球信息流以识别潜在风险早期信号[14] - 大语言模型应用面临数据偏见与模型幻觉、高昂计算成本、可解释性难题等挑战,金融专用大语言模型的竞争正演变为围绕专有数据与微调专业知识的军备竞赛[15][16] 深度强化学习的革新价值 - 深度强化学习采用“智能代理”与“环境”交互的学习范式,目标是在长期内实现最优回报的决策策略,而非一次性精准预测[17][18] - 主流深度强化学习算法包括演员-评论家方法、近端策略优化和深度确定性策略梯度,其中深度确定性策略梯度专为连续行动空间设计,非常适合投资组合管理任务[19][20] - 深度强化学习面临数据依赖与过拟合风险、市场周期适应性难题、高昂计算成本以及现实世界约束整合等发展瓶颈[21][22] 图神经网络的风险建模能力 - 图神经网络将整个金融系统抽象为网络,其中“节点”代表金融机构,“边”代表它们之间的相互关联,能够捕捉风险通过网络进行“传染”的动态过程[23] - 图神经网络通过“消息传递”机制让每个节点聚合其邻居节点信息,从而感知其在网络中的局部和全局环境,为监管部门提供强大的压力测试模拟工具[24][25] - 图神经网络可帮助投资者识别高度关联的“公司集群”,构建更有效的投资组合对冲策略,实现对整个“社区”风险的对冲[26] 头部资管机构的AI实践 贝莱德的AlphaAgents系统 - AlphaAgents系统通过模拟人类投资委员会的“协作与辩论”机制,设立基本面分析、情绪分析和估值分析三个具有明确角色分工的AI智能体[30][31] - 系统选择GPT-4o作为核心模型,在事实分析基础上进入对抗性辩论与共识辩论环节,通过多轮讨论直至所有智能体达成一致共识[31][33] - 回测实验显示,在风险中性策略下,多代理投资组合的累计回报和夏普比率显著优于所有单代理组合及市场基准,而在风险规避策略下成功实现了规避下行风险的策略目标[34][35] - AlphaAgents代表了人机协作模式的根本性升级,其多智能体辩论机制提高了分析严谨性并减少AI幻觉问题,为AI决策的可解释性提供重要支撑[39] 摩根大通的AI原生战略 - 摩根大通每年在AI上投入20亿美元,2025年技术预算高达180亿美元,其中AI是核心部分,通过设立专门AI研究部门系统性地推进金融AI基础研究[42][43] - 2024至2025年间,摩根大通AI部门共发表140篇出版物,包括15篇期刊论文和63篇会议论文,其中8篇发表于AAAI顶级会议[44] - 摩根大通的AI战略围绕三大支柱:构建专有可信的AI核心技术、通过模拟与自动化决策掌控复杂系统、从物理与另类数据中创造信息优势[45][53][58] - 在可信AI领域,摩根大通研究在不直接接触敏感数据前提下实现模型公平性的方法,以及开发具备数学上可证明隐私保护能力的合成数据[46][47] 对国内资管机构的启示 - 国内资管机构应进行顶层设计并寻求差异化破局,成立跨部门AI战略委员会,制定符合公司特色的转型路线图,采取“聚焦突破”策略[63] - 技术实施层面应采取“三步走”策略:夯实数据基础、基于开源框架进行模型选择、确立“人机协同”原则将AI定位为投研团队的“智能副手”[64] - 必须打破传统部门壁垒,构建融合投资洞察、数据科学和工程实现的跨职能团队,采取“外部引进与内部培养”双轨制进行人才建设[65][66] - 需要建立覆盖模型全生命周期的治理框架,特别关注大语言模型的“幻觉”问题,前瞻性布局“可信AI”能力建设[67]
推理时扰动高熵词,增强LLM性能
机器之心· 2025-10-29 09:07
核心观点 - 研究发现大型语言模型在推理时的不确定性高度局部化,仅由一小部分高熵词显著影响输出的正确性 [2] - 研究团队提出了一种名为Minimal Test-Time Intervention的无需训练、即插即用的方法,通过在推理阶段对高熵词进行微干预来提升模型性能 [3][20] - 该方法结合了选择性CFG干预和轻量级负向提示引导两种技术,在维持高效率的同时显著提升模型在多项任务上的表现 [3][12][20] 技术方法:选择性CFG干预 - 该方法旨在减弱高熵词的不确定性,通过在多步推理中识别并干预导致错误放大的高熵词来稳定推理过程 [7][8] - 研究发现错误回答的熵更高,主要由回答中的高熵词导致,因此在高熵词上使用Classifier-free Guidance以降低不确定性 [8] 技术方法:轻量级负向提示引导 - 该方法通过复用条件分支的KV缓存并附加短指令来节省显存分配,同时维护更优的无条件空间 [9][10] - 与传统CFG需要分配新KV缓存不同,该方法将无条件分支视为负向提示通道,重用了条件分支的KV缓存 [10] - 注入的短语非常灵活,研究发现"OUTPUT ERROR"已能产生优良效果 [10] 实验结果 - 在通用任务、代码任务、数学与科学任务上的测试显示,MTI方法能稳定带来性能提升 [12] - 在Qwen3-14B-Reasoning模型上,仅对3.5%的词执行MTI即可为所有任务平均提升1.58个点 [12] - 在AIME2024实验中,Qwen3-8B-Reasoning模型仅需对1.9%的词执行CFG,即可为准确性带来4.9%的增长 [13] - 在Qwen3-14B模型上,使用MTI方法后准确率达到82.92%,CFG使用率仅为9.0% [14] 方法分析 - 研究发现低熵词很难被CFG改变,因为模型对其输出非常确信,而CFG的有效操作主要集中在高熵词部分 [17] - 应用该方法可使基础模型的低信息量占位符被语义上更有意义的词语取代,创造更丰富的推理分支 [19] - 对于推理模型,该方法促使从单一连接词向更多样化连接词转变,有助于模型摒弃错误的先验推理链并开启新思路 [19]
谷歌推出 LLM-Evalkit,为提示词工程带来秩序与可衡量性
AI前线· 2025-10-29 08:44
谷歌推出LLM-Evalkit工具 - 谷歌推出开源框架LLM-Evalkit,旨在通过Vertex AI SDK使大语言模型的提示词工程变得有序且可衡量,以统一的数据驱动工作流替代分散文档和基于猜测的迭代方式[2] - 该工具将实验、提示词保存和结果评估整合到一个连贯环境中,支持创建、测试、版本控制和并排比较提示词,帮助团队通过共享记录清晰跟踪提示词性能改进,摆脱对模糊记忆或电子表格的依赖[2] - 工具核心理念是停止猜测并进行精准衡量,用户可定义具体任务、构建代表性数据集,并利用客观指标评估输出,使改进可量化,将直觉判断转变为有据可依的实证分析[2] 工具集成与设计理念 - LLM-Evalkit与现有谷歌云工作流无缝集成,基于Vertex AI SDK构建并与谷歌专业评估工具紧密相连,在实验与性能跟踪间建立结构化反馈循环,使团队能便捷运行测试、精确比较输出并为所有提示词迭代维护统一真实数据源[3] - 框架设计体现包容性理念,提供无代码界面以降低操作门槛,使开发人员、数据科学家、产品经理和用户体验作家等广泛专业人士都能轻松使用,促进技术与非技术团队成员间的快速迭代和紧密协作,将提示词设计变为跨学科工作[3] 市场反响与获取方式 - 项目开发者Michael Santoro在LinkedIn上宣布了这一开源框架,旨在为在谷歌云上使用大语言模型的团队简化提示词工程流程[4][5] - 该领域从业者对此表示广泛关注,有用户评论指出其解决了缺乏集中化系统跟踪提示词的问题,尤其是在模型不断升级时更为突出[6] - LLM-Evalkit已在GitHub上作为开源项目发布,与Vertex AI深度集成,谷歌云控制台提供详细教程,新用户可利用谷歌提供的300美元试用积分进行探索[6]
国泰海通:打破内存墙限制 AI SSD迎来广阔成长空间
智通财经网· 2025-10-28 20:33
行业核心观点 - 国泰海通证券给予电子行业“增持”评级 [1][2] - AI创造的庞大数据量冲击全球数据中心存储设施 [1][2] - 基于SSD的存储卸载技术方案可为AI模型高效运行提供新路径 [1][3] 技术挑战:KV Cache与内存瓶颈 - 键值缓存(KV Cache)技术通过存储已生成token的Key和Value来优化计算效率、减少重复运算,显著提升推理效率 [2] - 随着Agentic AI时代到来,模型规模化扩张、长序列需求激增以及推理任务并发量增长,推理的KV Cache容量增长已超出HBM的承载能力 [2] - KV Cache需要占用GPU的显存(如HBM),生成的文本越长,缓存数据量越大,可能导致HBM和DRAM超载,造成频繁的内存溢出和卡顿迟缓 [2] 解决方案:存储卸载技术 - 业界探索KV Cache分级缓存管理技术,支持将KV Cache缓存从GPU内存卸载到CPU、SSD甚至网络存储,以解决大模型显存瓶颈 [2][3] - 英伟达推出的分布式推理服务框架Dynamo支持KV Cache卸载,其KVBM提供从GPU memory到CPU host memory、SSD、远端存储的卸载,避免大量KV Cache重计算 [3] - 三星电子提出基于SSD的存储卸载方案,将KV Cache卸载至NVMe SSD,可使首token延迟(TTFT)最高降低66%,token间延迟(ITL)最高降低42% [3] 市场趋势:存储设备更替 - 传统作为海量数据存储基石的Nearline HDD已出现供应短缺,促使高效能、高成本的SSD逐渐成为市场焦点 [1][2][4] - AI推理应用推升实时存取、高速处理海量数据的需求,促使HDD与SSD供应商积极扩大供给大容量存储产品 [4] - 由于HDD市场面临巨大供应缺口,NAND Flash业者加速技术转进,投入122TB、甚至245TB等超大容量Nearline SSD的生产 [4]
国泰海通|电子:打破内存墙限制,AI SSD迎来广阔成长空间
国泰海通证券研究· 2025-10-28 20:00
文章核心观点 - AI大模型发展面临"内存墙"难题,基于SSD的存储卸载技术成为解决方案新路径 [1] - AI推理应用推升高速处理海量数据需求,激发HDD替代效应,大容量Nearline SSD迎来发展机遇 [1][4] - 行业给予"增持"评级 [1] KV Cache技术挑战 - 键值缓存技术通过存储历史Key/Value向量优化计算效率,但会占用GPU显存 [2] - 生成文本越长缓存数据量越大,可能导致HBM和DRAM超载 [2] - 模型规模化扩张和长序列需求激增使KV Cache容量增长超出HBM承载能力 [2] 存储卸载技术方案 - 业界探索KV Cache分级缓存管理技术,支持将缓存从GPU内存卸载到CPU、SSD及网络存储 [3] - 英伟达Dynamo框架提供G1-G4四级KV Cache卸载方案 [3] - 三星将KV Cache卸载至NVMe SSD方案使首token延迟最高降低66%,token间延迟最高降低42% [3] - 方案支持多用户多轮对话场景下的KV Cache重用,I/O吞吐量随对话轮次增加而上升 [3] 存储市场趋势 - AI推理应用推升实时存取、高速处理海量数据需求 [4] - HDD市场面临巨大供应缺口,促使NAND Flash业者加速技术转进 [4] - 供应商积极投入122TB、245TB等超大容量Nearline SSD的生产 [4]
大模型优秀大脑齐聚硬核开源聚会,SGLang社区举办国内首次Meetup
机器之心· 2025-10-28 14:29
SGLang技术特性与架构 - 开源高性能大语言模型和视觉语言模型推理引擎,起源于RadixAttention,由非营利组织LMSYS孵化[7] - 核心特性包括快速后端Runtime(支持RadixAttention前缀缓存、连续批处理、推测性解码等)、广泛模型支持(兼容多数Hugging Face模型和OpenAI API)、广泛硬件支持(NVIDIA/AMD GPU、Intel Xeon CPU、Google TPU、华为昇腾NPU等)以及灵活的前端语言[14] - 在行业内得到广泛采用,全球范围内为超过30万块GPU提供支持[14] SGLang近期技术进展与路线图 - 技术进展包括KV Cache分层缓存、Piecewise CUDA Graph、Spec Decoding的重叠调度等,实现不同程度的效率和兼容性优化[21] - 未来路线图聚焦于对广泛企业的支持、对各类软硬件的拓展兼容和稳定性[22] - 量化方案近期实现了FP4量化支持,W4AFP8达成实现,未来路线图聚焦扩展应用范围、提升灵活性并引入新型数据格式[34][35] 产学研合作与生态整合 - 清华大学与SGLang合作推进Mooncake高性能分布式KV Cache存储解决方案及KTransformers集成,实现从CPU/GPU混合推理到LoRA微调的全流程开源生态扩展[25][27] - SGLang与趋境科技合作进行HiCache技术整合,通过多层次缓存管理与层页混合内存布局提升多GPU场景内存利用率与推理吞吐性能[25][26] - Slime项目构建公司与开源社区共建共赢的训练生态,实现技术与社区双向循环成长,目标成为世界最好的后训练框架[51] 行业应用实践案例 - 百度搜索架构部在文心4.5模型大规模部署中采用SGLang,应用于LLM推理、蒸馏和RL训练,并进行了特定模型优化、小卡优化和调度优化[41] - 腾讯微信搜一搜业务在LLM应用中采用SGLang实现高吞吐量与低延迟推理,优化首字速度TTFT和生成速度TPOT指标[44] - 华为通过SGLang实现DeepSeek V3.2在NPU上的适配优化,采用MQA+稀疏注意力方案在长序列推理中显著提升性能与资源利用率[47] 社区发展态势 - SGLang在北京举办国内首场Meetup,吸引来自知名公司、学校或组织的社区贡献者、开发者和学者参与,显现旺盛社区活力和发展潜能[4][8] - Meetup活动涵盖技术架构演进与应用实践分享,形成高密度硬核开源社区思想碰撞[10][11] - Specforge开源投机采样模型训练框架已应用于美团、英伟达、Google、蚂蚁等企业大模型优化,与SGLang完全结合开箱即用[57]
A16Z最新洞察:视频模型从狂飙到分化,产品化是下一个机会
36氪· 2025-10-28 08:18
行业阶段转变 - 视频生成模型的发展节奏发生变化,从过去每周都有新模型刷新基准成绩的狂飙阶段,进入进步放缓的“产品时代”[1] - 模型性能的进步不再主要体现在参数或基准分数上,而是体现在多样性和专业化上,没有哪一个模型能“通吃全场”[2] - 更大的机会从模型本身转向“围绕模型”的产品构建,能简化创作流程、抽象出复杂操作的工具正变得比模型本体更有价值[2] 模型技术现状 - 大多数主流模型已能生成10–15秒带同步音轨的视频,效果相当惊人但不再令人惊讶,在“真实感”上的突飞猛进已使生成视频几乎和现实看不出差别[1][6] - 所谓“最强模型”的概念在视频领域可能根本不存在,上个月发布的Sora 2在LMarena等测试中甚至不如Veo 3,表现不升反降[4] - 行业可能看到更多风格化、专业化的模型出现,每个模型不再追求通用而是各有特长,视频生成进入“百花齐放”的新阶段[7] 主要模型专业化分工 - Veo 3最擅长物理细节、复杂动作,音画同步也做得最好,缺乏幽默感但动作、镜头、音画同步更精确,适合内容创作者、影视工作者[11] - Sora 2可以根据一句话生成有趣的多镜头视频,更像是一位“故事导演”,适合普通用户和meme创作者,但在物理表现、音视频同步方面不太稳定[11] - 其他专业化模型包括:Wan作为开源模型支持很多风格化插件适合定制风格,Grok速度快成本低特别适合动画内容,Seedance Pro可以一次生成多镜头结构,Hedra在长时间对话类视频的表现最稳[11] 产品化与工作流工具 - 当前模型能力已经很强,但对应的产品进度依然有很多“追赶空间”,需要更好的一体化产品来简化整个创作过程[13] - 许多创作者正在手动拼接多个模型的功能来完成本可自动做到的事情,如保持角色一致、延续镜头画面、控制运动轨迹等,显示产品体验和创作效率之间存在巨大断层[14] - 行业开始出现解决这些问题的工具,例如Runway发布了一套工具让用户修改镜头角度、生成下一个镜头等,OpenAI的Sora Storyboard支持更细致控制每一帧动作,谷歌Veo 3.1围绕音频和视觉控制做了功能增强[15] 未来发展方向 - 未来会看到越来越多“小而美”的模型,专门为某个行业或某种场景优化,如室内设计、营销、动画制作等[16] - 需要更强大的“创意工具包”来打通各种模态,让视频、配音、音乐等元素的生成与编辑更顺畅,形成一整套真正闭环的AI视频工作流[16] - 这类似于大语言模型的发展路径,即便模型性能不再突飞猛进,围绕它构建实用产品的空间依然非常大[15]
上海普陀聚侨智赋能区域协同发展 侨界人才研修营收官
中国新闻网· 2025-10-24 19:45
研修营基本情况 - 活动由上海市普陀区侨办、普陀区人才局、普陀区侨联主办,江苏省南通市侨联、泰州市侨联协办,主题为“侨连沪宁·智创未来” [1] - 研修营汇聚来自上海普陀、南通、泰州三地的30位侨界人才,学员专业领域覆盖智能制造、新材料、生物科技等前沿产业,90%具备硕士及以上学历 [1] 课程与产业洞察 - 课程内容兼具理论深度与实践导向,包括《上海及长三角“十五五”规划展望》解析区域产业发展新机遇,以及《人工智能与大语言模型》探讨技术驱动下的产业变革 [3] - 实地研学环节覆盖“创新里”科创产业空间、“海聚英才”常态化路演大厅、华东电力设计院、上海机器人产业技术研究院、桃浦智创城、同济科技园等企业和创新载体 [3] 人才交流与项目对接 - 圆桌交流环节围绕海外高层次人才在沿沪宁产业创新带扎根成长、产业创新与区域融合中的海外人才力量等主题展开深入讨论 [5] - 项目路演环节中,来自三地的侨界代表展示创业项目,并由科迦孵投总经理作为点评专家进行专业指导,促进项目与资源的有效对接 [8] 区域合作与发展战略 - 活动旨在加强三地侨界人才交流合作,为沿沪宁产业创新带建设注入新活力,展现沿沪宁产业创新带人才荟萃的优势 [1] - 未来计划共建跨区域人才协作网络,建立学员跟踪服务机制,提供政策咨询、场地支持、融资对接等创新创业服务,推动高质量项目落地 [9]
美股异动|阿里巴巴一度涨超2.8%,夸克AI眼镜即将开启预售
格隆汇· 2025-10-23 22:28
公司股价表现 - 阿里巴巴(BABA US)盘中一度上涨超过2.8% [1] - 股价最高触及170.6美元 [1] 新产品发布信息 - 公司旗下夸克AI眼镜将于24号零点在夸克智能设备天猫旗舰店开启预售 [1] - 产品预售起价为3699元 [1] - 产品计划于12月开始发货 [1] 产品技术特点 - 该眼镜由阿里巴巴自主研发的Qwen大语言模型和夸克AI助手驱动 [1] - 产品功能支持免提通话、音乐播放和实时翻译等 [1]