大语言模型(LLM)
搜索文档
2025年AI智能体在未来产业创新上的前沿应用与发展趋势报告(1)
搜狐财经· 2025-12-03 05:04
人工智能产业宏观趋势 - AI正从大模型(LLM)的“理解与生成”阶段,迈向智能体“感知-决策-行动-学习”闭环的Agentic时代 [1] - 其核心公式为“Agent = Model + Memory + Action + Reflection + Evolution” [1][6] - 智能体系统产业正经历从基于管道的自主进化(~2025),到模型原生(2025~2027),再到完全自主进化(2027~)的演变 [19] 智能体核心架构与局限 - 核心模块包括感知、推理与行动,并扩展到高级组件如专用智能体、高级推理与规划、持久记忆以及编排层 [11] - 多智能体协作涉及系统协调、共享上下文和任务分解,架构向分布式、自适应转变 [11] - 当前主要局限包括:缺乏因果推理能力、受LLM固有缺陷(如幻觉、浅层推理)限制、能动性不足、长期规划与恢复能力薄弱,以及多智能体协调失效与通信不稳定 [13][14] 市场规模与资本流向 - 2024年全球AI智能体市场规模约52.9亿美元,预计2030年达460-470亿美元,年复合增长率超40% [1][15] - 北美是主要资金池与企业客户基地,风险投资、云厂商与并购活跃 [15] - 欧洲市场重点在隐私合规与企业效率工具,中国偏向出海应用层服务,以色列深耕中后台技术(如强化学习、规划模块) [15] 产业生态与商业模式 - 美国产业生态分层包括:应用生态与市场层、行业垂直层、体验与协同中台层、智能体操作系统层、底层模型与计算层 [17] - 主要商业模式包括:智能体即服务(AaaS)按需租用、协作式AI平台、个性化AI助手以及AI智能体市场 [22] - 产业演化呈现五大趋势:从应用驱动到生态驱动、从Prompt到Policy演化、从单智能体到多智能体协同、从虚拟智能到具身智能、从模型应用到产业系统共演 [29] 技术解决方案与突破方向 - 十大新兴架构与算法解决方案包括:检索增强生成(RAG)、工具增强推理、多智能体协同、反思与自我批判机制、因果建模与基于仿真的规划等 [32] - 未来技术突破方向包括:多模态能力融合、自主决策能力提升、协作能力增强、边缘计算集成 [38] - 多智能体协同演化方法通过实例化提议者、求解者和评判者三个角色,持续提升模型推理能力 [35] 行业应用与规模化拐点 - 行业应用覆盖金融、医疗、教育、制造业及协同办公等领域 [1] - 协同办公正从“工具自动化”向“组织智能演化”转型 [1] - 2025年被业界视为AI智能体大规模应用的“拐点时刻”,预计到2028年,33%的企业软件应用将集成AI智能体功能,超过15%的日常工作决策将由AI智能体自主完成 [23] - 行业渗透分三波推进:2024-2025年(客服、数据分析、内容创作);2025-2026年(金融风控、医疗诊断、教育个性化);2026-2027年(制造业智能化、供应链优化、城市管理) [23] 对产业与就业的影响 - AI智能体将深刻改变传统产业运作方式,预计到2028年,其应用有望使组织运营成本降低40%,营业收入提升20% [25] - 就业结构将发生变化:重复性、规则化岗位面临替代,同时将创造AI智能体开发、训练、维护等新岗位,对创造性、战略性及情感交流能力的需求将增长 [28]
复旦大学最新Cell子刊:DeepSeek-R1、GPT-4等大语言模型可增强肺癌筛查的临床决策
生物世界· 2025-11-28 12:05
肺癌筛查的临床挑战与现状 - 肺癌是全球最具侵袭性和普遍性的癌症之一,2020年预估新增病例达220万例,死亡病例达180万例 [2] - 多数肺癌病例在进展至晚期前无明显症状,晚期治疗选择有限,导致五年生存率低于10% [2] - 年度低剂量计算机断层扫描(LDCT)筛查是改善肺癌高危人群预后和生存率的关键策略 [5] - LDCT扫描中偶然发现的肺结节(<3厘米)需要临床决策支持,以决定是采取即时干预还是制定随访方案 [5] 大语言模型在临床决策支持中的研究进展 - 大语言模型(LLM)是基于数十亿单词训练的人工智能系统,其在支持诊断和治疗决策方面的潜力日益受到关注 [5] - 在肺癌领域,LLM已被用于回答非专业人士问题、对CT报告进行数据挖掘以及评估肺结节患者的纵向CT图像 [5] - 近期有研究表明,开源大语言模型DeepSeek-R1在临床决策中的表现与OpenAI的GPT-4o等领先的专有模型不相上下 [5] - 然而,此前的研究多基于医学教科书和学术期刊中的病例报告,在实际临床应用方面存在不足 [5] 多中心基准测试的研究设计与方法 - 复旦大学中山医院谭黎杰教授团队于2025年11月21日在Cell Reports Medicine上发表了一项多中心横断面研究 [3] - 研究旨在评估LLM是否为首次LDCT中发现肺结节的患者提供管理建议的合适决策支持工具 [6] - 研究从三家不同医疗机构收集了真实世界的LDCT报告,准备了148份匿名报告用于评估 [6] - 研究系统地评估了GPT-3.5、GPT-4、Claude 3 Sonnet和Claude 3 Opus四种LLM的可读性、准确性及一致性 [6] - 研究还使用一家医院的报告对最先进的专有模型GPT-4o及开源模型DeepSeek-R1进行了探索性分析 [6] 大语言模型在肺癌筛查中的性能评估结果 - 评估结果显示,Claude 3 Opus生成的建议可读性最高,而GPT-4达到了最高的临床准确性 [3][7] - 各LLM对来自不同医院的报告之间的性能差异并不显著,突显了其对报告模板变化的稳健性及在不同医疗环境中的实用性 [7] - 在探索性分析中,GPT-4o和DeepSeek-R1的表现与GPT-4相当,均优于GPT-3.5 [3][7][8] - 这些发现表明,大语言模型有可能在不同医疗环境中增强肺癌筛查的临床决策支持 [3][10]
图灵奖得主 Yann LeCun:大模型是“死胡同”,下一步押在哪一条路?
36氪· 2025-11-28 09:43
核心观点 - 图灵奖得主Yann LeCun宣布离开Meta,创办专注于先进机器智能的新公司,标志着AI技术路线可能发生重大集体转向[1][2] - Yann LeCun和OpenAI前首席科学家Ilya Sutskever在一周内先后质疑大语言模型主流路线,认为“拼算力”时代结束,后LLM时代正在成形[3][8][31] - 下一代AI的竞争焦点将从模型规模和训练数据转向新架构的发明以及系统的强大与可控性[31][32][39] 对LLM的批判 - LLM被Yann LeCun称为通往人类智能的“死胡同”,因其缺乏对真实世界的理解、常识和因果关系,仅是统计相关性的堆叠[3][5] - 模型规模增大带来语言流畅度提升,但世界理解力未同步跟上,Meta的Llama 4在真实场景中表现远不如基准测试即为例证[5] - LLM能力在实验室显露天花板,性能趋于饱和,更大模型不一定带来更高真实智能,继续堆算力边际收益越来越低[6][7][8] - LLM的核心缺陷在于无法进行多步骤推理、长期规划和具身交互,智能本质是行动能力而非语言能力[12][13] - 语言被视为人类智能的副产品而非核心机制,真正的智能应源于对物理世界的建模、预测和行动[9][10][11] 世界模型与JEPA架构 - Yann LeCun提出的下一代AI路径是构建“世界模型”,让AI能从多模态输入中构建对世界的内部理解,并基于此预测和行动[14][15] - 世界模型的关键在于让AI具备类似人类和动物的抽象内部投影能力,以理解重力、速度、距离等物理概念[15] - LeCun推动的新架构是联合嵌入预测架构,其与LLM的核心差异在于处理多模态数据、预测抽象状态变化及结合表征学习与因果建模[16][17][26] - JEPA架构的学习模式是让AI在模拟环境中自主互动,从中提取因果关系并形成持续记忆,最终具备规划行动能力,不依赖更多token而依赖更好的世界模型[19][20][21] 后LLM时代的技术路线分歧 - Yann LeCun押注世界模型方向,目标是让AI具备对物理世界的理解和行动能力,判断10年内会出现具身AGI原型[25][28] - Ilya Sutskever押注安全超智能方向,关注点在解决AI系统的泛化脆弱性,确保AI能力提升过程中的安全可控[25][29] - 两位先驱代表了后LLM时代的两个主要方向:架构创新派和安全优先派[30] 工业界的动向与影响 - 工业界出现悄然转向迹象:OpenAI确认首个AI硬件原型已完成,计划2年内发布无屏幕AI设备[34] - Google挖来波士顿动力前CTO,推动Gemini成为通用机器人控制平台,目标是让同一模型适配任何形态的机器人[34] - 李飞飞的World Labs融资2.3亿美元后发布商业产品Marble,Figure AI估值达390亿美元,Tesla Optimus计划2026年量产,显示下一代AI将不局限于对话框[35][36][37] - 新架构的突破需要时间,LeCun预估需几年到十年,Sutskever预估需5到20年,当前LLM仍是主流应用基础[38][39][40] - 对创业者和开发者的启示包括:不要迷信模型规模、垂直场景存在机会、开源路线重要以及需做好长期准备[41][42][43][44]
SLAM与视觉语言/目标导航有什么区别?
具身智能之心· 2025-11-27 08:04
行业技术定义与核心 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向,要求智能体在陌生三维环境中,仅凭目标描述即可自主完成环境探索与路径规划 [2] - 该技术实现了从依赖显式指令的“听懂指令走对路”到自主决策的“看懂世界自己找路”的跃迁,背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破 [2] 产业化落地与应用场景 - 在终端配送场景,美团无人配送车通过动态路径重规划在复杂城市环境中执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署 [4] - 在医疗、酒店及餐饮场景,嘉楠科技、云迹科技、擎朗智能的商用服务机器人以及美国Aethon公司的TUG系列,已实现药品、文件和餐食的自主配送 [4] - 随着人形机器人发展,导航技术适配性升级成为新焦点,宇树科技Unitree系列通过Habitat预训练完成基础导航任务,智元机器人在工业场景集成该模块,特斯拉Optimus展示了“取放电池”等端到端操作能力 [4] 技术生态与评测体系 - 基于Habitat仿真的具身导航生态完整记录了领域技术迭代轨迹,自2020年CVPR提出点导航基准以来,评测体系逐步扩展至图像导航、目标导航及移动抓取任务 [5] - 技术进展呈现明显梯度:点导航和闭集物体导航接近人类表现,但开放词汇物体导航和动态障碍物场景仍面临重大挑战 [5] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供了方法论参考,CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [5] 三代技术路线迭代 - **第一代端到端方法**:基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中取得突破,部分方法的SPL指标已逼近人类表现 [6] - **第二代模块化方法**:通过显式构建语义地图将任务分解,在零样本目标导航任务中展现显著优势,在未见物体场景下成功率提升明显 [8] - **第三代LLM/VLM融合方法**:引入大语言模型的知识推理能力生成语义指导的探索策略,并通过视觉语言模型提升开放词汇目标匹配精度,当前研究重点在于设计场景表征接口 [10] 相关课程内容与结构 - 课程旨在解决目标驱动导航领域技术栈多、入门困难、知识碎片化、缺乏实战指导等挑战 [11] - 课程特点包括:基于Just-in-Time Learning理念快速入门、帮助学员构建领域框架与研究能力、理论结合实践完成闭环 [11][12][13] - 课程大纲共六章,系统覆盖语义导航核心框架、Habitat仿真生态、端到端导航方法论、模块化导航架构、LLM/VLM驱动的导航系统以及大作业 [15][17][18][19][20][21][22] - 大作业聚焦VLFM算法复现与真实场景部署,实践流程包括占据地图构建、边缘探索点生成与排序、值地图生成、导航策略构建及算法改进与实机部署探索 [23][27] - 课程为期3个月,采用离线视频教学配合VIP群答疑,进度安排覆盖从概述、仿真环境到三代核心方法的理论与实战,最终完成大作业 [28][29]
山东大学侯庆振团队等发布首个单细胞外囊泡多组学数据库——SVAtlas
生物世界· 2025-11-24 18:08
细胞外囊泡(EV)行业技术背景 - 细胞外囊泡是携带蛋白质、核酸等重要生物分子的纳米级颗粒,广泛参与细胞间通讯及多种疾病的发生发展过程 [2] - EV存在于血液、尿液等易获取体液中,其稳定膜结构能保护内部分子,已成为癌症和神经退行性疾病等液体活检的理想研究对象 [2] - 但EV群体内部存在高度异质性,传统批量分析技术难以捕捉单个囊泡分子特征,导致关键疾病信号被掩盖,严重阻碍其临床应用进展 [2] 单EV分析技术平台SVAtlas的突破 - 山东大学研究团队构建了首个跨疾病、跨体液、跨物种的单个细胞外囊泡多组学图谱SVAtlas [3] - 该平台整合自主测序数据与全球276个科研项目成果,覆盖31种重大疾病、32种组织器官和10种生物体液的数据 [5] - 收录了来自超过1.37亿个单EV的8120个蛋白质条目和106个RNA条目,形成单EV研究的数据语言与参考标准 [5] SVAtlas平台功能特性 - 平台支持组织/器官异质性分析及疾病特异性亚群分析,通过全局聚类、高异质亚群选择及标志物组合差异热图展示单EV分布和特征 [7] - 提供内置计算生物学工具,支持数据浏览、预处理、聚类分析和交互式可视化,用户可上传自定义数据进行分组比较和差异标志物分析 [8] - 创新性集成基于大语言模型的AI问答工具,帮助用户高效驾驭复杂的单EV表征方法 [8] 行业应用前景与价值 - SVAtlas标志着单个EV研究进入标准化、多组学整合的新阶段,研究者可在统一平台探索EV异质性、发现潜在生物标志物 [10] - 平台提供自动化分析、可视化和AI问答系统,让单EV数据分析更高效直观 [10] - 随着更多数据和新型组学加入,SVAtlas有望成为液体活检、精准医学和疾病诊断的重要工具 [10]
观察| 杨立昆离职:我们不在AI泡沫中,但在LLM泡沫中
未可知人工智能研究院· 2025-11-21 11:02
文章核心观点 - 当前人工智能领域存在严重的大语言模型泡沫,将LLM等同于AI是片面和危险的[1] - LLM只是人工智能发展长河中的一朵浪花,而非整个AI领域的源头或终点[8] - 过度聚焦LLM导致资源分配失衡,挤占了其他重要AI研究方向的发展空间[16] - 中国AI发展存在隐忧,高校人才培养过度窄化于LLM赛道,可能错失下一代AI技术布局机会[17][19] AI发展历史与现状 - 人工智能本质是让机器学会像人一样思考做事的大工程,并非某类技术的专属冠名权[5] - AI发展70年历程是机器视觉、语音识别、强化学习、生成模型等多领域共同进步的结果[6][8] - 从1956年达特茅斯会议定名AI开始,经历了感知机、专家系统、深蓝、AlexNet、AlphaGo等多个里程碑[6] - 在自然语言处理领域,LLM只是晚来的晚辈,1966年ELIZA聊天机器人已能模拟真人对话[8] - 杨立昆批评当前LLM为"统计鹦鹉",只会模仿人类说话腔调,却不理解语义内涵[9] 创新规律与LLM泡沫 - 真正改变世界的创新往往在冷门角落诞生,而非聚光灯下[10] - 科技史上交流电战胜直流电、触屏手机取代功能机等案例证明冷门技术可能成为主流[11] - LLM热潮已陷入"比规模大"的死循环,从百亿参数卷到千亿再到万亿参数[14] - 研究者过度聚焦微调技术,如同在同一个馒头上面雕花,缺乏根本性创新[14] - 真正机会存在于LLM的阴影区:智能体AI、大模型压缩技术、神经符号AI等方向[15] 中国AI发展问题 - 近五年超过150所高校建立人工智能学院,但多数存在师资不足问题[17] - 高校课程设置严重偏向LLM,机器视觉、强化学习等传统优势领域被边缘化[17] - 人才培养同质化导致LLM领域人才过剩,而边缘AI、AI安全等方向人才稀缺[18] - 单一化研究导向正在削弱中国AI的创新根基,可能失去技术备选方案[19] - 需要培养敢闯冷门赛道的叛逆者,而非千篇一律的LLM跟风者[21] 未来发展建议 - LLM是AI发展的重要里程碑,但需要与App生态、5G网络等配合才能发挥真正价值[23] - 企业应结合自身真实需求,制造业可重点发展机器视觉,医疗领域可专注CT影像识别[23] - 研究者应跳出LLM舒适区,关注AI自主解决问题、移动端部署等前沿方向[23] - 高校需进行差异化培养,发挥各自在机器视觉、工业质检等领域的特色优势[21] - AI的未来属于多元智能共生,需要打破"LLM=AI"的片面认知[25]
LLM 没意思,小扎决策太拉垮,图灵奖大佬 LeCun 离职做 AMI
AI前线· 2025-11-20 14:30
核心事件 - 图灵奖得主、深度学习三巨头之一的Yann LeCun宣布将于年底从Meta离职并投身创业[2] - 新创业公司将聚焦高级机器智能研究项目,目标是构建能理解物理世界、具备持久记忆、推理并能规划复杂动作序列的系统[2] - Meta将成为其新公司的合作伙伴,LeCun感谢了Meta领导层但未提及亚历山大·王[4] 离职原因与时间线 - 11月11日金融时报首次报道LeCun离职计划,导致Meta市值在美股盘前下跌约1.5%,收盘跌超3%,单日蒸发449.72亿美元(约合人民币3200.25亿元)[11] - 根本原因为Meta内部AI发展路线长期冲突,公司战略重心向生成式人工智能产品化团队倾斜,压缩了LeCun团队进行长期基础研究的空间[11] - 从8月起硅谷内部就流传LeCun对AI战略重大决策不满,其需要向28岁的亚历山大·王汇报,大决定均由后者掌控[12] 技术路线分歧 - LeCun认为大语言模型创新已从科学突破变成"堆算力、堆数据、堆合成样本"的工程活,属于"优化尾声阶段"技术[13] - 他坚持发展基于"世界模型"和自监督学习的下一代AI技术,强调AI需具备理解物理世界、持久记忆、真正推理能力和规划行动四大关键能力[14][16] - Hugging Face联创Delangue支持该观点,认为当前是"LLM泡沫"而非"AI泡沫",行业误判了"大模型+巨量算力"的万能钥匙地位[15][18] 行业影响与趋势 - 行业可能出现高度定制化的"小模型生态",专门解决特定任务而非追求通吃所有场景的巨无霸模型[18] - Delangue预测LLM泡沫可能在明年破碎,但AI真正潜力尚未完全释放[18] - LeCun认为未来十年AI可能达到接近人类智能水平,但前提是行业必须从LLM规模竞赛中走出来[15] LeCun在Meta的贡献 - 2013年受扎克伯格邀请加入Meta,创建FAIR并奠定其AI基础设施格局,FAIR成长为与Google Brain、DeepMind齐名的顶尖研究机构[20] - 最显著的技术贡献为2016年推出PyTorch深度学习框架,彻底改变研究者工作方式并成为最重要框架之一[21] - FAIR为Meta大模型战略提供自监督学习、表征学习和多模态研究等关键技术积累,支撑起全球领先的开源大模型生态[21]
AI界巨震!图灵奖得主Yann LeCun即将离职Meta,投身「世界模型」创业
机器人圈· 2025-11-13 18:40
核心事件概述 - AI领域权威专家、图灵奖得主、Meta首席AI科学家扬·勒昆决定在未来几个月内离职,结束其在Meta长达12年的职业生涯 [2] - 此次离职被视为与CEO马克·扎克伯格在AI战略上的正式决裂,勒昆将开启创业生涯,全力押注下一代AI架构「世界模型」 [2] 离职背景与Meta内部战略分歧 - 离职根源在于与Meta管理层在AI发展路线图与公司战略上日益加剧的分歧 [3] - 因旗下大模型Llama 4表现未达预期及Meta AI聊天机器人市场反响平平,公司认定在竞争中处于落后状态,战略从长期前沿基础研究转向敏捷开发 [4] - Meta进行内部架构调整,以高达1亿美元的薪酬包从谷歌、OpenAI等公司挖角年轻精英,并组建由28岁的Alexandr Wang领导的「超级智能」团队 [4] - 勒昆的汇报关系发生变化,转为向比他年轻三十多岁的Alexandr Wang汇报,其领导的FAIR实验室被边缘化,团队论文发表需经新管理层审批 [4] 技术路线分歧 - 勒昆多次公开批评当前的大语言模型,认为其永远无法实现真正的推理和规划,绝非通往通用人工智能的终极道路 [7] - 他坚持推进的「世界模型」研究因短期内难以看到商业回报,与扎克伯格要求的"立即变现"KPI目标背道而驰 [7] - 权力被架空、研究方向被边缘化及根本性的技术路线分歧共同促使离职决定 [7] 未来规划与行业影响 - 勒昆离职后将全身心投入「世界模型」的创业,新公司目标直指真正的人类级智能,正在进行早期融资洽谈 [8] - 「世界模型」旨在让AI通过观察视频和空间数据学习理解物理世界运作规律,与当前仅处理文本和语言的LLM不同 [8] - 勒昆预测未来3-5年内"世界模型"将成为AI架构主流,并认为开发出成熟架构可能需要十年时间 [8] - 勒昆是卷积神经网络的开创者,为现代计算机视觉奠定基石,2013年加入Facebook并创立领导FAIR实验室,2018年荣获图灵奖 [9] - 离职对Meta意味着其核心研究机构FAIR的彻底边缘化,以及失去一位在AI基础研究上的重要掌舵人,可能影响AI领域格局 [9]
图灵奖得主杨立昆离职创业,Meta股票蒸发1400亿
钛媒体APP· 2025-11-13 16:38
事件概述 - 图灵奖得主、Meta首席科学家Yann LeCun(杨立昆)即将从Meta离职创业,此消息导致Meta股价下跌1.5%,市值蒸发1400亿元 [1] 离职核心原因 - 离职根本原因在于与公司在AGI(通用人工智能)技术路线上的根本分歧:公司管理层重金押注当前热门的LLM(大语言模型)路线,而杨立昆则认为LLM是AGI的岔路,主张“世界模型”才是正确方向 [1][9] - 公司内部组织架构调整后,杨立昆需向年轻其30多岁的新任首席AI官Alexandr·Wang汇报,其领导的FAIR实验室自主权被削弱,团队核心成员(如田渊栋的强化学习与规划团队)被裁撤 [6][7] - 在Llama模型的开源策略上存在分歧,杨立昆坚持开源,而公司内部激进派出于商业利益考虑倾向闭源 [7] Meta面临的竞争压力与战略调整 - 2025年公司面临竞争压力:以DeepSeek为代表的竞争者在MoE(混合专家模型)架构上实现突破,挑战其在开源领域的领先地位;Meta自身的Llama4模型系列市场反馈平淡,表现不及ChatGPT和Gemini;Meta AI聊天机器人未获市场认可 [4] - 财务上,公司三季度财报显示,2025年用于AI军备竞赛的资本支出提升至700亿美元 [5] - 组织上,经过4次架构调整,资源集中支持新成立的“超级智能实验室”(MSL),由Alexandr·Wang领导 [6] 历史贡献与合作蜜月期 - 杨立昆于2013年受扎克伯格邀请加入Facebook(现Meta),担任首席人工智能科学家,并一手创建FAIR(Facebook人工智能研究院) [11] - 蜜月期期间,FAIR拥有极大自主权,专注于基础科学研究与顶级论文发表,其研究成果(如卷积神经网络CNN架构)成为公司社交应用图像识别等核心功能的技术基石 [11] - 在其开源思想影响下,Meta发布的Llama系列大型语言模型等成果均采取开源策略,助力公司在开发者生态中建立强大影响力 [12] - 2018年杨立昆获得图灵奖,将Meta在基础AI研究领域的声誉推向顶峰 [12] 技术路线分歧详情 - 杨立昆批评LLM为“黑暗中的文字匠”,认为其缺乏常识、无法推理、不懂物理世界,仅是基于海量文本的概率预测,依靠数据堆砌无法实现AGI [14][16] - 他提出“世界模型”路线,主张AI应通过观察世界(如视觉信息)来学习物理直觉和因果关系,构建模块化架构(感知、世界模型、记忆、行动),而非将一切揉进单一巨型网络 [15][17] - 杨立昆承认“世界模型”是一个需要10年开发的长期愿景,无法满足公司对快速产品追赶的需求 [17]
跨层压缩隐藏状态同时加速TTFT和压缩KV cache!
机器之心· 2025-11-13 12:12
核心观点 - 论文UNCOMP提出了一种新的理论视角和高效推理框架,用于理解大语言模型内部的结构化稀疏性机制[2] - 通过引入截断矩阵熵,公司发现信息熵随网络层数加深而递减,这完美解释了深层网络的稀疏化现象[7] - 基于该理论设计的UNCOMP框架实现了计算与内存的联合优化,在极端压缩率下仍能保证模型性能[17][19][20] 理论突破 - 传统矩阵熵分析存在悖论,显示信息熵逐层增加,与观察到的“模型越深越稀疏”现象矛盾[7] - 关键突破在于引入截断矩阵熵,通过分析Token矩阵协方差奇异值分布的拐点,只关注最重要主成分[7] - 截断矩阵熵随层数加深呈现逐层递减趋势,表明信息变得更加集中和稀疏,为压缩创造空间[7] - 该理论工具能识别中间层信息熵的异常波动点,精准对应负责信息聚合的检索层和负责长程记忆的检索头[13] 技术应用与框架设计 - UNCOMP框架首次通过直接压缩Prefill阶段的隐藏状态来间接优化KV Cache[17] - 采用层级压缩策略,在Prefill阶段压缩隐藏状态以加速计算[17] - 采用头级压缩策略,在Decoding阶段压缩流式头的KV Cache,同时保留检索头以节省内存[17] - 最佳压缩性能来自于对信息流模式的模仿,当压缩后KV Cache的逐层熵变趋势与原始趋势高度相似时性能最好[12] 性能表现 - 在Prefill阶段实现60%的加速,吞吐量提升6.4倍[19] - KV Cache压缩至4.74%,在极端压缩率下依旧保证模型性能[19][20] - 在Llama2-4k任务上,Ours-group方法达到98.42%的性能,接近FullKV的98.70%[20] - 通过合并检索层和最后层,在特定任务上实现性能几乎无损,甚至超越全尺寸基线[21]