Workflow
混合架构
icon
搜索文档
Agent Skills 落地实战:拒绝“裸奔”,构建确定性与灵活性共存的混合架构
AI前线· 2026-01-24 13:33
文章核心观点 - 在构建企业级智能文档分析Agent时,完全依赖LLM(大语言模型)进行代码生成和执行的“全托管”模式存在稳定性、安全性和可控性方面的重大隐患[4][5] - 公司摒弃了激进的“纯Skills”路线,转而采用一种混合架构,核心思想是收回LLM的底层操作权,只保留其逻辑调度权[7] - 该架构结合了Java(负责确定性ETL与安全控制)、LLM(负责意图理解与逻辑调度)、封装式Python DSL Skills(负责受控计算)以及Java实时渲染,旨在保留LLM灵活性的同时确保工业级稳定性[8][28] 架构演进背景与挑战 - 基础文档问答(RAG)功能已成熟,但用户需求升级至复杂生成任务,例如对比多份报表数据并生成Excel和PDF报告[3] - 此类需求特征包括需要精确的逻辑计算(LLM弱项)和物理文件IO(LLM无法直接做到),最初看似只能通过引入LLM调用Python代码(Skills)来解决[3][4] “纯Skills”路线的失败经验 - 最初采用完全的Code Interpreter模式,赋予LLM联网和直接调用`requests`、`pandas`、`reportlab`等库的权限,让其自行编写代码解决问题[4] - 该模式在生产环境中暴露出三大问题:1)输入端对非结构化数据(如无后缀URL、加密PDF)处理脆弱,易陷入报错死循环;2)输出端让LLM从零生成PDF/Word等文件常导致中文乱码、表格错位、API使用错误等问题;3)安全黑洞,数据流在沙箱内闭环,主程序失去对敏感或违规内容的控制权[5] 混合架构设计与分工 - 新架构明确分层分工:ETL层(Java)负责确定性的数据下载、MIME识别、OCR和敏感词检测,确保输入LLM的数据干净、安全、标准化[8][10] - Brain层(LLM)负责阅读纯文本、进行逻辑推理并生成调用代码[8] - Skills层(Python沙箱)提供高度封装的DSL(领域特定语言)SDK,而非直接开放底层库权限[8][11] - Delivery层(Java)负责将Markdown/HTML实时渲染为PDF/Word等格式文件[8][16] Skills层的DSL封装策略 - 禁止LLM直接使用`import pandas`等底层操作,强制其调用预置的封装函数[11][14] - 例如,生成Excel时,LLM需准备字典列表形式的数据,并调用如`excel_tool.create_excel(data, filename='analysis.xlsx')`的封装函数,由工具自动处理样式和列宽等工程细节[15][21] - 通过Prompt中的“接口契约”和“核心决策树”约束LLM行为:针对统计数据/表格必须生成Excel并写Python代码调用封装函数;针对分析报告/文档必须生成Word/PDF且禁止写代码,需走渲染路径[13][14][22] 输出侧渲染与交付分离 - 对于Word/PDF等富文本生成,LLM只输出高质量的Markdown内容,并在末尾附加特定标签(如`<<<ACTION:CONVERT|pdf>>>`)[16] - Java后端拦截该标签,利用OpenHTMLtoPDF或Pandoc等工具将Markdown实时转换为格式精美的PDF/Word文件,从而避免LLM直接处理复杂排版[16] 关键技术实现要点 - 实现了动态技能注入管理器(SkillManager),支持按需加载技能,并设计了Session级“防抖机制”缓存脚本,避免重复IO以提升性能[18][19] - 业务调度处理器(Handler)串联Java ETL、LLM推理和最终交付分流,确保流程可控[20][23] - 在Tool执行层设置最后一道防线,对沙箱中命令执行的输出内容进行二次安检,确保安全[26] - 整体架构总结为:输入标准化与安全由Java负责,推理由LLM负责,计算通过Python DSL执行,输出渲染与交付由Java负责[29]
光环褪去,理性回归,自动驾驶驶入“务实”新阶段
36氪· 2026-01-14 18:43
文章核心观点 - 自动驾驶行业正从早期狂热转向务实理性的新发展阶段,竞争重点从攻克技术转向构建可盈利、安全且被广泛接受的生态系统 [1] 商业化时间表与预期 - 行业对自动驾驶普及速度的预期显著回调,大多数应用场景的普及时间表平均推迟1-2年 [2] - 全球性大规模商业化推广的预期节点从2029年推迟至2030年 [2] - 面向私人乘用车的L4级城市试点预计从2030年推迟至2032年 [2] - 完全自动驾驶卡车的商业可行性从2031年延后至2032年 [2] - 专家认为L4级自动驾驶将首先在出租车领域实现商业化应用 [2] 区域发展格局 - 中美凭借更快的开发周期、活跃的资本与初创生态、积极的监管尝试以及更适配的道路环境,成为商业化落地先锋 [3] - 自动驾驶出租车在全球所有地区实现广泛商业化部署还需3至7年 [3] - 卡车与乘用车领域预计将呈现类似的区域推广模式,中美在大多数应用场景上预计将显著领先于欧洲或亚洲其他地区 [3] 私人乘用车市场重心 - 行业对私人乘用车市场的重点从L3回调至以人为主导的L2+(增强版高级驾驶辅助系统) [4] - 49%的受访专家认为,到2035年私人乘用车的大众市场核心将聚焦于L2+级功能 [4] - 目前仅有39%的专家仍看好L3成为市场中心,L3及以上功能正被重新定位为高端车型的选配项或特色功能 [4] 成本与商业化门槛 - 专家对实现L4及以上自动驾驶的成本预估显著上调,在自动驾驶卡车等尚未规模化的领域,成本预期上调达50%-60% [5] - 低级别自动驾驶的软件研发验证成本可比高级别系统低4至7倍 [5] - 实现全无人驾驶所需的软件投资可能超过30亿美元 [5] 行业发展核心痛点 - 高昂的成本已成为ADAS开发流程中最突出的痛点,超越了技术本身和责任归属问题 [6] - 产品责任与法规不确定性位列中等痛点 [6] - 市场竞争与人才稀缺在痛点中排名靠后 [6] 技术栈发展路径 - 74%的专家预测中国将形成独立的ADAS技术栈 [7][8] - 专家对全球格局的观点分为三类:中美各自独立(26%);中国独立,美欧共享另一套(35%);美国独立,中国与欧洲共享另一套(12%) [8] 技术路径共识 - 仅22%的专家认为“纯端到端”模型会成为主流 [9] - 绝大多数(78%)专家认为,未来属于融合“端到端”AI模型与传统可解释、可验证规则算法的“混合架构” [9] - 约三分之二专家预测“端到端”学习可降低10%以上开发成本 [9] 行业战略建议 - 保持极致敏捷,具备快速洞察与调整能力 [10] - 聚焦核心与开放合作,深耕最具竞争力的价值链环节,并通过合作构建生态优势 [11] - 坚持客户价值导向,关注功能的实际付费意愿 [12] - 协同共建安全与标准,推动建立清晰的安全标准与责任框架 [13] - 强化组织协同,打破技术、商业、运营壁垒 [13] 未来十年发展主旋律 - 在私人乘用车领域,未来十年将以L2+渐进式提升为主旋律 [13] - 在商用领域,无人驾驶出租车和自动驾驶卡车将聚焦特定区域与场景,逐步扩大商业版图 [13]
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
机器之心· 2026-01-14 15:18
文章核心观点 - 行业认为Transformer架构在未来至少一至几年内仍将是AI生态系统的基石,但竞争焦点正从单纯追求模型规模转向效率优化和混合架构[4][5] - 扩散语言模型因其并行生成特性和在数据稀缺条件下的学习优势,成为2026年值得关注的新兴变量,但其在工具调用方面的缺陷限制了其作为智能体的应用[11][12][19] 效率战争:混合架构与线性注意力的崛起 - 行业近期重点转向混合架构与效率提升,例如DeepSeek V3采用混合专家模型和多头潜在注意力,在拥有6710亿参数的情况下,每次推理仅激活370亿参数,显著降低了推理成本[7] - 多家公司推出效率导向的模型变体,如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3以及采用稀疏注意力的DeepSeek V3.2[7] - 标准Transformer注意力机制具有O(N²)的计算复杂度,导致长上下文处理成本剧增,因此行业正积极研发线性注意力或稀疏注意力等方案以降低计算开销[9] - 2026年的竞争核心在于如何在更长的上下文和更低的延迟下,提供同等的模型性能[10] - 部分模型采用混合策略,例如将高效的线性层与全注意力层以一定比例混合,以平衡长距离依赖捕捉能力和推理速度[14] 扩散语言模型:速度与代价的博弈 - 扩散语言模型采用并行生成方式,能够以相对快速且低廉的成本生成Token,其生成过程被类比为从噪声中并行“冲洗”出整段文字[12] - 行业预测Google可能在2026年推出Gemini Diffusion,作为其更便宜的Flash模型的替代品,并强调其生成速度“明显快于我们目前最快的模型”[12] - 扩散模型并行生成的特性导致其无法在响应链中原生地整合工具调用,这使其在作为智能体应用时面临巨大挑战[13][15] - 研究表明,若为了匹配自回归模型的性能而增加扩散模型的去噪步数,其最终计算成本可能与自回归模型相差无几[17] 数据枯竭时代的「超级学习者」 - 在互联网高质量文本数据接近枯竭的背景下,扩散语言模型可能成为更好的数据学习者[18][24] - 研究论文《Diffusion Language Models are Super Data Learners》指出,当进行多轮次训练时,文本扩散模型的表现可能优于标准的自回归大语言模型[19][25] - 在数据量受限的情况下,扩散语言模型通过增加训练轮数,其表现持续超越自回归模型,例如一个10亿参数的扩散语言模型,仅通过反复训练10亿个Token,就在HellaSwag和MMLU基准测试上分别达到了超过56%和超过33%的准确率[26][27] - 对于扩散语言模型,验证集损失的上升并不一定意味着下游任务能力的下降,即使看似“过拟合”,其在代码生成、推理等任务上的表现可能仍在提升[28] - 扩散模型具备任意顺序建模、超高密度计算以及内置的蒙特卡洛增强等特性,使其能从有限数据中进行更高效的学习[31]
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力
机器之心· 2025-08-25 17:10
大语言模型效率挑战与架构演进 - 大语言模型(LLMs)如GPT、Claude、Gemini等在语言理解、生成、代码生成等任务取得突破,但模型规模和数据量快速扩张导致算力和存储资源消耗急剧增加,训练与推理成本居高不下成为应用瓶颈 [2] - Transformer架构的自注意力机制存在O(N²)计算复杂度问题,在长序列任务中成本高昂,FFN部分的密集MLP层也面临效率问题 [3] - 新兴应用场景如RAG、智能体、长链推理和多模态进一步放长了序列需求,加剧了效率与性能之间的矛盾 [3] 高效架构研究综述 - 上海AI Lab联合多家机构总结440余篇论文,形成82页综述论文《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》,系统梳理LLM高效架构最新进展 [5][7] - 综述将高效架构分为7大类:线性序列建模、稀疏序列建模、高效全注意力、稀疏专家模型、混合模型架构、扩散语言模型和其他模态应用 [6][8] - 研究目标是在算力受限条件下持续推动AI发展,涉及方法类别和代表性论文已形成完整组织架构 [8][10] 线性序列建模技术 - 线性序列建模是研究热点方向,包括Mamba、Lighting Attention、RWKV等代表性工作,通过降低注意力训练和推理复杂度,无需KV Cache开销 [6][11] - 这些方法可概括为统一建模数学形式,通过线性化过程将预训练模型的Softmax Attention架构转为Linear Sequence Modeling架构,实现效率大幅提升 [11] - 具体分为线性注意力、线性RNN、状态空间模型和测试时推理RNN四类,从记忆视角和优化器视角进行统一对比 [12][14][15] - 线性化技术进一步细分为基于微调的线性化和基于蒸馏的线性化 [15] - 硬件高效实现方法包括Blelloch Scan、Chunk-wise Parallel和Recurrent for Inferences三种范式 [17] 稀疏序列建模方法 - 稀疏序列建模利用Attention Map天然稀疏性加速计算,分为静态稀疏注意力、动态稀疏注意力和免训练稀疏注意力三类 [21][24] - 代表性方法包括Global Attention、Window Attention、Dilated Attention等,通过不同稀疏模式降低计算与显存需求 [21][23] 高效全注意力优化 - 高效全注意力在保持完整注意力前提下优化内存访问与KV存储,分为IO-Aware Attention、Grouped Attention、Mixture of Attention和Quantized Attention四类 [22][25] - IO-Aware Attention包含广泛使用的Flash Attention系列,Grouped Attention包含GQA、MLA等全注意力变体 [22][28] 稀疏混合专家系统 - 稀疏混合专家(MoE)已成为语言和多模态大模型架构事实标准,通过对FFN模块改进大幅提升模型容量而不增加计算成本 [26][27] - 分为路由机制、专家架构和MoE转换三个方向,路由机制包括Token-choice和Expert-choice两类 [27][29][31] - 专家结构创新包括共享专家、细粒度专家、零专家、深度路由等 [31][33] - MoE转换通过Split、Copy、Merge等手段构造专家 [33] 混合架构设计 - 混合架构在线性/稀疏注意力和全注意力间取得平衡,分为层间混合和层内混合两种形式,在效率与效果间找到最佳平衡点 [34][35][37] 扩散语言模型进展 - 扩散大语言模型将扩散模型从视觉生成迁移至语言任务,在生成速度上取得大幅进步,分为非自回归扩散LLM、桥接扩散与自回归LLM以及扩展至多模态三类 [38][39][40][42] 多模态应用扩展 - 高效架构已扩展至视觉、音频和多模态领域,以Mamba为代表的线性模型在分类、检测、分割、生成、医疗、自动驾驶等多个视觉任务取得优秀表现 [43][44] - 在音频领域应用于理解、增强与生成任务,多模态领域涵盖理解与统一模型 [43][44] - 应用案例包括InsectMamba、V-MoE、Audio mamba、MaTAV等众多模型 [44]
DeepSeek V3.1发布后,投资者该思考这四个决定未来的问题
36氪· 2025-08-20 18:51
文章核心观点 - DeepSeek V3 1模型在编程基准测试中以71 6%的分数超越Claude 4 Opus 登顶开源模型榜首 同时成本优势显著 完成一次编程任务仅需1 01美元 比Claude Opus 4便宜68倍 其架构创新引发行业对混合架构的广泛猜测 这一发布促使投资者重新评估AI赛道的竞争格局 成本结构 商业模式和护城河演变 [1][2][5][7][18][20] 开源与闭源竞争格局 - 开源模型在特定能力如编程和数学上实现反超 挑战闭源巨头OpenAI和Anthropic的护城河 闭源优势可能从通用智能绝对领先收缩为多模态和超长上下文等功能的时间窗口优势 [8] - 企业采用混合模式成为主流 端侧和私有化部署优先使用微调开源模型处理敏感数据和高频任务 公有云调用闭源模型处理复杂非核心任务 这一趋势将重塑云厂商AI服务格局 并影响Snowflake和Databricks等一体化平台公司的战略 [8][9] 混合架构的商业影响 - 混合架构通过轻量级调度模型判断请求复杂度 分发给专家模型处理 可能将大模型推理单位经济效益提升一个数量级 冲击通用大模型API商业模式 并改变下游AI应用成本结构 [11][12] - 混合架构主流化可能导致数据中心算力需求多样化 需要更多低成本推理芯片 为NVIDIA之外厂商如AMD Intel和Groq打开新市场窗口 需将这一变量纳入NVIDIA长期投资逻辑考量 [12] 成本优势推动应用层变革 - 模型能力达到SOTA且推理成本降低60 70倍 将引发AI应用层质变 高昂API调用成本不再是商业化枷锁 商业模式可从按次调用转向按月订阅SaaS模式 提升营收稳定性和市场天花板 [12][13] - 基础模型因开源竞争逐渐商品化 价值链利润重心向上游应用层和解决方案层转移 护城河转向高质量私有数据 行业工作流理解和企业销售渠道 需重新评估传统软件巨头Microsoft Adobe Salesforce与AI原生创业公司的竞争格局 [14] 未来竞争核心维度 - 企业级就绪度成为下一个核心战场 包含模型稳定性 可预测性 安全性和合规性 提供包含模型 工具链和合规解决方案的企业级套件可能开启万亿级企业市场 [14][15] - 垂直领域深度优化与生态构建成为竞争焦点 商业价值爆发来自与法律 金融 生物医药等行业结合的垂直领域大模型 竞争从模型规模转向行业逻辑理解 生态系统包括开发者工具 API接口和社区支持成为长期壁垒关键 [15]
专家访谈汇总:小马智行与文远知行高管“互撕”?
固态电池技术进展与市场前景 - 比亚迪、国轩高科、一汽集团等已成功下线60Ah车规级电芯,能量密度达350-400Wh/kg,充电倍率1C,循环寿命1000次,比预期提前半年 [1] - 预计2025年下半年至2026年上半年固态电池中试阶段将迎来关键节点,技术成熟度大幅提升 [1] - 硫化物电解质生产突破千米级大卷,加压条件降至1-2Mpa,预计2026年价格将降至250万/吨,长期可能降至几十万/吨 [1] - 固态电池在低空飞行器、动力系统及机器人领域应用前景广阔,预计2030年市场规模突破100GWh [1] 先导智能订单与技术布局 - 宁德时代与先导智能扩大合作,承诺将50%新电芯段核心设备投资优先给先导 [1] - 2025年一季度订单量预计回升至2022-2023年水平,全年订单有望增长20%-30%达240-260亿元 [1] - 干法电极设备技术突破,中道环节采用片机替代卷绕设备提升效率,后道布局等静压和化成分容设备 [2] - 已与多家车企及日韩固态电池企业建立战略合作,提供量产解决方案 [2] VMware商业模式变革 - 博通收购VMware后改为VCF订阅制套件,取消永久授权模式,用户反映授权费用暴涨8-15倍 [2] - 博通称改革旨在帮助用户解锁VCF的全面配置管理、安全防护等价值 [2] - 53%企业将私有云部署列为优先IT任务,69%评估将工作负载从公有云迁回本地 [2] - 60%企业优先选择本地IT系统运行核心负载,仅2%选择全公有云化 [2] 科技股驱动因素与特斯拉供应链 - 伊朗以色列停火协议改善市场情绪,美联储表态支持降息推动流动性 [3] - 特斯拉推出首批10辆Robotaxi服务,商业化进程加速 [3] - 联创电子预计2025年成为特斯拉镜头第一供应商 [3] - 拓普集团提供底盘系统等零部件并配套机器人项目 [3] - 旭升股份持续供应电池和传动系统零部件 [3] - 三花智控提供热管理零部件并深入机器人合作 [3] - 江苏雷利通过鼎智科技提供执行器和电机 [3] Robotaxi市场竞争格局 - 小马智行称竞争对手在规模化和无人化方面落后两年半,文远知行反驳并强调落地进展 [4] - 全球Robotaxi市场规模预计从2024年19.5亿美元增至2030年437.6亿美元(天风证券预测8349亿元) [4] - 小马智行采用多传感器融合方案,计划2025年车队规模扩至千台,车费收入同比增800% [4] - 文远知行2024年纳斯达克上市,首日市值44.91亿美元 [4] - 小马智行2022-2024年研发投入累计5.17亿美元,文远知行29.08亿元 [4] - 文远知行专利921项显著领先小马智行93项 [4] - 文远知行营收从2022年5.28亿元下滑至2024年2.50亿元 [4]
大模型专题:大模型架构创新研究报告
搜狐财经· 2025-06-06 19:38
大模型架构创新研究核心观点 - Transformer架构目前仍占据行业绝对主导地位,但面临二次计算复杂度高、长序列处理效率低、端侧部署受限等局限性 [1][9][16] - 行业正从两条路径突破:Transformer架构改进(Attention机制、FFN层优化)和非Transformer架构探索(新型RNN/CNN) [1][7][18] - 技术发展呈现混合架构趋势,如Mamba+MoE等组合,兼顾性能与效率 [2][9][18] - 2023年后进入架构创新密集期,学术界聚焦理论突破,工业界加速工程验证 [2][14] Transformer架构现状与挑战 - 当前占据大模型架构90%以上市场份额,通用性和可扩展性优势明显 [9][10] - 核心问题:计算复杂度O(n²)导致算力消耗激增,GPT-4推理成本达GPT-3的7倍 [16] - 长序列处理效率低下,KV缓存内存占用限制端侧部署 [16] - 预训练+微调范式见顶,效果提升边际递减(Grok3资源增10倍效果仅提升2%) [16] Transformer架构改进路径 Attention机制优化 - 稀疏注意力:采用局部窗口/块状计算降低复杂度至O(n log n),代表技术有Sliding Window、MoBA [24][25][26] - 动态注意力:NSA等新技术实现可学习动态路径,替代预定义结构 [27][28][32] - 线性注意力:将点积计算线性化降为O(n)复杂度 [24] FFN层改进 - 从Dense结构演进为MoE混合专家系统,提升稀疏连接效率 [1][21] - 持续探索动态化、稀疏化下一代技术 [21][23] 其他改进 - 位置编码优化:LongRoPE增强长序列建模 [1] - 归一化层与残差连接改进 [22] 非Transformer架构探索 - 新型RNN:RWKV通过广义Delta Rule优化状态演化,Mamba利用状态空间模型提升训练效率 [1][14] - 新型CNN:Hyena Hierarchy等架构尝试 [1] - 混合架构:2025年MiniMax-01实现456B参数工业级落地,采用Transformer+Mamba组合 [9][14] 行业发展趋势 - 混合架构成为主流选择,字节跳动、阿里等企业加速布局 [2][10] - 研究方向聚焦:算力适配(FP8混合精度)、多模态融合、端侧部署能力 [2][18] - 参数规模持续突破,2025年出现万亿级非Transformer架构 [9][14] - 训练范式革新:从预训练转向多阶段训练、RL优化等后训练技术 [16][18]
Z Research|我们距离Agent的DeepSeek时刻还有多远(AI Agent 系列二)
Z Potentials· 2025-06-06 10:44
AI Agent技术架构分析 - 拆解AI Agent运作流程为感知层(LLM/RAG)、决策层(Memory/Planning)、执行层(Tools)三层架构 [14][15] - 感知层负责信息收集处理,决策层进行任务拆解和推理,执行层完成实际操作 [14][15] - 当前技术痛点包括预训练收敛、检索效率瓶颈、隐私风险、工具兼容性等问题 [10] - 未来趋势包括RL强化、多源动态检索、记忆压缩技术、因果推理强化等方向 [10] 市场形态分类 - 提出AI Agent九宫格分类法,从形式和内容两个维度划分市场形态 [17][18] - 形式维度分为纯粹LLM自主、人类定义workflow、人工与AI结合三类 [17][18] - 内容维度分为通用Agent、垂类Agent和自定义平台三类 [17][18] - 需辨别真正有潜力公司与概念炒作者 [19] 技术路线之争 - OpenAI坚持"纯粹Agent"路线,强调LLM动态驱动决策 [23][24] - LangChain采用"混合架构"路线,主张Workflow与Agent结合 [25][26] - 两种路线在系统设计、开发门槛、可靠性等方面存在显著差异 [28] - OpenAI路线适合开放域任务,LangChain路线更适合企业级应用 [28] 模型能力进化 - SOTA模型已将工具调用能力内化,Agentic能力内化成为必然 [30] - OpenAI o4-mini与Claude 4代表两种技术路线:"隐形智能"与"可编程智能" [38][39] - 未来竞争将是"体验普惠"与"深度可靠"两条路线的角力 [40] - 工程整合对模型能力的贡献开始增加 [31] Multi-Agent系统 - Single-Agent存在内存、工具调用、React框架等局限性 [80] - Multi-Agent在复杂性、鲁棒性和扩展性上具有根本优势 [82] - 核心架构模式包括单智能体、网络架构、监督者架构等六种 [102][124] - 当前框架处于割据状态,主流玩家各自推出解决方案 [125] 行业应用现状 - 当前AI Agent存在技术同质化和"套壳"现象普遍的问题 [129] - 短期差异化来自数据工程和系统集成等"苦活累活" [130][131] - 长期看这些工作有被自动化重构的风险 [132] - 未来12-24个月内有望看到显著进展 [138]