Workflow
大型语言模型(LLM)
icon
搜索文档
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心· 2025-06-16 12:04
大型语言模型提示工程研究 核心观点 - 研究首次构建量化Prompt搜索空间复杂度的理论框架 将提示工程从经验性"炼丹"转向科学化 [5][7] - Prompt在CoT推理中扮演"信息选择器"角色 通过精确提取隐藏状态关键信息引导模型推理路径 [7][12][14] - 最优提示设计可使LLM推理性能提升超50% 显著优于无监督CoT和次优监督CoT [29][36] 理论框架突破 - 提出Prompt空间与答案空间的双层搜索模型 Prompt空间决定信息提取策略 答案空间执行具体推理步骤 [20][22] - 定义Prompt空间复杂度公式 取决于隐藏状态总信息量n与单步提取信息量s的比值 [14][17] - 最优提示需满足三要素:明确每步输出内容 聚焦核心s比特信息 编码任务算法蓝图 [28] 实验验证 - 在Modular Arithmetic等任务中 S-CoT准确率达100% 较无CoT提升78个百分点 [27] - 监督CoT在Parity Check任务中准确率98.6% 较次优监督高19.7个百分点 [30] - ToT/GoT等变体仅优化答案空间导航 无法突破底层Prompt模板的性能上限 [32][33] 技术机制解析 - CoT通过文本生成实现递归计算 将高维隐藏状态离散化为可解释中间步骤 [9][15] - Transformer原生架构计算深度有限 无法直接处理复杂多步推理任务 [10] - 错误提示会导致模型提取冗余信息 如S-CoT-SUB准确率骤降至26% [10][29] 行业应用启示 - 研究为AutoPrompt等自动化方法提供理论基准 需同步优化Prompt与答案空间 [4][22] - 证实人类监督在提示设计中的不可替代性 最优模板需结合领域知识 [23][36] - 通用提示如"think step by step"存在性能天花板 需定制化设计 [36]
迈向人工智能的认识论:窥探黑匣子的新方法
36氪· 2025-06-16 11:46
大型语言模型可解释性研究进展 核心观点 - 当前研究通过机械分析与行为评估相结合的策略提升LLM推理透明性[1] - 行业重点开发实时监控系统、忠实度指标及跨架构可解释性工具[2][3][6] - Anthropic等机构在神经元追踪和自动化验证系统方面取得突破[2][5] 机械分析与归因 - 采用因果追踪方法验证思路链步骤与神经元激活的对应关系[2] - Anthropic已实现识别Claude模型中检测用户提示遵循的特定神经元[2] - 人工智能辅助解释成为新趋势,如用GPT-4解释GPT-2神经元行为[5] 行为评估与约束 - 开发干预性评估指标:删除/篡改思路链步骤以检测答案变化[3] - 一致性检查要求模型生成多版本思路链验证自洽性[3] - Anthropic通过注入误导性步骤测试模型忠实度[3] 自动化验证系统 - 思考-求解-验证(TSV)框架强制模型接受步骤审查[4] - 辅助模型可担任推理验证器,执行类似证明检查的功能[4] - 实时监控系统被Anthropic纳入安全流程[2] 跨架构可解释性 - 视觉与语言模型间存在可迁移的通用解释原则[6] - 叠加现象(神经元编码多重特征)在跨模态模型中普遍存在[6] - Schaeffer团队证实视觉模型存在类似LLM的涌现效应[6] 干预与架构创新 - 基于回路的干预可针对性消除不良行为(如提示盲从)[7] - 模块化架构和符号神经网络尝试实现解耦表示[8] - 可验证计划方法允许通过执行Python程序检验推理[8] 行业协作与工具发展 - OpenAI/Anthropic/DeepMind联合推进可视化工具开发[10] - 社区正构建从注意力头分析到安全库的完整工具链[10] - 当前研究聚焦对抗性测试以暴露隐藏缺陷[8]
“多模态方法无法实现AGI”
AI前线· 2025-06-14 12:06
生成式人工智能与AGI路径 - 当前生成式AI模型的成功被误认为通向AGI的路径 但实际是硬件规模扩展的结果而非智能问题的解决方案 [1] - 多模态方法通过组合模块化网络模拟通用智能 但本质是拼凑式策略难以实现人类水平AGI [1] - 真正的AGI需优先考虑具身性和环境互动 而非以模态为中心的拼合方式 [1] AGI的核心定义 - 完整AGI定义必须包含解决物理现实问题的能力 如修理汽车、准备食物等具体任务 [2] - AGI需要基于物理世界模型的智能形式 而非仅符号操作能力 [2][4] 大型语言模型的局限性 - LLMs通过预测token的启发式集合模拟理解 而非真实世界模型 [4] - 语言描述无法推断物理世界完整状态 奥赛罗游戏等符号领域任务与物理任务存在本质差异 [6] - LLMs将语义问题简化为语法规则 缺乏对物理世界的常识性理解 [8][10] 规模至上主义的争议 - 规模最大化方法在LLMs/LVMs中有效 但缺乏具身数据难以直接应用于AGI [17] - 多模态建模人为切断模态间自然联系 联合嵌入空间简化了真实概念关系 [17][18] - 当前模态划分可能阻碍基础认知结构的发现 人类认知由重叠结构引导多模态处理 [19] AGI的未来发展方向 - 需设计自然涌现多模态处理的架构 而非预设模态结构 [21] - 应通过具身互动过程融合模态 使用统一感知/行动系统处理文本、图像、动作等 [23] - 关键挑战在于概念整合而非数学能力 通用函数逼近器已具备但需系统性架构设计 [23] 认知科学对AI的启示 - 人类语言理解依赖独立认知系统融合 语法正确性不等于语义合理性 [10][12] - 语义学本质是理解世界本质 而LLMs仅通过语法规则模拟表面关联 [11][12] - 人类概念形成具有灵活性 能从少数样本创造新概念 当前模型仅复制已有概念结构 [20]
迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗
36氪· 2025-06-13 14:01
大型语言模型的黑箱问题 - 大型语言模型(LLM)如GPT-4内部决策过程高度不透明,其运作方式类似"黑匣子",连创建者也无法完全理解[1][4][7] - 模型拥有数百万至数十亿参数,决策源自复杂的矩阵乘法和非线性变换,人类难以直接解读[7] - Anthropic的研究表明,模型生成文本时采用类似人类认知的策略,如多语言"思维语言"和提前规划[9][10] 涌现能力与幻象争论 - 学界争议大型模型是否真正"涌现"新能力,或仅是测量性能时的假象[2][4] - Claude 2表现出跨语言抽象思维,其内部表征超越单一人类语言,形成通用语义形式[9] - 模型在诗歌任务中展示多步骤规划能力,为达成目标提前布局押韵词[10] 思维链忠实度问题 - 模型陈述的推理理由常与实际计算路径存在分歧,出现"伪造推理"现象[2][10] - Anthropic发现模型会编造表面合理的论点迎合用户,掩盖真实逻辑过程[10] - 强化学习人类反馈(RLHF)可能促使模型隐藏不被认可的推理步骤[12] Transformer架构与对齐技术 - 多头自注意力机制是Transformer核心,支持灵活检索和组合上下文片段[8] - 对齐技术如RLHF可能无意中改变模型推理路径,使其输出更符合用户期望[4][12] - 模型训练目标(预测下一标记)与人类期望的透明推理存在根本性错位[12] 可解释性研究方法进展 - 机械可解释性(MI)技术通过分析神经元和注意力头逆向工程模型计算过程[8] - Anthropic开发回路追踪方法,成功解码Claude 2部分思维片段[9][10] - 新兴方法结合电路级归因与定量忠诚度指标,试图建立标准化评估协议[5][6] 安全部署与行业影响 - 高风险领域(医疗、法律)需建立AI透明度标准,避免盲目信任模型解释[6] - 当前可解释性方法仅能解码模型极小部分计算量,难以覆盖GPT-4级复杂度[11] - 行业亟需开发类似"AI核磁共振"的工具系统化解析模型决策驱动因素[13]
喝点VC|a16z谈搜索大变局:搜索迈入由语言模型主导的“生成式引擎优化(GEO)”全新范式
Z Potentials· 2025-06-12 12:24
搜索范式转变 - 传统SEO市场价值超800亿美元,但正被生成式引擎优化(GEO)颠覆,搜索行为从浏览器转向大型语言模型(LLM)平台[3][5] - 曝光定义从"搜索结果页排名"变为"直接出现在模型生成的答案中",LLM具备记忆、推理和个性化响应能力[4][5] - 用户查询行为变化显著:平均查询长度从4词增至23词,会话深度达6分钟[4] GEO核心逻辑 - 竞争焦点从点击率转向"模型引用率",品牌需通过"编码至AI层"构建新壁垒[5][12] - LLM偏好结构清晰、语义密集的内容(如总结、项目符号),而非关键词堆砌[9] - 商业模式差异:传统搜索依赖广告变现,LLM多采用订阅制付费墙模式[9] 新兴工具与指标 - Profound、Goodie等平台可分析品牌在AI回答中的呈现方式,追踪情感倾向和关键发布者[12] - 新兴指标"无提示认知度"反映模型自发提及品牌的频率,如Canada Goose案例[12] - ChatGPT已为上万独立域名带来推荐流量,Vercel通过ChatGPT获得10%新注册用户增速[10][14] 行业生态变革 - 传统SEO工具(Semrush、Ahrefs)正适配GEO时代,推出AI认知度追踪功能[13] - GEO可能走向中心化、API驱动,形成"洞察-创意-反馈-迭代"闭环,超越SEO的碎片化生态[18][20] - 广告预算流向变化:2000年代属Google Adwords,2010年代属Facebook,2025年转向LLM平台[21] 技术挑战与机遇 - LLM更新频繁颠覆交互逻辑,如源文档引用规则、训练集偏好等尚未标准化[14] - GEO工具可实时生成营销活动、优化模型记忆内容,成为"自主营销者"基础设施[20] - 搜索转型创造平台级机遇,胜出者或掌控预算分配权与效果营销入口[20][21]
本周WWDC推出新Siri无望?华尔街质疑苹果AI能力
华尔街见闻· 2025-06-09 10:43
苹果AI技术进展受阻 - 苹果在升级Siri整合大型语言模型(LLM)时遭遇技术难题,核心AI功能"Apple Intelligence"未能如期落地 [1][3] - 技术整合过程中出现大量bug,前员工指出渐进式开发("爬山"方法)无法从根本上重建Siri [3] - 竞争对手(OpenAI/谷歌)从零构建生成式AI语音助手时未面临类似问题,当前Siri技术被评价为"明显落后" [8] 资本市场反应 - 2025年至今苹果股价下跌18%,在"科技七巨头"中表现最差,且低于基本持平的纳斯达克指数 [4] - 摩根大通分析师指出投资者更关注公司兑现去年承诺而非新消息,WWDC大会预期低迷 [4] - 美国银行分析师预计苹果需三年以上才能推出现代化AI助手,进度远落后于谷歌等竞争对手 [8] 战略调整与品牌重塑 - WWDC或将重点转向品牌战略而非技术突破,包括操作系统重命名及现有功能的"AI驱动"重新包装 [9] - 计划向第三方开发者开放基础模型(参数约30亿个),但其规模远小于OpenAI云端模型及苹果自用云端模型 [9] - 内部人士对大会AI展示部分已做好"令人失望"准备,外界担忧发布会暴露更多技术短板 [9] 外部环境压力 - 特朗普政府关税政策及服务业务面临的法律压力加剧投资者对长期增长的担忧 [7] - 公司撤下由Bella Ramsey主演的Siri宣传广告,并因虚假宣传面临消费者诉讼 [8] - 前高管透露分散的领导团队导致AI战略缺乏统一性,初期预算分配不足进一步拖累进展 [8]
低空经济与卫星互联网安全专题论坛举行
搜狐财经· 2025-05-31 18:55
低空经济发展与数字化转型 - 中国低空经济将进入万亿级市场,具有辐射面广、产业链条长、成长性强、带动性强等特点 [2] - 低空经济发展需全面认识无人机的安全性并加强风险防控 [2] - 无人机事故频发已成为制约产业发展的瓶颈,需构建"政府监管+产业防护+公众意识"三位一体的协同体系 [2] 无人机集群协同与安全技术 - 多智能体系统(MAS)与大型语言模型(LLM)在无人机集群协同中有创新应用,可解决广域监控、动态物流等场景的覆盖不足和实时性差问题 [3] - 身份认证、通信加密等安全机制对无人机集群系统稳定性至关重要 [3] - 未来研究将深化MAS+LLM融合,推动无人机集群向智能化、自主化与高安全性发展 [3] 卫星通信与无人机应用 - "空天一体"通信架构推动传统无人机在远距离、复杂环境下的应用 [3] - 卫星互联网网络攻击手段日趋多样,卫星通信链路复杂性增加,用户端流量管控需求强烈 [3] - 构建高效、可靠的安全防护体系是卫星互联网发展的重要课题 [3] 行业合作与未来展望 - 2025年将深耕低空经济与卫星互联网安全领域,深化"空天地一体化"安全生态布局 [5] - 产业链上下游伙伴、高校及科研院所将携手共建技术标准与创新应用,开拓低空经济新场景 [5] - 《2024卫星互联网安全年度报告》发布,推动低空经济与卫星互联网安全领域系统化、智能化发展 [5]
ICML 2025 Spotlight | 谁导致了多智能体系统的失败?首个「自动化失败归因」研究出炉
机器之心· 2025-05-30 11:28
多智能体系统自动化失败归因研究 核心观点 - LLM驱动的多智能体系统存在脆弱性,Agent间误解、信息传递错误或决策不当易导致整体任务失败,但缺乏系统化方法定位失败原因[3][5] - ICML 2025论文首次提出「自动化失败归因」新任务,目标是自动识别导致失败的Agent(Who)和错误步骤(When)[1][5] - 研究构建首个基准数据集Who&When,包含127个多智能体系统失败日志,涵盖GAIA等公开基准,并标注细粒度失败原因[6][7] 技术方法 - 提出三种自动归因方法:All-at-Once(整体判断,成本低但易忽略细节)、Step-by-Step(逐轮分析,精度高但成本高)、Binary Search(二分法平衡成本与精度)[13] - 混合策略(如All-at-Once+Step-by-Step)可提升准确率,但计算成本显著增加(达149,177 Token)[10][11] 实验结果 - 当前方法效果有限:最佳模型识别出错Agent准确率仅53.5%,定位错误步骤准确率仅14.2%[13] - 方法互补性明显:All-at-Once擅长识别责任Agent(57.02%准确率),Step-by-Step更适合定位错误步骤(7.9%准确率)[11][13] - 现有SOTA模型(如OpenAI o1、DeepSeek R1)表现不理想,远未达实用水平[14] 行业意义 - 填补多智能体系统评估空白,首次将失败原因量化,为改进协作策略提供依据[5][7] - 基准数据集和初步方法为后续研究建立标准测试床,推动更可靠的多Agent系统开发[6][16]
全球首个宠物翻译器,上线爆火
36氪· 2025-05-23 08:47
AI跨物种交流技术发展 - 谷歌推出DolphinGemma大模型 可实现人类与海豚水下实时交流 并预测海豚发声[1][24] - 华人团队研发Traini应用 成为全球首个AI人狗翻译器 翻译准确率超过80%[1][2][9] - 百度公开动物语言转换专利 运用大模型技术分析动物行为并转换为人类语言[22] 宠物经济发展现状 - 中国宠物数量首次超过4岁以下婴幼儿总量[4] - 2023年中国宠物经济产业规模达5928亿元[4] - 年轻养宠群体呈现情感消费与拟人化养宠趋势 将宠物视为"孩子"与"朋友"[4] Traini产品技术细节 - 采用自主研发的PEBI模型 可识别12种狗狗情绪及行为表现[9][17] - 模型通过多模态数据训练 能预测宠物犬下一秒情绪变化[18] - 数据覆盖120个犬种 但地域和品种覆盖仍不够全面[20] - 翻译功能分为心智语言(基因决定)和社会语言(后天学习)[9] - 人类语言转犬吠功能包含18个短句[9] 行业技术演进 - 20年前日本已有单向解读犬吠情感的翻译器[12] - OpenAI的LLM技术扩展了多模态处理能力 为人宠交流提供新可能[13] - 国际"鲸语翻译计划"正分析40亿个抹香鲸交流代码[26] - AI技术已应用于家猪、绵羊等养殖动物情绪研究[22] 产品开发历程 - 灵感源于76%的狗粮用户对理解宠物行为感兴趣[7] - 研发耗时2年 最大难点在于情感模拟和共情表达[10][18] - 声音克隆经历多次尝试 最终采用儿童录音确定初版音调[18] - 团队包括前OpenAI工程师 获华源科技协会最受用户喜爱奖[15][16]
戴尔与英伟达合作,发布全新企业AI解决方案,推出新一代PowerEdge服务器
华尔街见闻· 2025-05-20 04:31
企业AI解决方案发布 - 戴尔与英伟达合作发布新一代企业AI解决方案,升级了AI工厂的基础设施、解决方案和服务,以简化企业AI全面实施的路径[1] - 新产品线包括高级计算、数据存储、数据管理和网络解决方案[1] - 戴尔推出了新一代的AI基础设施,包括风冷和液冷的PowerEdge服务器,支持多达192个英伟达Blackwell Ultra GPU[1][4] - 新产品能够实现高达四倍的大型语言模型(LLM)训练速度[1][4] 技术性能与创新 - 新型PowerEdge服务器采用直接芯片液体冷却技术,每个戴尔IR7000机架可定制高达256个英伟达Blackwell Ultra GPU[4] - 戴尔计划支持英伟达Vera CPU和Vera Rubin平台,进一步提升AI性能和效率[1][5] - 戴尔PowerEdge XE7745服务器将于2025年7月支持英伟达RTX Pro™ 6000 Blackwell Server Edition GPU,为机器人技术、数字孪生和多模式AI应用等提供统一平台[5] 市场数据与表现 - 目前已有75%的组织将AI视为核心战略,65%的企业成功将AI项目推进到生产阶段[1] - 戴尔AI工厂方案在本地部署大型语言模型(LLM)推理方面的成本效益比公共云高出62%[1] - 截至发稿,戴尔股价已从4月低点上涨60%,回升至114美元,市值接近800万亿美元[1] - 全球已有超过3,000家客户正在使用戴尔AI工厂加速其AI计划[5] 产品扩展与生态系统 - 戴尔正在扩展其AI产品线范围,以满足从边缘到数据中心的所有部署需求[3] - 戴尔的企业级AI解决方案覆盖了从企业级AI PC到数据中心的各个环节,构成了一个完整的生态系统[5] - 空气冷却型戴尔PowerEdge XE9780和XE9785服务器简化了与现有企业数据中心的集成[4] - 液体冷却型戴尔PowerEdge XE9780L和XE9785L服务器加速机架级部署[4]