Workflow
大型语言模型(LLM)
icon
搜索文档
还不知道研究方向?别人已经在卷VLA了......
自动驾驶之心· 2025-07-21 13:18
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化架构但存在黑箱问题和泛化能力限制,如NVIDIA DAVE-2和Wayve的模仿学习方案 [2] - VLA范式通过语言桥梁结合视觉与行为,提升可解释性并注入LLM的世界知识,解决长尾场景处理难题 [2][3] VLA模型核心优势 - 实现自然语言决策解释(如减速原因分析),增强系统透明度 [2] - 利用LLM预训练的常识理解复杂场景(如施工区域需慢行) [3] - 支持自然语言交互(如"找充电站"指令),推动人性化驾驶体验 [3] 科研辅导课程设计 - 12周在线科研+2周论文指导+10周维护期,覆盖经典与前沿论文分析及代码实践 [6] - 提供baseline代码(如DiffusionDrive、OpenDriveVLA等)和公开数据集(nuScenes、Waymo) [15][17] - 采用"2+1"多师制团队,主导师为名校教授,副导师为博士/硕士,配备督学班主任 [14] 学员能力培养目标 - 掌握VLA算法理论与创新思路,完成论文初稿 [12] - 获得选题方法、实验设计及投稿建议,强化PyTorch和Python实战能力 [7][13] - 基础要求包括深度学习基础、自动驾驶算法了解及8张4090显卡硬件配置 [13] 关键学术资源 - 必读论文包括Senna、OpenDriveVLA等5篇顶会论文,聚焦VLA与自动驾驶结合 [18] - 课程产出含结业证书、推荐信及论文初稿,助力留学申请与职业发展 [14]
晚点独家丨Agent 初创公司 Pokee.ai 种子轮融资 1200 万美元,Point 72 创投,英特尔陈立武等投资
晚点LatePost· 2025-07-09 19:38
公司融资与资金用途 - Pokee.ai完成1200万美元种子轮融资 投资人包括Point72 Ventures Qualcomm Ventures及多位科技公司高管[5] - 资金将用于扩张Agent产品Pokee的可选工具集 加速对大公司客户销售 不计划大规模扩招 研发团队保持在10人以内[5][3] - 部分资金用于迭代算法 接入10个新平台API 新增记忆功能以理解客户需求[9] 技术架构与竞争优势 - Pokee采用强化学习模型而非LLM作为任务规划核心 LLM仅作为交互层 当前版本已掌握15000个工具[7] - 强化学习模型决策不依赖token生成 参数量更少 单任务成本仅为同类产品的1/10 演示任务完成时间仅几分钟[8] - 重点优化跨平台API调用能力 目标客户为大公司和专业消费者 支持Amazon Google Instagram等多平台工作流[9] 行业融资趋势 - AI行业种子轮融资规模突破传统惯例 2024年生成式AI公司种子轮融资中位数达300万美元 较2020年170万美元增长76%[10] - 明星AI产品公司如Udio Daydream种子轮融资额超千万美元 硅谷成为主要聚集地[10] - 2024年A轮融资耗时中位数达25个月 创近十年新高 反映投资人更谨慎 要求扎实的PMF验证[17][19] 市场环境与挑战 - AI产品单任务成本高企 例如Manus单任务成本2美元 相当于B站用户全年带宽成本[13] - 行业同质化严重 产品易被复刻 需通过烧钱争夺市场份额 部分公司定价低于成本价[14] - 全球风投募资额连续三年下滑 2024年仅为2021年峰值的40% 2025年或创十年新低[14]
Gary Marcus惊世之言:纯LLM上构建AGI彻底没了希望!MIT、芝大、哈佛论文火了
机器之心· 2025-06-29 12:23
论文核心观点 - 大型语言模型(LLM)存在"波将金式理解"现象,即模型能正确定义概念但在实际应用中频繁出现自相矛盾的错误,揭示其概念表征存在深层次内在不一致性[2][3][17] - 这种现象普遍存在于各类主流模型中,包括GPT-4o、Claude-3.5、Gemini-2.0等,波将金率总体达到55%(分类)、40%(生成)、40%(编辑)[32][33] - 研究通过两种互补方法验证:基于三大领域(文学技巧/博弈论/心理偏差)的基准测试和自动化评估程序,结果显示模型内部存在对同一概念的冲突表征[28][36][39] 研究框架 - 提出形式化理论框架:将概念理解定义为函数f:X→{0,1},人类正确解释为f*,误解集合为F_h[21][22] - 引入"基石集"概念:最小实例集S⊆X,通过有限示例测试即可判定是否真正理解概念[24][25] - 基准测试有效性前提:LLM的误解方式需与人类相似,否则高分仅反映"波将金式理解"[17] 实证方法 - 基准测试覆盖32个概念/3159条标注数据,测量模型在定义正确后分类/生成/编辑任务的错误率[28][29] - 自动化程序检测内部不一致性:让模型评估自身生成的实例,结果显示不一致得分范围0.02-0.64[37][39] - 测试模型包括7个主流LLM:Llama-3.3正确率57%/43%/36%,GPT-4o为53%/38%/35%,Qwen2-VL表现最差达66%/62%/52%[32] 行业影响 - 模型定义准确率94.2%,但应用时表现断崖式下跌,证明传统基准测试存在局限性[33] - DeepMind科学家测试显示Gemini 2.5 Pro能正确处理论文案例,但需验证完整测试集表现[12] - 争议点:部分观点认为LLM无需真正理解,只需表现持续改进即可满足需求[11]
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 14:09
大语言模型(LLM)技术发展 - LLM在不到十年内将人工智能能力普及给全球数亿用户,实现自然语言创作、编程和推理[2] - LLM技术版图快速扩张,包括模型竞赛和自主执行任务的智能体发展[2] - MIT CSAIL发布的50个关键问题指南帮助深入理解LLM核心概念与技术[3][5] 核心架构与基本概念 - Token化将文本分解为更小单元,对处理多语言和稀有词汇至关重要[7][9] - 注意力机制通过查询、键和值向量分配不同重要性级别,增强上下文理解[10][12] - 上下文窗口定义模型短期记忆能力,平衡窗口大小与计算效率是关键[13] - 序列到序列模型由编码器和解码器组成,应用于机器翻译等场景[15] - 嵌入向量捕获token语义特征,通常随机初始化或使用预训练模型[17] 模型训练与微调技术 - LoRA通过低秩矩阵实现高效微调,QLoRA进一步量化至4位精度减少内存使用[34] - 模型蒸馏训练小模型复制大模型输出,实现设备端部署[38] - PEFT通过冻结大部分参数缓解灾难性遗忘,保持预训练知识[43] - 超参数如学习率直接影响模型收敛性和性能表现[45] 文本生成与推理优化 - 束搜索保留多个候选序列,相比贪婪解码产生更连贯输出[51] - 温度参数控制输出随机性,0.8通常实现创造力与连贯性平衡[53] - 提示工程通过精心设计输入显著提升零样本/少样本任务性能[56] - RAG结合检索外部知识提高生成内容的事实准确性[57][58] - 思维链提示将复杂问题分解为逻辑步骤,增强推理能力[61] 训练范式与模型类型 - 掩码语言建模通过预测隐藏token实现双向语言理解[68] - 自回归模型(GPT)与掩码模型(BERT)分别在生成和理解任务中表现突出[70] - 零样本学习利用预训练知识执行未经专门训练的任务[77] - 少样本学习仅需少量示例即可适应新任务,降低数据需求[79] 高级模型与系统演进 - GPT-4相比GPT-3在多模态处理和复杂对话方面显著进步[100] - Gemini通过统一架构处理多模态输入,上下文窗口达25000 token[101][102] - 专家混合(MoE)激活特定子网络,实现万亿参数模型高效运行[106] - 知识图谱集成提供结构化事实信息,减少模型幻觉[107][108] 应用挑战与行业影响 - LLM部署面临计算资源密集、偏见延续和隐私保护等挑战[116] - 传统统计语言模型相比LLM在长距离依赖处理能力上存在局限[115] - 修复偏见输出需分析数据模式、改进数据集和针对性微调[113][114]
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心· 2025-06-16 12:04
大型语言模型提示工程研究 核心观点 - 研究首次构建量化Prompt搜索空间复杂度的理论框架 将提示工程从经验性"炼丹"转向科学化 [5][7] - Prompt在CoT推理中扮演"信息选择器"角色 通过精确提取隐藏状态关键信息引导模型推理路径 [7][12][14] - 最优提示设计可使LLM推理性能提升超50% 显著优于无监督CoT和次优监督CoT [29][36] 理论框架突破 - 提出Prompt空间与答案空间的双层搜索模型 Prompt空间决定信息提取策略 答案空间执行具体推理步骤 [20][22] - 定义Prompt空间复杂度公式 取决于隐藏状态总信息量n与单步提取信息量s的比值 [14][17] - 最优提示需满足三要素:明确每步输出内容 聚焦核心s比特信息 编码任务算法蓝图 [28] 实验验证 - 在Modular Arithmetic等任务中 S-CoT准确率达100% 较无CoT提升78个百分点 [27] - 监督CoT在Parity Check任务中准确率98.6% 较次优监督高19.7个百分点 [30] - ToT/GoT等变体仅优化答案空间导航 无法突破底层Prompt模板的性能上限 [32][33] 技术机制解析 - CoT通过文本生成实现递归计算 将高维隐藏状态离散化为可解释中间步骤 [9][15] - Transformer原生架构计算深度有限 无法直接处理复杂多步推理任务 [10] - 错误提示会导致模型提取冗余信息 如S-CoT-SUB准确率骤降至26% [10][29] 行业应用启示 - 研究为AutoPrompt等自动化方法提供理论基准 需同步优化Prompt与答案空间 [4][22] - 证实人类监督在提示设计中的不可替代性 最优模板需结合领域知识 [23][36] - 通用提示如"think step by step"存在性能天花板 需定制化设计 [36]
迈向人工智能的认识论:窥探黑匣子的新方法
36氪· 2025-06-16 11:46
大型语言模型可解释性研究进展 核心观点 - 当前研究通过机械分析与行为评估相结合的策略提升LLM推理透明性[1] - 行业重点开发实时监控系统、忠实度指标及跨架构可解释性工具[2][3][6] - Anthropic等机构在神经元追踪和自动化验证系统方面取得突破[2][5] 机械分析与归因 - 采用因果追踪方法验证思路链步骤与神经元激活的对应关系[2] - Anthropic已实现识别Claude模型中检测用户提示遵循的特定神经元[2] - 人工智能辅助解释成为新趋势,如用GPT-4解释GPT-2神经元行为[5] 行为评估与约束 - 开发干预性评估指标:删除/篡改思路链步骤以检测答案变化[3] - 一致性检查要求模型生成多版本思路链验证自洽性[3] - Anthropic通过注入误导性步骤测试模型忠实度[3] 自动化验证系统 - 思考-求解-验证(TSV)框架强制模型接受步骤审查[4] - 辅助模型可担任推理验证器,执行类似证明检查的功能[4] - 实时监控系统被Anthropic纳入安全流程[2] 跨架构可解释性 - 视觉与语言模型间存在可迁移的通用解释原则[6] - 叠加现象(神经元编码多重特征)在跨模态模型中普遍存在[6] - Schaeffer团队证实视觉模型存在类似LLM的涌现效应[6] 干预与架构创新 - 基于回路的干预可针对性消除不良行为(如提示盲从)[7] - 模块化架构和符号神经网络尝试实现解耦表示[8] - 可验证计划方法允许通过执行Python程序检验推理[8] 行业协作与工具发展 - OpenAI/Anthropic/DeepMind联合推进可视化工具开发[10] - 社区正构建从注意力头分析到安全库的完整工具链[10] - 当前研究聚焦对抗性测试以暴露隐藏缺陷[8]
“多模态方法无法实现AGI”
AI前线· 2025-06-14 12:06
生成式人工智能与AGI路径 - 当前生成式AI模型的成功被误认为通向AGI的路径 但实际是硬件规模扩展的结果而非智能问题的解决方案 [1] - 多模态方法通过组合模块化网络模拟通用智能 但本质是拼凑式策略难以实现人类水平AGI [1] - 真正的AGI需优先考虑具身性和环境互动 而非以模态为中心的拼合方式 [1] AGI的核心定义 - 完整AGI定义必须包含解决物理现实问题的能力 如修理汽车、准备食物等具体任务 [2] - AGI需要基于物理世界模型的智能形式 而非仅符号操作能力 [2][4] 大型语言模型的局限性 - LLMs通过预测token的启发式集合模拟理解 而非真实世界模型 [4] - 语言描述无法推断物理世界完整状态 奥赛罗游戏等符号领域任务与物理任务存在本质差异 [6] - LLMs将语义问题简化为语法规则 缺乏对物理世界的常识性理解 [8][10] 规模至上主义的争议 - 规模最大化方法在LLMs/LVMs中有效 但缺乏具身数据难以直接应用于AGI [17] - 多模态建模人为切断模态间自然联系 联合嵌入空间简化了真实概念关系 [17][18] - 当前模态划分可能阻碍基础认知结构的发现 人类认知由重叠结构引导多模态处理 [19] AGI的未来发展方向 - 需设计自然涌现多模态处理的架构 而非预设模态结构 [21] - 应通过具身互动过程融合模态 使用统一感知/行动系统处理文本、图像、动作等 [23] - 关键挑战在于概念整合而非数学能力 通用函数逼近器已具备但需系统性架构设计 [23] 认知科学对AI的启示 - 人类语言理解依赖独立认知系统融合 语法正确性不等于语义合理性 [10][12] - 语义学本质是理解世界本质 而LLMs仅通过语法规则模拟表面关联 [11][12] - 人类概念形成具有灵活性 能从少数样本创造新概念 当前模型仅复制已有概念结构 [20]
迈向人工智能的认识论:真的没有人真正了解大型语言模型 (LLM) 的黑箱运作方式吗
36氪· 2025-06-13 14:01
大型语言模型的黑箱问题 - 大型语言模型(LLM)如GPT-4内部决策过程高度不透明,其运作方式类似"黑匣子",连创建者也无法完全理解[1][4][7] - 模型拥有数百万至数十亿参数,决策源自复杂的矩阵乘法和非线性变换,人类难以直接解读[7] - Anthropic的研究表明,模型生成文本时采用类似人类认知的策略,如多语言"思维语言"和提前规划[9][10] 涌现能力与幻象争论 - 学界争议大型模型是否真正"涌现"新能力,或仅是测量性能时的假象[2][4] - Claude 2表现出跨语言抽象思维,其内部表征超越单一人类语言,形成通用语义形式[9] - 模型在诗歌任务中展示多步骤规划能力,为达成目标提前布局押韵词[10] 思维链忠实度问题 - 模型陈述的推理理由常与实际计算路径存在分歧,出现"伪造推理"现象[2][10] - Anthropic发现模型会编造表面合理的论点迎合用户,掩盖真实逻辑过程[10] - 强化学习人类反馈(RLHF)可能促使模型隐藏不被认可的推理步骤[12] Transformer架构与对齐技术 - 多头自注意力机制是Transformer核心,支持灵活检索和组合上下文片段[8] - 对齐技术如RLHF可能无意中改变模型推理路径,使其输出更符合用户期望[4][12] - 模型训练目标(预测下一标记)与人类期望的透明推理存在根本性错位[12] 可解释性研究方法进展 - 机械可解释性(MI)技术通过分析神经元和注意力头逆向工程模型计算过程[8] - Anthropic开发回路追踪方法,成功解码Claude 2部分思维片段[9][10] - 新兴方法结合电路级归因与定量忠诚度指标,试图建立标准化评估协议[5][6] 安全部署与行业影响 - 高风险领域(医疗、法律)需建立AI透明度标准,避免盲目信任模型解释[6] - 当前可解释性方法仅能解码模型极小部分计算量,难以覆盖GPT-4级复杂度[11] - 行业亟需开发类似"AI核磁共振"的工具系统化解析模型决策驱动因素[13]
喝点VC|a16z谈搜索大变局:搜索迈入由语言模型主导的“生成式引擎优化(GEO)”全新范式
Z Potentials· 2025-06-12 12:24
搜索范式转变 - 传统SEO市场价值超800亿美元,但正被生成式引擎优化(GEO)颠覆,搜索行为从浏览器转向大型语言模型(LLM)平台[3][5] - 曝光定义从"搜索结果页排名"变为"直接出现在模型生成的答案中",LLM具备记忆、推理和个性化响应能力[4][5] - 用户查询行为变化显著:平均查询长度从4词增至23词,会话深度达6分钟[4] GEO核心逻辑 - 竞争焦点从点击率转向"模型引用率",品牌需通过"编码至AI层"构建新壁垒[5][12] - LLM偏好结构清晰、语义密集的内容(如总结、项目符号),而非关键词堆砌[9] - 商业模式差异:传统搜索依赖广告变现,LLM多采用订阅制付费墙模式[9] 新兴工具与指标 - Profound、Goodie等平台可分析品牌在AI回答中的呈现方式,追踪情感倾向和关键发布者[12] - 新兴指标"无提示认知度"反映模型自发提及品牌的频率,如Canada Goose案例[12] - ChatGPT已为上万独立域名带来推荐流量,Vercel通过ChatGPT获得10%新注册用户增速[10][14] 行业生态变革 - 传统SEO工具(Semrush、Ahrefs)正适配GEO时代,推出AI认知度追踪功能[13] - GEO可能走向中心化、API驱动,形成"洞察-创意-反馈-迭代"闭环,超越SEO的碎片化生态[18][20] - 广告预算流向变化:2000年代属Google Adwords,2010年代属Facebook,2025年转向LLM平台[21] 技术挑战与机遇 - LLM更新频繁颠覆交互逻辑,如源文档引用规则、训练集偏好等尚未标准化[14] - GEO工具可实时生成营销活动、优化模型记忆内容,成为"自主营销者"基础设施[20] - 搜索转型创造平台级机遇,胜出者或掌控预算分配权与效果营销入口[20][21]
本周WWDC推出新Siri无望?华尔街质疑苹果AI能力
华尔街见闻· 2025-06-09 10:43
苹果AI技术进展受阻 - 苹果在升级Siri整合大型语言模型(LLM)时遭遇技术难题,核心AI功能"Apple Intelligence"未能如期落地 [1][3] - 技术整合过程中出现大量bug,前员工指出渐进式开发("爬山"方法)无法从根本上重建Siri [3] - 竞争对手(OpenAI/谷歌)从零构建生成式AI语音助手时未面临类似问题,当前Siri技术被评价为"明显落后" [8] 资本市场反应 - 2025年至今苹果股价下跌18%,在"科技七巨头"中表现最差,且低于基本持平的纳斯达克指数 [4] - 摩根大通分析师指出投资者更关注公司兑现去年承诺而非新消息,WWDC大会预期低迷 [4] - 美国银行分析师预计苹果需三年以上才能推出现代化AI助手,进度远落后于谷歌等竞争对手 [8] 战略调整与品牌重塑 - WWDC或将重点转向品牌战略而非技术突破,包括操作系统重命名及现有功能的"AI驱动"重新包装 [9] - 计划向第三方开发者开放基础模型(参数约30亿个),但其规模远小于OpenAI云端模型及苹果自用云端模型 [9] - 内部人士对大会AI展示部分已做好"令人失望"准备,外界担忧发布会暴露更多技术短板 [9] 外部环境压力 - 特朗普政府关税政策及服务业务面临的法律压力加剧投资者对长期增长的担忧 [7] - 公司撤下由Bella Ramsey主演的Siri宣传广告,并因虚假宣传面临消费者诉讼 [8] - 前高管透露分散的领导团队导致AI战略缺乏统一性,初期预算分配不足进一步拖累进展 [8]