Workflow
幻觉
icon
搜索文档
「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
机器之心· 2025-07-28 18:45
AI术语命名与概念发展 - AI大牛Andrej Karpathy首次提出“幻觉”(hallucinations)一词,用于描述神经网络生成无意义内容的现象 [1][3] - Karpathy在2015年博客中已使用“幻觉”概念,但直到2022年ChatGPT爆发后才成为研究热点 [3][6] - Karpathy被公认为AI圈“取名大师”,提出“软件2.0”“软件3.0”“氛围编程”“细菌式编程”等概念 [6][9][11] 软件范式演进 - **软件1.0**:传统编程模式,开发者需精确编写Python/C++等显式指令代码 [12][14] - **软件2.0**:神经网络时代,代码由权重参数构成,通过数据训练而非人工编写 [13][15] - **软件3.0**:提示词时代,用户用自然语言描述需求,LLM直接生成代码 [16][17] - 软件3.0特点包括:LLM作为计算平台(类比电网基础设施)、自主滑块调节AI控制程度 [19][20] 新型编程范式 - **氛围编程**:开发者仅需向LLM提出需求并全盘接受输出,无需直接编写代码 [22][23][24] - **细菌式编程**:强调代码模块化与可移植性,类似细菌基因的水平转移特性 [35][36] - 细菌式编程检验标准:代码需满足小巧、自包含、无依赖,便于开源社区复用 [35][36] 上下文工程崛起 - 上下文工程因Karpathy转发点评迅速出圈,相关帖子浏览量达220万 [42][43] - 与提示工程区别:上下文工程更注重结构化信息提供,而非单纯优化提示词 [44] - LangChain指出提示工程是上下文工程的子集,后者适用于复杂智能体构建 [43][44] 行业趋势观察 - Karpathy预测未来99.9%内容将由AI处理,文档需转向“为AI优化”格式(如Markdown) [45] - 命名在科研中具有知识奠基作用,精确术语是科学分类的“稳定靶标” [7][9]
我们为何做梦?从神经科学到精神世界的奇妙之旅
虎嗅· 2025-07-08 11:12
根据提供的文档内容,该文章主要探讨了梦境的科学机制和神经生物学基础,并未涉及公司或行业相关内容。因此,按照任务要求,无法提取与公司、行业相关的关键要点。以下是文章的核心学术观点总结: 梦境神经机制 - REM睡眠阶段大脑活动与清醒状态相似,枕叶负责视觉体验,边缘系统处理情绪记忆[6][9] - 前额叶活动抑制导致梦境逻辑混乱,脑桥触发感官体验同时抑制运动神经[9] - 默认模式网络(DMN)在REM期高度活跃,促进信息重组过程[11][13] 睡眠周期特征 - 睡眠周期90分钟循环4-5次/夜,REM时长逐轮递增(10-30分钟)[4][9] - 早晨REM期最长,梦境更清晰连贯[9] - NREM前三阶段与REM第四阶段构成完整周期[6] 记忆情绪处理 - 梦境整合白天记忆碎片并重组创新场景[10][11] - REM期优先处理情绪记忆,放大再现焦虑等情感体验[11][12] - 潜在调节情绪功能帮助应对现实压力[11][13] 病理学关联 - REM脑电模式与精神分裂幻觉存在相似性[14] - 多巴胺系统过度激活可能是共同神经基础[14] - 清醒梦训练或成幻觉治疗新思路[16] (注:根据任务要求,已排除所有非行业相关内容,包括风险提示、免责声明等。由于原文纯属神经科学领域研究,未提及任何商业实体或市场数据,故无法按常规行业分析模板输出)
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
量子位· 2025-07-03 12:26
长链推理中的幻觉现象研究 - 核心观点:随着推理链从3步延伸到50+步,幻觉率暴增10倍,反思节点不仅无法纠错,反而会强化错误[1][2] - 核心机制:模型为保持语义一致性,宁可篡改协议定义也不否定前提,导致错误沿推理链滚雪球式放大[2][3][13] 实验设计与发现 - 实验方法:基于RFC协议文档构建受控知识域,包含1515道限定问题,其中30%预埋三重错误事实[7][9][11] - 关键发现: - 55.9%的预埋错误会触发内部知识编造流程[20] - 反思操作中模型使用更多模糊词汇(如"perhaps"出现37.14次/样本)和犹豫表达(如"but wait"出现27.85次/样本)[17] - 错误知识在Type II场景的采纳率达25.93%,且重复强化次数达2.06次/关键主张[17][18] 干预实验与检测瓶颈 - 正向干预实验显示: - Edit1(错误发生前干预)对下游影响最大,修正传播率达40%[26][27] - Edit2(直接替换错误节点)接受度65%,但幻觉残留率仍达70%[26][28] - 检测技术局限: - 最优检测方法耗时2小时/样本,准确率仅79%[27] - 分钟级检测方法准确率≤61.6%,78.9%高精度方案需高算力支持[30] - 现有技术无法识别元认知漂移现象(如反思中错误强化)[30] 数据表现对比 - 控制组与幻觉组差异: - 控制组幻觉主张仅0.68%(0.25条/样本),Type II组达18.14%(7.01条/样本)[17] - 错误主张深度:控制组11.53步,Type I组达38.10步[17] - 知识采纳行为: - 内部错误采纳率在Type I组达45.55%,且伴随41.65%的虚假修正[17] - 外部错误在Type II组的拒绝率仅45.13%,显著低于理想水平[17]
独家洞察 | RAG如何提升人工智能准确性
慧甚FactSet· 2025-06-10 13:12
生成式人工智能在金融服务业的应用 - 数据准确性是金融服务公司使用生成式人工智能和大语言模型的最关键要求之一 不准确、低质量或脱节的数据会影响公司战略、运营、风险管理和合规 [1] - 文章探讨AI数据不准确的主要原因以及检索增强生成在缓解这一问题中的作用 [3] 数据不准确的主要原因 - 幻觉是导致数据不准确的主要原因之一 表现为模型生成看似可信但实际错误、误导或虚构的文本 这是由于大语言模型基于训练数据预测文本而非事实核查 [4] - 数据录入和验证错误:手动录入财务数据和质量检查不足可能导致转录错误、数据不完整、格式错误或丢失 [5] - 信息过时:缺乏定期管理会导致数据劣化 进而产生不准确分析和误导决策 [5] - 集成问题:旧系统与新技术衔接不畅造成信息不匹配或丢失 [5] - 数据标准不一致:不同部门采用不同治理标准或格式 导致信息难以整合或比较 [5] 检索增强生成(RAG)的重要性 - RAG是提高生成式人工智能准确性、减少幻觉的关键技术 通过为提示语添加上下文将生成回答与真实数据结合 [6] - RAG结合大语言模型的生成能力与有效数据检索系统 例如可提供上市公司具体投资风险并链接来源如10-Q报告 [6] - RAG可同时处理非结构化和结构化数据 统一呈现信息 连接旧系统和数据孤岛作为知识源 无需耗时迁移或重新训练模型 [7] RAG的益处 - 无需重新训练或优化调整大语言模型 [8] - 基于专有数据的回答更准确 幻觉更少 [8] - 提供回答内容来源 更具可审核性 [8] - 可集成最新知识和用户权限管理 [8] 金融业前沿应用 - 从证券到资产管理领域均有案例 [8]