Workflow
模型幻觉
icon
搜索文档
检索增强生成(RAG)的版权新关注
腾讯研究院· 2025-08-14 16:33
朱开鑫 腾讯研究院法律研究中心主任 金佳玥 腾讯研究院助理研究员 一、AIGC 迎来2.0阶段:检索增强生成 2025年5月与7月,亚马逊先后与《纽约时报》以及赫斯特、康泰纳仕等传媒集团达成合作,使得旗下AI产品可以实时展示《纽约时报》的摘要和片段等。 1 亚马逊与《纽约时报》的合作令业界颇感意外。因为《纽约时报》此前对于AI版权问题一直持强硬态 度, 2023年12月便以侵犯 版权为由将OpenAI诉至美国 纽约南区法院,也成为了全美第一家公开起诉大模型厂商的主流媒体。 2 值得关注,OpenAI也在2025年4月宣布与《华盛顿邮报》的合作。ChatGPT的输出内容由此能够嵌入《华盛顿邮报》的文章摘要和原始报道链接。 OpenAI表 示,这只是其与20多家出版商合作中的一个缩影——因为他们有着共同的承诺,即让用户获得更加可靠、真实的信息,特别是在高复杂性和时效性的话题 上。 3 OpenAI官网显示的合作版权方 域外大模型厂商与新闻出版机构的合作,折射出生成式人工智能领域的一个显著演进趋势: 即从此前"AIGC1.0阶段"单纯依靠"模型训练"(预训练、微调 等)获得的参数能力, 随机生成用户问题答案; 转向 ...
GPT-5 之后,我们离 AGI 更近了,还是更远了?
AI科技大本营· 2025-08-08 13:58
GPT-5发布背景 - GPT-4发布于2023年3月15日 引发行业震动 但仅是AI技术爆发的序章[1][2][3] - GPT-5于2025年8月8日发布 距离GPT-4发布间隔939天 行业期待值极高但实际反响复杂[4] - 发布会基调从"聊天"转向"做事" 强调实用主义 定位为"随需应变的博士级专家团队"[6] 技术架构创新 - 采用统一智能系统架构 包含快速模型(gpt-5-main)和深度推理模型(gpt-5-thinking) 通过实时路由器动态调度[7] - 提供三种API模型规格(常规/迷你/纳米)和四种推理级别(最小/低/中/高) 输入限制272k token 输出限制128k token[7][9] - 淘汰旧有"模型动物园"模式 建立统一协同的智能有机体[9] 性能表现 - 基准测试成绩突出:AIME 2025数学测试94.6% SWE-Bench编程测试74.9% MMMU多模态理解84.2%[16] - 发布会现场出现数据可视化错误 69.1%柱状图比52.8%更短 引发质疑[13] - 马斯克宣称Grok 4在ARC-AGI-2测试中击败GPT-5[15] 核心能力聚焦 - 专注三大核心场景:编程/写作/健康咨询 其他多模态功能(音频/图像)暂不整合[19][28] - 编程能力显著提升 可完成生产级代码修改 在复杂项目中表现优于Gemini 2.5 Pro和Claude 4 Opus[21] - 写作能力存在争议 不及情感特化的GPT-4.5 但Sam Altman宣称已有显著改进[24][25][27] 商业策略 - API定价极具侵略性:每百万输入Token仅1.25美元 较GPT-4o降价50%[21] - 对比此前失败的GPT-4.5(原价180美元/百万输出)形成强烈反差[22] - 采取以利润换市场策略 意图快速建立开发者生态[21] 技术挑战 - 模型幻觉问题持续改进 通过"安全完成"训练方法和诚实应答机制降低错误率[28][30] - 提示注入攻击防御能力达56.8% 但仍有较大改进空间[32][34] - 行业观点认为Transformer架构可能已达瓶颈 需要新的架构突破实现AGI[36] 行业影响 - 标志AI发展进入"工业时代" 从探索期转向专业化应用阶段[37] - 对开发者形成利好 提供更可靠的生产力工具[38] - 普通用户DAU持续增长 但专业用户评价分化[4][35]
gpt5
小熊跑的快· 2025-08-08 06:41
GPT-5核心升级 - 新一代AI系统在智力层面实现重大飞跃,在编码、数学、写作、健康、视觉感知等领域达到最先进性能 [1] - 采用统一系统架构,能动态调整响应速度与思考深度以提供专家级答案 [1] - 模型架构未出现代际突破,验证ASIC硬件路径正确性,利好推理成本下降 [1] 技术架构创新 - 引入三级模型体系:基础智能模型处理常规问题,GPT-5思维模块解决复杂问题,实时路由器动态分配任务 [2] - 路由器通过用户切换行为、响应偏好等真实信号持续优化,未来计划整合为单一模型 [2] - 达到使用限制后自动切换至GPT-5 mini模型维持服务 [2] 核心能力提升 编码性能 - 复杂前端生成与大型代码库调试能力显著提升,单提示即可生成响应式网站/应用/游戏 [3] - 设计审美优化,对排版、间距等视觉元素理解更精准 [3] 健康应用 - HealthBench评估得分显著超越前代,在真实医疗场景中表现更可靠 [4] - 新增主动风险提示功能,能根据用户背景知识提供个性化健康建议 [4] - 强调AI作为医疗辅助工具定位,不替代专业医疗人员 [4] 多模态与事实性 - 视觉/视频/空间推理能力全面提升,图表解析准确率大幅提高 [11] - 启用网络搜索时,事实错误率较GPT-4o降低45%,思考模式下比OpenAI o3降低80% [11] - LongFact和FActScore基准测试显示"GPT-5思维"幻觉率下降6倍 [11] 响应诚实度 - 对无法完成任务的情境识别准确率从o3的86.7%提升至91% [13] - 在真实对话场景中欺骗率从4.8%降至2.1% [13] 商业化部署 - 即时向Plus/Pro/Team/Free用户开放,企业/教育版一周内上线 [14] - Pro用户可无限制访问GPT-5 Pro版本,团队用户可设为默认工作模型 [14] - 免费用户达到限额后自动降级至GPT-5 mini模型 [14]
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 18:47
多模态推理模型的核心问题 - 推理能力增强会导致视觉注意力下降,产生更多幻觉,表现为过度依赖语言常识而忽略视觉证据 [3][5][14] - 推理链长度与幻觉率呈正相关,模型在长推理时对图像token关注度暴跌,转向指令词 [19][21][23] - 70亿参数模型比30亿参数模型表现更好,RH-AUC分数更高(0.63 vs 0.53),显示规模效应缓解幻觉 [34][39] 训练方法对比 - 纯强化学习(RL-only)模型比监督微调+强化学习(SFT+RL)模型RH-AUC更高(如Ocean-R1-7B 0.63 vs OpenVLThinker 0.54),因后者易陷入机械模仿 [34][35][40] - SFT+RL训练导致僵化推理路径,例如将"系鞋带动作"误判为"已完成",而RL-only模型更关注实时视觉细节 [11][35] - 数据质量优于数量,分阶段投喂专精数据(如Ocean-R1)比混合数据(R1-OneVision)效果更佳 [40][42] 评估体系创新 - RH-Bench基准包含1000道题(500推理+500感知),涵盖数学、视觉判断等任务,经人工审核确保严谨性 [30][32] - RH-AUC指标动态评估推理长度与准确率关系,通过曲线下面积量化平衡能力,解决传统静态指标局限 [24][31][33] - 任务类型决定最佳推理长度:数学题需400-600Token,视觉题需100-300Token,显示灵活策略必要性 [28][31] 注意力机制缺陷 - 推理模型视觉注意力热力图显示"散光"现象,关注区域分散且偏向指令词,而非推理模型则聚焦关键物体 [18][21] - 过度推理时图像token关注度下降50%以上,语言先验依赖度显著上升,导致视觉误判 [21][22][23] - 两种典型幻觉模式:视觉误识别型(漏看细节)和推理偏倚型(语言常识覆盖视觉证据) [13][14] 未来技术方向 - 需验证结论在LLaVA、Flamingo等架构的泛化性,当前实验仅基于Qwen2.5-VL backbone [43] - 潜在状态控制等动态长度调节技术可优化推理-感知平衡,但需结合任务类型定制策略 [24][27] - 训练数据因果性实验待开展,现有结论为观察性分析,未控制变量 [43][44]
AI Agent:模型迭代方向?
2025-05-06 10:28
纪要涉及的行业和公司 - **行业**:AI行业 - **公司**:微软、OpenAI、Anthropic、Deepseek、Kimi、Meta 纪要提到的核心观点和论据 AI商业化进展 - **观点**:AI商业化进展整体慢于预期,ToB端更慢,ToC端OpenAI产品仍以chatbot为主 [1][3] - **论据**:微软Copilot未达2023年3月披露时预期效果,OpenAI产品未进入agent阶段 大模型迭代趋势 - **观点**:过去三年全球大模型能力通过前训练和后训练提升,近三个季度后训练成主要迭代方式,推理模型能力显著提高 [2] - **论据**:思维链数据使agent执行复杂任务时可利用过程数据提升推理能力,大模型厂商迭代模型,无迭代能力公司用工程化方式完善产品 agent面临的问题及解决方法 - **观点**:agent执行复杂任务准确率受大模型能力限制,可通过工程化方法和后训练技术提高准确率 [1][5][9] - **论据**:工程化方法如将任务拆分由多个Agent执行;后训练技术如思维链技术可提高模型推理能力 各公司在agent研究方面进展 - **观点**:Anthropic在agent产品化和模型能力方面比OpenAI更具优势 [1][6] - **论据**:Anthropic技术积累更超前,ComputeUse系统运行时间早于OpenAI相应产品至少一个季度 大型科技公司推动大模型发展方式 - **观点**:大型科技公司通过技术研发和工程化手段推动大模型发展 [1][7] - **论据**:Deepseek、OpenAI和Anthropic专注技术研发,其他公司采用工程化手段完善产品 Chatbot和Agent对模型幻觉容忍度差异 - **观点**:Chatbot对模型幻觉容忍度高,Agent需每步操作准确无误,提升执行准确率是当前模型重要问题 [1][8] - **论据**:Chatbot一问一答,个别回答错误不影响后续;Agent执行多步任务,每步正确率90%最终任务也可能失败 DeepSeek发展情况 - **观点**:DeepSeek在2024年推出系列新型多模态模型,提升整体性能与应用范围 [4][12] - **论据**:发布GPT系列多个版本,Prover系列不同版本陆续推出 Prover V2相关情况 - **观点**:Prover V2为解决agent产品化问题提供新思路,性能有显著提升 [1][5][20] - **论据**:核心作者公开信息并提供论文;参数量达6,711亿,采用混合专家模型等改进使其能解决更复杂任务 推理能力提升挑战与方法 - **观点**:推理能力提升依赖算法设计,各公司缺乏统一路径,Deepseek通过两阶段训练提升下一代模型推理能力 [30][32] - **论据**:成功设计奖励函数和强化学习算法可提高推理效果;第一阶段用专家模型迭代,第二阶段优化数据集和架构 Agent AI商业化与算力需求 - **观点**:Agent AI商业化需全面分析,算力需求对Agent发展有重要影响 [37][38] - **论据**:市场可能低估关键算力需求,识别后将推动Agent发展,大厂改造推荐引擎已显示算力提升重要性 其他重要但可能被忽略的内容 - **Kimi情况**:Kimi发布72B预训练版本,能力较强,产品质量优于初期,团队技术实力较强 [24] - **测试集特点**:Putnam Benchmark测试集侧重分解解决问题能力;Deepseek Prover Bench不仅测试数学问题,还对比非形式化与形式化推理,在Deepseek V3版本展示非正式推理优势 [25][26] - **Lean四版本作用**:Lean四版本作为Deepseek Prover V2形式化证明标准,确保验证过程严谨准确 [27] - **DeepSigmaMath模型应用**:V1和V1.5版本参数量约7B,采用监督学习,转向强化学习和树搜索增强探索能力;V2版本参数量提升至7,000亿,采用混合专家模型架构,提高Prover能力 [28] - **基座模型挑战**:数据集和架构优化无市场共识,增加参数量是否为未来迭代主要方式存在分歧 [31] - **DeepSeek模型迭代路径**:从2024年2月DeepSeek模型开始,经Prover 1.0、V1.5、DeepSeek V3等版本,最终蒸馏出7B参数小型高性价比模型,未来可能演化出R2或V4 [34][35]