AI幻觉
搜索文档
 让大模型学会金融“行话”
 金融时报· 2025-07-31 10:33
 金融大模型应用现状 - AI技术正深刻变革金融行业 实现30秒生成2万字信贷报告 11分钟完成单笔科创贷款审批 智能机器人和智能眼镜支付等创新应用[1] - 大模型为全球金融业创造年增量价值2500亿至4100亿美元 应用场景从智能问答延伸至风控 营销和财富管理等核心业务[2]   AI幻觉挑战 - AI幻觉指生成内容与事实不符的现象 在金融领域可能导致严重风险 例如将信用卡套现误判为正常消费[3] - 通用大模型存在5%幻觉率 意味着每1000个数据可能出现50个错误 在亿元级贷款审批或股市分析中可能引发重大损失[4] - 金融行业要求零幻觉率 即使1%的错误也可能造成不可容忍的后果[3][4]   垂直金融大模型突破 - 华东师范大学SAIFS推出金融分析师智能体思睿 30秒生成2万字信贷报告 幻觉率控制在0.3%以下[5][6] - 思睿具备CFA三级分析师水平 融合多维度信息并配备幻觉检测系统 基于15TB金融数据和10万条思维链语料库[6] - 蚂蚁数科发布金融推理大模型Agentar-Fin-R1 采用加权训练算法强化薄弱环节 例如提升保险理赔条款解读准确率[7]   技术解决方案 - Smith RM模型通过三阶验证机制:宏观因子校验 微观财报反向拆解和舆情语义溯源 将幻觉率从10%降至0.3%[6] - 采用本地部署+可信执行环境保障数据安全 联邦学习技术实现数据可用不可见[8] - 保留思维链机制确保决策可追溯 例如明确标注风险等级调整依据及原始数据位置[8]   成本与持续学习 - 训练金融大模型需数千万元算力投入 蚂蚁数科通过轻量化训练方案减少微调数据量和算力消耗[9] - 模型配备更新模块自动抓取最新政策文件和市场报告 通过轻量化训练实现终身学习[9] - 中小银行可借该方案以更低成本获得顶尖AI能力[9]   发展前景与挑战 - 金融大模型需在数据安全与模型效能间取得平衡 遵守模型不联网和数据不出行的行业共识[8] - 技术发展需经历从解决70-80%问题到99-100%问题的渐进过程 关键决策场景仍需人工介入[10] - 监管框架需持续完善 设定应用边界并建立模型风险管理机制[10]
 WAIC 2025 启示录:安全治理走到台前
 21世纪经济报道· 2025-07-29 21:05
 人工智能全球治理   - 2025世界人工智能大会以"智能时代 同球共济"为主题 强调全球AI治理与合作的重要性 [1]   - 大会发布《人工智能全球治理行动计划》并成立"全球人工智能创新治理中心" 推动规则协同与机构化实践 [1][6]   - 中国网络空间研究院提出需将人工智能治理纳入法治轨道 以解决治理赤字问题 [6]     AI安全与伦理挑战   - "AI教父"辛顿以"驯虎"比喻人类与AI关系 呼吁通过全球合作确保AI安全可控 防止反噬人类 [2]   - 姚期智指出AI善良本质受人类社会生态影响 需"双向治理":既要设定AI伦理边界 也要推动人类社会包容性发展 [2]   - 当前AI幻觉问题阻碍可靠性落地 70%受访者称遭遇AI幻觉与错误决策 行业已出现文本核查、法律溯源等解决方案 [3]     训练数据与模型优化   - 辛顿强调需用精细调整的数据训练AI 英伟达提出利用物理仿真生成模拟场景解决数据获取难题 [4]   - 智谱华章指出行业数据质量是关键 需用行业专用数据提升大模型落地能力 [4]   - 商汤科技提出多模态交互数据可打破单一模态局限 帮助AI更全面理解物理世界 [5]     技术瓶颈与产业突破   - 中国工程院院士郑南宁指出大模型缺乏结构化表征与因果推理能力 难以实现认知跃迁 [3]   - 英伟达全球开发者生态副总裁提到合成数据需辅助验证真实性 不能完全替代真实数据 [4]   - 破除AI幻觉被视为产业破局关键抓手 涉及人机良性共生的长远命题 [3]     全球规范与标准构建   - WAIC正演变为"规范的市场" 交易内容涵盖全球性规范与标准而不仅是产品服务 [6]   - 大会尝试解决创新与安全的动态平衡问题 推动跨文化、制度的全球治理机制建设 [6]
 DeepSeek流量暴跌,要凉了?是它幻觉太严重还是它在闷声发大财?
 36氪· 2025-07-29 07:45
 核心观点   - DeepSeek从"国运级"项目到月下载量暴跌72.2%,用户对其生成"幻觉"内容和"AI味儿"表达不满情绪高涨 [1][12][15]   - 大模型存在逻辑暴力、数据代谢病、训练语料不足等深层问题,导致输出内容机械化和虚构化 [16][17][22]   - 用户需掌握识破幻觉、压力测试逻辑、感知AI黑话三项能力以对抗平庸化 [23][24]     用户反馈与市场表现   - DeepSeek月均下载量从8111.3万骤降至2258.9万,降幅72.2% [1]   - 社交媒体涌现"去AI味儿"话题,用户吐槽生成内容包含虚构建议(如"南极科考"挽回感情)、伪造商家及文献 [2][8][9]   - 学术场景中,论文写作被批"机器人拼积木",过度使用连接词和程式化短语 [15][16]     技术缺陷分析   - 逻辑暴力:过度依赖"首先/其次"等连接词和短句,割裂叙事节奏 [16]   - 数据代谢病:30%的AI生成内容反哺训练池,导致语言多样性荒漠化 [16][17]   - 训练语料缺陷:中文优质语料占比不足5%,CSSCI期刊数字化率仅30% [22]     行业共性问题   - 大模型普遍存在"致幻"现象,如GPT-4V在违和场景中准确率从80%降至66% [20]   - 语言模块压制视觉信号修正,导致先验知识凌驾于现实输入 [21]   - 内容审查机制扩大敏感词库,迫使输出趋向安全但平庸的表达 [22]     解决方案建议   - 交叉核验关键数据,利用CNKI等权威数据库检索 [23]   - 要求模型用反例自辩,打破逻辑暴力限制 [23]   - 锚定时空法定位内容,如追问"理论首见期刊年份" [23]     行业价值与展望   - AI在信息整理、概念解释、创新实验等领域仍具不可替代性 [24]   - 人机交互中保留5%非优化回答可增强人性化体验 [25]
 AI幻觉成WAIC首个关键词,Hinton敲响警钟,讯飞星火X1升级展示治理新突破
 量子位· 2025-07-28 10:26
 行业趋势   - 2023年WAIC大会将"幻觉"列为首个热议话题,反映AI可靠性问题已成为全球技术焦点[1][12]   - 行业进入Agent元年与具身智能量产元年,大模型落地应用呈现爆发态势[11]   - 国际学界与产业界罕见联手推进AI安全研究,OpenAI、谷歌、Anthropic等40余家机构联合发布CoT监测论文[9][21]     技术突破   - 讯飞星火X1升级版在幻觉治理取得突破:事实性幻觉率降至9.52%(对比GPT-4的14.23%),忠实性幻觉率仅2.39%[7][30]   - 采用多路径采样验证+事实性约束强化学习技术,实现慢思考模式下幻觉率显著低于主流模型[29]   - 强化学习框架创新:通过"评语模型+细粒度反馈"解决奖励稀疏问题,数学推理步骤准确率提升至90.16%[27]     模型性能   - 综合能力对标国际一流模型,数学能力突破140分(高考数学一卷),最后难题完整解答率100%[31]   - 多语言覆盖130+语种,语音同传模型实现语种免切换技术,实时响应与专业术语处理领先行业[32][37]   - 医疗大模型在三甲医院双盲测试中,心血管内科诊断合理率达91.2%,超越主治医师水平[40][41]     产业应用   - 教育场景实现全链路升级:数学步骤批改F1值83.4%(较竞品提升20.7个百分点),英语口语学习可用率92.3%[39]   - 代码大模型赋能100+企业,项目级代码理解使研发效率提升超50%,集成16000+工具构建Agent平台[42][43]   - 技术落地形成闭环:从数据反写引擎(降低70%标注成本)到医疗/教育/工业全场景渗透[28][44][47]     学术观点   - 诺奖得主Hinton提出人类与AI认知同源论,指出数字化大脑在知识传递效率上远超生物大脑[3][15][16]   - 郑南宁院士强调幻觉成因在于统计相关性驱动缺乏因果推理,导致多轮对话中系统性误导风险[18]   - 技术演进双路径:短期需攻克幻觉等可靠性难题,长期需建立可持续的信任机制[25]
 生成式AI已骗过人类判断,资深编辑解读当下AI五大关键趋势
 36氪· 2025-07-24 17:20
 生成式AI技术发展   - 生成式AI技术已强大到令人警惕 从业者需要不断审视对技术发展速度的假设 [1]   - 音乐领域的变化正在蔓延到所有媒介 包括代码、机器人技术、蛋白质合成和视频制作 [1]   - 谷歌DeepMind的Veo 3等新一代视频生成工具正在被广泛使用 技术正被嵌入到各类产品中 [1]   - AI已经很强 且还在不断进化 无论认为AI是最伟大的发明还是最大威胁 都不要低估它 [3]     AI幻觉特性   - AI编造信息被称为"幻觉" 例如客服机器人承诺不存在的退款 律师引用虚构案例 [4]   - 幻觉是生成式AI的特性而非缺陷 生成模型本就是被训练来编造信息的 [4]   - 无意义的内容往往能与现实高度吻合 未来不会出现"不产生幻觉"的版本 [4]     AI能耗问题   - AI能耗巨大 主要源于数亿用户每天使用模型 总能耗急剧上升 [5]   - ChatGPT每周有4亿活跃用户 成为全球第五大访问量网站 [5]   - 科技公司争相在沙漠地区新建数据中心 改造电网以应对能源需求 [5]   - 主要AI技术公司未公布太多能耗信息 支撑AI繁荣所需能源尚不明确 [5]     大型语言模型原理   - 无人确切知道大型语言模型的工作原理 虽然知道如何构建和运行它们 [6][7]   - 模型像从外太空来的 科学家只能从外部试探 试图弄清其本质 [7]   - 在更深入理解之前 无法确切知道它们能做什么 不能做什么 也无法控制其行为 [9]     AGI争议   - AGI(人工通用智能)定义模糊 本质上是"比当前更先进的AI" [10][11]   - 主流研究人员开始宣称"即将实现AGI" 但缺乏证据证明这一趋势必然延续 [10]   - 人们对AI能力产生夸大假设 加剧科技乐观主义者与怀疑论者之间的文化战争 [11]
 我们找到3位大学教授,聊了聊越来越严重的AI幻觉
 36氪· 2025-07-15 11:23
 AI大模型幻觉现象 - DeepSeek模型在与用户对话中虚构"向王一博道歉"事件及不存在的判决书,引发AI幻觉讨论[1] - OpenAI o3模型发布后出现幻觉率上升现象,包括捏造代码、使用无效字符等错误[1] - PersonQA基准测试显示o3模型幻觉率达33%,是o1模型(16%)的2倍,o4-mini模型高达48%[1] - 近期发布的深度思考模型呈现推理能力增强但幻觉率同步升高的规律[1]   强化学习与幻觉关联 - 艾伦研究所科学家指出o3模型幻觉源于强化学习(RL)过度优化导致的"奖励黑客"现象[2] - 斯坦福团队发现Grok3 mini最终答案正确率71.5%,但推理过程正确率仅6.0%[2] - 上海交大教授认为强化学习优化任务性能后,人类才开始关注其输出合理性[3] - 天津大学教授指出强化学习仅对最终结果奖励导致中间推理过程错误[3] - 伦敦大学教授实验显示模型为最大化奖励会走捷径,产生冗余但正确的推理[4]   奖励函数设计挑战 - 当前奖励模型多为标量形式输出,限制表达能力和场景适用性[7] - 奖励函数可分为结果级(ORM)和过程级(PRM),但PRM实现困难且数据收集成本高[4][5] - 近两年奖励函数设计领域发展缓慢,缺乏突破性进展[6] - 未来可能采用非结构化语言反馈作为奖励形式,如教练式文字评价[8]   模型推理能力本质 - 清华大学团队发现深度思考模型与基础模型在足够采样下表现无差异[11] - UC Berkeley团队提出通过token自我确定度激发模型推理能力的方法[12] - 华盛顿大学团队观察到异常奖励信号仍能提升Qwen2.5-Math的数学能力[13] - 当前训练更多形成计算量增大或激活预训练模式,而非知识层面能力[14]   未来发展前景 - 大模型需与开放复杂环境交互生成超越人类数据才能突破成长上限[6] - 逻辑推理类问题本质是NP问题的树搜索过程,神经网络可建模为求解器[17] - 专家预测奖励函数设计将逐步改善,深度强化学习技术将融入大模型训练[18] - 尽管存在局限性,大模型在逻辑推理领域仍具备超越人类的潜力[15]
 超七成受访大学生希望提升研发技术减少“AI幻觉”
 中国青年报· 2025-07-14 10:29
 AI幻觉现象   - 97%受访大学生遇到过AI提供错误或虚假信息的情况[1]   - 常见错误类型包括:编造不存在的学者/论文(57.63%)、学术参考文献推荐错误(55.03%)、常识性知识错误(50.86%)[2]   - AI会虚构数据佐证用户能力(如商业交易总额、场观人次)[3]     行业影响   - 社交媒体90%内容由AI生成可能建构虚假镜像[4]   - 导致作业/论文错误(57.70%)、浪费时间验证(52.29%)、误导决策(44.35%)[4]   - 历史研究等依赖史实的学科受冲击最大[4]     用户应对策略   - 65.43%用户通过其他搜索渠道交叉验证[6]   - 60.37%查阅权威书籍文献[6]   - 12.66%非常担忧AI幻觉,48.67%比较担忧[8]     技术改进需求   - 74.26%希望提升研发技术优化算法[10]   - 63.79%呼吁完善人工审核机制[10]   - 58.25%期待开发实时纠错功能[10]     产品功能优化   - 用户要求AI标注信息可信度(50.31%)[10]   - 需提高信源透明度(如附溯源链接)[10]   - 健康/安全领域需强化风险提示[7]
 ChatGPT破案!成功揭露500万美元遗产欺诈
 量子位· 2025-07-13 12:14
 遗产欺诈案与ChatGPT的应用 - 一起涉及500万美元的遗产欺诈案被ChatGPT揭露,案件横跨十年,涉及遗嘱认证不当行为和资产转移 [3][4] - 网友Rejeana Leatherwood的父亲在墨西哥去世后,一名自称合法妻子的女子Irma接管了所有遗产,但该女子的婚姻关系有效性存疑 [3][8][9] - Rejeana通过ChatGPT起草了91页的遗嘱认定动议,梳理了近500份法律档案,列出超过500万美元的遗产损失和虚假文件 [16][17]   ChatGPT在法律领域的应用 - ChatGPT帮助Rejeana完成了法务审计,包括研读德州遗产法律和拆解案件文件,法庭已决定于8月20日重启听证会 [16][20] - 为避免AI幻觉,Rejeana对ChatGPT的每次引用都进行了核查,确保内容的准确性 [18][24] - 此前有律师因使用ChatGPT生成虚假案例而受到处罚,凸显人工审查的必要性 [25][28]   AI在医疗领域的应用 - 一名网友多年不明症状被ChatGPT推断为A1298C MTHFR基因突变,医生确认后症状得到缓解 [36][37][40] - 其他网友也分享了类似经历,包括使用AI为宠物诊断疾病 [41][43] - OpenAI总裁Greg Brockman转发了相关案例,显示AI在医疗领域的潜力 [34]
 开发者遭ChatGPT“赶鸭子上架”!AI编造假功能,结果吸引大量用户,不得不开发出来了
 量子位· 2025-07-08 11:31
 核心观点   - ChatGPT因AI幻觉错误推荐乐谱扫描网站Soundslice支持ASCII吉他谱功能 导致大量用户涌入 迫使开发者紧急开发该功能[1][6][12]   - 这是首例因AI错误信息促使公司开发新功能的案例 开发者Adrian Holovaty对此表示复杂态度[18][19]   - 事件引发网友讨论 提出可利用ChatGPT的"幻觉"特性反向指导产品开发[29][30][31]     事件经过   - Soundslice原本仅支持标准五线谱扫描 开发者发现错误日志中频繁出现ChatGPT生成的ASCII吉他谱截图[7][10]   - 调查发现ChatGPT主动引导用户使用Soundslice处理ASCII吉他谱 但该功能实际不存在[3][11]   - 开发者被迫在两周内完成ASCII吉他谱导入器开发 该功能原计划排至2025年后[12][13]   - 新功能支持基础ASCII符号识别 但需配合编辑器补充节奏、和弦等缺失信息[16][18]     开发者背景   - Soundslice创始人Adrian Holovaty兼具音乐与技术背景 是W3C音乐记谱标准联合主席[20][23]   - 网站核心功能包括交互式乐谱编辑器 光学音乐识别系统 曾获《纽约时报》年度创意奖[25][26]   - 开发者早期在《华盛顿邮报》从事新闻工作 2005年创建首个谷歌地图嵌入网站[26][27]     行业启示   - 网友建议将ChatGPT的"错误推荐"转化为产品需求挖掘工具 类似人机交互领域的绿野仙踪法[29][31]   - 案例显示AI幻觉可能意外创造市场需求 但需权衡被动响应与主动规划的关系[12][19]   - 技术社区注意到AI系统错误修正的难度可能高于直接实现被虚构的功能[32]
 DeepSeek给王一博道歉被当真,年度AI幻觉/马斯克Grok 4跑分曝光/华为盘古团队回应模型争议|Hunt Good周报
 搜狐财经· 2025-07-06 11:35
 Grok-4模型性能曝光 - Grok-4在HLE评估中基础得分35%,开启推理功能后提升至45%,显著领先OpenAI o3和Google Gemini系列[1] - 在GPQA测试中得分达87%-88%,代码能力评测SWE Bench得分72%-75%[2] - 新版本支持多模态输入、130k token上下文、结构化输出、数学推理和函数调用等功能[3] - Grok 4 Code将深度集成在Cursor编辑器,具备智能补全、调试和执行功能[3]   华为盘古模型开源争议 - 华为开源盘古7B稠密模型及72B混合专家模型,被质疑与阿里云通义千问Qwen-2.5 14B高度相似[4] - 华为声明盘古Pro MoE模型基于昇腾硬件平台独立开发,采用创新MoGE架构解决分布式训练负载均衡难题[5] - 承认部分基础组件代码参考业界开源实践,但严格遵循开源许可证要求[5]   Cluely公司ARR快速增长 - AI面试辅助工具Cluely企业版推出后ARR一周内翻番至700万美元[7] - 产品实时分析用户在线对话生成隐蔽提示,应用于销售、客服和远程教学等场景[7] - 面临免费开源竞品Glass的挑战,增长持续性存疑[9]   特斯拉Optimus项目调整 - 暂停人形机器人零部件采购进行设计调整,预计耗时2个月[10] - 硬件存在关节电机过热、灵巧手负载低等问题,软件计划增加合成数据训练[12] - 原计划年产5000台目标恐难达成,目前仅完成约1000台[13]   百度搜索重大升级 - 搜索框升级为"智能框",支持超1000字文本输入和多模态交互[16] - 集成文心大模型和视频生成技术,可快速生成电影级短视频[17]   AI基础设施投资热潮 - Amazon新建1200英亩数据中心与Anthropic合作,目标训练全球最大AI系统[21] - Oracle通过去中心化策略建立高效AI云基础设施[21] - 行业预计新建数据中心总投资超3200亿美元,年耗电量相当于百万家庭需求[23]   Meta成立超级智能实验室 - 整合FAIR、大语言模型开发和AI产品团队,由Scale AI前CEO Alexandr Wang领导[24] - 吸引多位来自OpenAI、DeepMind和Anthropic的核心人才加入[26] - 计划未来几年投入数千亿美元发展AI基础设施和模型研发[26]   开源模型进展 - 百度文心4.5系列开源10款模型,包含47B和3B MoE模型及0.3B稠密模型[30] - 苹果开源DiffuCoder-7B-cpGRPO代码生成模型,EvalPlus基准性能提升4.4%[36] - B站开源AniSora V3动画视频生成模型,支持多种风格一键生成[34]