大模型幻觉

搜索文档
DeepSeek对“王一博案”道歉?假新闻!
虎嗅APP· 2025-07-03 23:02
核心观点 - 近期网络热议DeepSeek因AI模型违规关联王一博与李爱庆腐败案而道歉,但经核查发现DeepSeek官方并未发布任何道歉声明,大量媒体却一致报道不实消息 [3] - 该事件反映出AI大模型在引用网络信息时存在严重缺陷,即通过假新闻生成新的假新闻,比传统"幻觉问题"更严峻 [6] - AI大模型虽通过联网搜索和推理能力缓解了早期幻觉问题,但面对网络虚假信息时缺乏有效核查机制,导致"垃圾进垃圾出"效应 [6] AI行业现状与挑战 - AI大模型发展迅猛,早期幻觉问题有所改善,主要依赖联网搜索和推理能力生成回答 [6] - 当前AI无法有效辨别网络虚假信息,引用错误信息会导致错误输出,影响生成准确性 [6] - 在企业应用中,定制大模型需依赖专有知识库以避免生成错误答案,凸显通用模型在专业领域的局限性 [7] AI在新闻行业的应用局限 - 新闻从业者使用AI辅助写作时效率反而降低,因需额外时间核实AI生成信息的真实性 [7] - AI无法替代人类撰稿的核心原因在于其缺乏对网络信息真伪的独立判断能力,需人工二次验证 [7] - 行业普遍认为AI生成稿件的效率低于人工撰写,尤其在需要高准确性的场景中 [7] 事件折射的社会影响 - 人类生成假消息的行为会加剧AI输出错误信息,形成恶性循环 [8] - 该事件超出娱乐新闻范畴,揭示了AI技术在社会信息传播中的潜在风险 [6]
DeepSeek对“王一博案”道歉?假新闻!
虎嗅· 2025-07-03 22:51
虚假新闻事件 - 有媒体报道DeepSeek因AI模型违规关联王一博与"李爱庆腐败案"作出道歉,但经核查发现公司所有官方渠道均未发布任何道歉声明[1] - 全网大量媒体和自媒体在无确凿证据情况下集体报道了这条不实消息,形成广泛传播的假新闻[1] - 市面上所有AI大模型在被询问该事件时,均错误地确认DeepSeek已道歉并引用不实新闻链接[2] AI技术局限性 - 当前AI大模型虽然通过增加联网搜索和推理能力缓解了早期"幻觉问题",但仍无法有效辨别网络虚假信息[8] - 当网络信息本身存在大量虚假内容时,AI会产生"Rubbish in, Rubbish out"效应,输出错误结论[8] - 新闻从业者使用AI辅助写作时,反而可能降低工作效率,因为需要花费大量时间核实AI生成信息的真实性[8] 行业发展启示 - AI需要提升在真假难辨网络环境中辨别真伪的能力,才能提高生成准确率并投入实际生产工作[8] - 企业应用大模型时,重要步骤是提供专有知识库,以避免生成错误答案[8] - 人类自身制造假消息的行为会进一步加剧AI输出错误信息的风险[9]
紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 | ACL 2025
量子位· 2025-06-27 18:57
核心观点 - 中科院自动化所联合新加坡国立大学、东南大学等团队提出大模型幻觉的高效解决方案VHR,通过"视觉神经增强"机制直接放大模型中的视觉关键注意力头输出,显著降低模型的幻觉现象 [1][2] - 此前主流方法如对齐训练或输出层分布修正仅作用于模型最终输出阶段,未能深入干预其内部表征和生成机制,难以实现高效精准的幻觉抑制 [3] - 大型视觉语言模型(LVLMs)常因过度依赖语言先验知识而非图像真实内容导致事实性错误,这种幻觉是受内部语言建模偏好的系统性影响 [4][5] - 研究发现注意力机制内部的不平衡性是幻觉根本原因,少数注意力头对视觉信息敏感,大多数头更依赖语言规律 [7][8] - 提出视觉感知头散度(VHD)指标量化注意力头对视觉输入的响应强度,并开发视觉感知头增强(VHR)技术强化视觉敏感注意力头输出 [8][9] - VHR在多个基准测试中优于现有方法,几乎不增加额外时间开销 [8][16] 技术方法 VHD指标 - 提出VHD指标量化每个注意力头对视觉信息的敏感度,通过对比有无图像输入时注意力头输出的差异计算 [9] - 仅有少数注意力头表现出高VHD值,表明模型内部存在视觉感知与语言偏好头的显著分化 [9] - 进一步提出Token-VHD(T-VHD)指标评估生成每个词时模型对视觉信息的依赖程度,统计表明幻觉词通常对应较低的T-VHD值 [10][11] VHR技术 - VHR通过三个步骤动态强化视觉敏感的注意力头:异常VHD过滤、注意力头选择与强化、分层渐进式增强 [14][15] - 每层选择VHD得分前50%的注意力头,将其输出缩放α倍以增强视觉上下文的贡献 [15] - 采用逐层强化策略避免层间干扰,并在首步生成时确定每层的关键注意力头 [16] SSL方法 - SSL方法从语义引导角度出发,通过分析模型内部表征空间缓解LVLMs幻觉问题 [19] - 利用稀疏自编码器(SAE)识别"幻觉"和"真实"两种语义方向,在特定层进行针对性干预 [19] - 在视觉信息融合阶段注入真实语义方向增强视觉表示忠实性,在语言生成阶段抑制幻觉语义方向投影 [19] - SAE识别的语义方向在不同架构LVLMs中展现出良好跨模型迁移能力 [22] 实验结果 - 在MSCOCO数据集CHAIR评估中,VHR在InstructBLIP、LLaVA-1.5和LLaVA-NeXT模型上分别达到85.52、85.47和88.87分,优于其他基线方法 [17] - SSL方法在POPE数据集上取得显著F1分数提升,同时保持推理效率 [20] - VHR和SSL方法均保持高效性,几乎不增加额外时间开销 [16][20]
海致科技港股IPO:自称技术实力全球领先 研发费用及费用率连续下降且低于同行
新浪证券· 2025-06-20 15:39
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 出品:上市公司研究院 作者:IPO再融资组/郑权 2025年6月17日,北京海致科技集团股份有限公司(下称"海致科技")正式向港交所递交招股说明书,招银国 际、中银国际和申万宏源香港担任联席保荐人。 海致科技自称公司是中国首家通过知识图谱有效减少大模型幻觉的AI企业,但公司该类业务(AI智能体)的收 入占比不高,2024年占比17.2%。海致科技在招股书中多次使用各种"领先"、"领军""排名第一"等表述,但事实 上,公司主营业务的国内市占率仅1.11%,AI智能体业务市占率为2.8%。 公司还称"技术优势是成功的基石",但在以研发驱动的AI行业竞争中,海致科技2023年和2024年的研发费用连 续两年下降,研发费用率更是大幅滑坡,显著低于同行公司如明略科技、星环科技等。而同期,海致科技的营 收连续两年增长,这种背离是否说明公司的业绩受研发驱动的影响不大?这有待公司给出答案。 | | | | 截至12月31日止年度 | | | | | --- | --- | --- | --- | --- | --- | --- | | | 2022年 ...
DeepSeek R1幻觉率降低,用户喊话:想要R2
第一财经· 2025-05-29 23:13
DeepSeek-R1模型更新 - 公司发布R1模型更新,重点提升深度思考能力、减少幻觉并优化创意写作[2] - 新版模型在数学、编程与通用逻辑基准测评中表现国内领先,接近国际顶尖模型如o3与Gemini-2.5-Pro[9] - 幻觉率降低45%-50%,旧版模型幻觉率为21%,在SuperCLUE中文大模型测评中排名第五[9][10] 性能提升与优化 - 在AIME 2025数学测试中准确率从70%提升至87.5%[12] - 优化议论文、小说等文体输出,生成更长且结构更完整的内容[12] - 代码能力显著提升,在Live CodeBench中性能接近OpenAI的o3-high模型[12] 技术参数与开源 - 模型参数为685B,开源版本上下文长度128K,网页端/API支持64K[13] - 仍基于2024年12月发布的DeepSeek V3 Base模型,通过增加算力提升推理能力[12][13] - 开源权重采用MIT License,允许用户自由使用与二次训练[13] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,猜测公司可能因基准测试未超越o3而暂缓发布[13] - 行业关注基座模型竞争,公司未回应外界猜测,可能优先更新V4模型[13] - SuperCLUE测评显示推理模型平均幻觉率22.95%,非推理模型为13.52%[11]
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
第一财经· 2025-05-29 22:10
模型性能提升 - 更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得国内领先成绩,接近国际顶尖模型如o3与Gemini-2 5-Pro [4] - 新版模型在AIME 2025数学测试中准确率从旧版70%提升至87 5% [18] - 代码能力显著提升,在Live CodeBench平台性能媲美OpenAI的o3-high模型 [18] 幻觉问题优化 - 新版R1模型在改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%,此前旧版幻觉率为21% [4][18] - SuperCLUE测评显示推理模型平均幻觉率为22 95%,非推理模型为13 52% [18] 文本生成能力 - 针对议论文、小说、散文等文体优化,能输出篇幅更长、结构更完整的长篇作品,写作风格更贴近人类偏好 [18] - 深度思考能力与创意写作能力得到强化 [1] 技术细节与开源策略 - 新模型参数为685B,开源版本上下文长度128K(网页端/App/API提供64K),仍采用MIT License允许商用与二次训练 [19] - 基于DeepSeek V3 Base模型基座,后训练投入更多算力提升思维深度与推理能力 [18] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,X平台评论区出现"We want R2"呼声 [19] - 业界猜测R1更新可能延迟R2发布,或与基准测试未超越OpenAI o3有关 [19] - 海内外基座模型竞争持续,DeepSeek更新后行业关注下一家突破者 [19]
医疗影像大模型,还需“闯三关”
36氪· 2025-05-19 07:14
医疗大模型应用现状 - 医学影像大模型已在影像科医生工作全流程中实现常态化应用,从辅助工具进化为诊疗生态核心驱动力[1] - 数坤科技发布"数坤坤多模态医疗健康大模型",探索多模态精准诊断、个性化治疗决策等方向[1][2] - 透彻未来研发全球首个临床应用级病理大模型"透彻洞察",基于亿级参数和海量高精度病理数据训练[2] 技术突破与解决方案 - 病理大模型通过通用特征底座方案解决病灶分割、细胞检测等多任务泛化性挑战,简化传统数十个小模型部署流程[3] - 采用RAG技术动态更新知识库内容,结合生成式与判别式AI协同验证,降低医疗大模型幻觉风险[8][9] - 通过统一多模态架构整合影像/文本数据,采用医学思维链训练增强推理能力,实现分步验证[9] 模型泛化能力提升路径 - 数据维度:扩大样本多样性,模拟不同设备/体位/病变阶段特征,覆盖长尾病例[4][6] - 模型维度:增加参数量至亿级,改进训练策略如临床指标加权损失函数,防止过拟合[6] - 部署维度:建立三级医院与基层医院的多场景反馈闭环,明确AI能力边界并由医生把关[7] 医院部署模式演进 - 医疗一体机成为主流选择,集成硬件/软件/大模型满足数据本地化与合规性要求[10] - 纯图像大模型可适配家用GPU,通用大模型需本地数据微调,一体机实现专科与通用场景覆盖[10] - 公有云部署在远程会诊中展现弹性算力优势,但面临数据隐私合规风险[11] 未来发展趋势 - 性能层面:医疗大模型敏感度达100%基础上提升特异性,应用医院数量从三四千家扩展至超万家[12] - 多模态融合:打破影像/文本独立发展局面,整合多维数据提升诊断准确性与个性化治疗支持[12] - 全科化演变:大模型向数字化"全科医生"发展,综合检查检验/影像/病理等多维度诊疗信息[12][13]
巴菲特刚退休,他的 “替身” 就来帮大家炒股了?
搜狐财经· 2025-05-19 00:18
就在大家伙儿欢乐过五一的时候,94 岁高龄的 "劳模" 巴菲特突然宣布要退役了。 不过,虽然股神年龄大了要退役,他的灵魂可以一直在。 Github 上有个名叫 Virattt 的老兄,做出了一款各路股神的灵魂提取器 —— AI Hedge Fund。 反正不管是还在的,还是已经不在的,都能捞过来给咱打工。 在迫切的发财需求推动下,项目一经推出就收获了万星点赞。 AI Hedge Fund 目前一共提供 9 位明星投资人的策略,不仅有各位差友最熟悉的巴菲特,连他的老师 Graham 和 Fisher 都名列其中。 大家纷纷留言: "这个程序在A股能不能用啊?" "有没有人试过,到底表现咋样?" 和钱相关的事儿,光听别人说也不靠谱,还是得咱自己亲手来试试。 于是我们花了不少时间配置好 Linux 环境,试跑了程序进行测试。 赶在放假前,我们让程序根据 4 月 30 号之前的股票信息,预测一下 4 月 30 号到 5 月 5 号的交易策略,咱 6 号再回来验证它说的准不准。 所以测试保证真实,绝对不存在事后诸葛亮的问题。 一通操作下来,只能说,股神发力确实猛。这个假期如果按照 AI 预测做空苹果一百万,粗略点算,能 ...
整理:昨日今晨重要新闻汇总(5月18日)
快讯· 2025-05-18 08:17
金十数据整理:昨日今晨重要新闻汇总(5月18日) 国内新闻: 10. 以方称哈马斯愿意释放部分人员换取两个月停火。 1. 朱雀二号改进型遥二运载火箭发射成功。 2. 央视:歼-10CE首次实战大放异彩,引发全球军事爱好者的高度关注。 3. 5月19日至20日,深交所将在深圳举办2025全球投资者大会。 4. 天津:引导社会资本面向AI领域设立天使投资基金、创业投资基金。 5. 蚂蚁集团CTO何征宇: 大模型幻觉的源头是缺乏数据。 6. 3月中国减持189亿美元美债、持仓规模降至第三,英国升至第二。 7. 宁德时代:山东时代电池生产基地正式投产。 8. 广州房贷利率今起上调10BP,多家银行已执行。 1. 有关"普泽会",俄官方表示:有可能。 2. 特朗普:将于周一上午10点与普京通话。 3. 特朗普称若不能就乌克兰问题达成协议会对俄实施"破坏性"制裁。 4. 乌称苏梅州一公共汽车遭俄军袭击,致9死4伤。 5. 哈马斯与以色列举行新一轮加沙停火谈判。 6. 美国提议对非公民汇款征收5%的税。 7. 秘鲁中部发生6.0级地震,震源深度100千米。 8. 欧洲央行施纳贝尔:应在利率举措上保持谨慎。 国际新闻: 9. ...
李彦宏说 DeepSeek 幻觉高,是真的吗?
36氪· 2025-05-02 12:29
大模型幻觉问题现状 - DeepSeek-R1在苹果美区App免费下载排行榜上力压ChatGPT,成为国产开源大模型的代表,但其"胡说八道"的批评频发,用户反馈其生成内容真伪难辨[2] - 李彦宏在2025百度AI开发者大会上直接批评DeepSeek-R1存在"单一模态支持、高幻觉率、速度慢且成本高"三大痛点[2] - Vectara的HHEM评估显示DeepSeek-R1幻觉率高达14.3%,较前代V3的3.9%提升近4倍,阿里通义QwQ-32B-Preview幻觉率更高达16.1%[6] - OpenAI内部测试发现o3模型在PersonQA基准测试中幻觉率达33%,轻量版o4-mini更达48%,均显著高于前代o1的16%[8] - 谷歌Gemini 2.0的Flash-Thinking版本比标准版幻觉更突出,显示推理能力增强可能加剧幻觉问题[10] 行业技术挑战 - 推理模型采用多轮思考策略易产生偏差累积,导致多米诺骨牌式幻觉放大,例如DeepSeek-R1的长链式思考会逐步放大微小错误[16] - 当前主流解决方案RAG(检索增强生成)通过先检索权威资料再生成回答,百度2024年发布的iRAG技术已应用于文生图领域[20][22] - 腾讯混元模型T1采用"双重把关"策略,训练Critic批判模型筛选长思维链中的逻辑错误,但数据治理仍面临互联网语料复杂性挑战[23] - OpenAI承认模型规模扩大与推理能力增强后幻觉增多的机制尚未明确,需进一步研究[23] 幻觉的双面性 - 大模型幻觉分为事实性幻觉和忠实性幻觉,后者可能产生"外箱式创意",例如DeepSeek续写刘慈欣小说章节被评价优于原作[23][26] - 刘慈欣认为AI可能突破人类认知极限,OpenAI CEO奥特曼也指出幻觉在创作领域具有积极意义[26] - 行业需根据应用场景差异化接受幻觉程度,高风险领域需严格限制,创意领域则可利用其创新潜力[27] 厂商竞争格局 - 百度等大厂既依赖DeepSeek流量导入,又因自研深度推理模型难以突破用户心智而陷入竞争困境[2] - 阿里通义Qwen系列与DeepSeek-R1同属国产模型第一梯队,但QwQ-32B-Preview幻觉率更高达16.1%[6] - 谷歌Gemini、IBM Granite、Anthropic Claude等国际主流模型幻觉率普遍在14%-17%区间,显示该问题具行业普遍性[7]