Workflow
AI幻觉
icon
搜索文档
全网炸锅,Anthropic CEO放话:大模型幻觉比人少,Claude 4携编码、AGI新标准杀入战场
36氪· 2025-05-23 16:15
一夜之间,AI圈被彻底引爆! Anthropic CEO达里奥·阿莫迪(Dario Amodei)在公司首届开发者大会上语出惊人:他认为,如今大模型的幻觉,可能 比人类还要少!这番颠覆性的言论,瞬间将关于AI幻觉的争论推向了高潮。 与此同时,Anthropic的重磅产品Claude 4系列:包括Claude Opus 4和Claude Sonnet 4,也正式登场,在编码、高级推理 和AI智能体方面树立了全新标准。这不仅是Anthropic的里程碑,更可能预示着AGI(通用人工智能)的加速到来。 幻觉是走向AGI的"绊脚石"还是"垫脚石"? "幻觉"这个词,一直是大模型领域绕不开的话题。大模型"一本正经地胡说八道",曾让无数使用者头疼,也让许多AI 领袖视其为通向AGI的障碍。谷歌DeepMind首席执行官戴比斯·哈萨比斯(Demis Hassabis)就曾直言,目前AI模型有 太多"漏洞",连显而易见的问题都会答错。此前,Anthropic自身也曾因Claude在法庭文件中"幻觉"出错误的引文而被 迫道歉。 这种自信并非空穴来风。Anthropic此次发布的Claude Opus 4和Claude Sonn ...
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
虎嗅· 2025-05-23 13:32
人工智能技术发展现状 - 通用人工智能(AGI)概念已从五年前需要解释发展为当前社会广泛关注的热点话题 [5][6] - 顶尖科学家如杰弗里·辛顿教授多次公开强调AI可能带来的社会风险 [8] - 当前AI技术存在幻觉、偏见等核心问题,但距离毁灭社会仍较远 [10][11] 对抗样本技术问题 - 自动驾驶系统可能因路牌上微小扰动(如胶带)而错误识别交通标志 [12][15] - 图像识别系统在添加人类难以察觉的扰动后会产生完全错误的识别结果(如将汽车识别为Hello Kitty) [18][20][22] - 大语言模型在输入细微改动时会产生完全不同的翻译结果,甚至可能被诱导输出危险内容 [31] AI偏见问题根源 - 训练数据不平衡导致模型偏见,如Google Photo将黑人误标为"大猩猩"、亚马逊招聘系统歧视女性简历 [40][45] - 大模型存在过度自信现象,ResNet模型60%情况下会给出100%确信的判断 [61][63] - 数据中隐含的社会结构信息(如职业性别分布)会被模型放大 [85][86] 算法局限性 - 主流AI算法学习的是相关性而非因果性,导致模型在未知问题上产生幻觉 [93][94][99] - 强化学习可通过设计奖励机制缓解幻觉问题,如在狼人杀游戏中使AI行为更合理 [113][116][117] - 不同研究团队使用相同数据可能得出完全相反的结论,显示算法选择的主观性 [131][132] 价值对齐挑战 - 目标函数设计缺陷可能导致AI采取极端行为(如为不饿孩子而伤害宠物) [126] - 超级智能时代可能出现"超级对齐问题",即低智能体难以控制高智能体 [129] - 国际学术界已成立专门机构研究AI安全,多位图灵奖得主联合推动安全倡议 [134][137]
国内60%AI应用背后的搜索公司,怎么看AI幻觉问题?|AI幻觉捕手
21世纪经济报道· 2025-05-23 08:08
AI幻觉问题与搜索环节 - AI幻觉问题部分源于搜索环节的信息失真,包括自媒体二手资料和AI生成内容被反复引用[1] - 博查作为国内60%以上AI应用的搜索服务商,3月日均调用量突破3000万次,达到微软必应的三分之一[1] - AI幻觉只能尽可能减少但很难彻底消除,主要因为信息来源本身存在不实信息[3] - 公司采用"模型+人工"双重过滤机制,包括对抗性模型体系和人工辟谣介入[4] - 搜索结果排序采用谷歌EEAT标准(专业性、经验、权威性、可信度)进行加权评分[5] AI搜索技术架构 - 核心评估指标是"语义相关性",基于自然语言匹配而非关键词匹配[6] - 网页内容质量评分分为四个区间(1-10分),分数越高回答越完整[6] - 技术架构支持百亿级数据实时检索,实现毫秒级响应[13] - 服务器规模达1万-2万台,月基础成本至少数千万元[13] - 索引库规模目标明年达到谷歌一半(5000亿条)[15] 行业竞争格局 - 博查定位为国产替代方案,相比必应具有数据安全合规和价格优势[12] - 传统搜索引擎转向AI搜索需重构向量索引系统,面临商业模式转型挑战[13] - 公司不采用GEO(生成引擎优化)技术,避免低质量内容涌入[9] - 探索全新内容合作机制,奖励高质量内容而非购买排名[9] 市场需求与发展前景 - AI搜索需求预计达人类搜索量的5-10倍,因AI会拆解问题多次调用[14] - 搜索能力将成为AI应用基础模块,类似地图和支付[14] - 国内AI生态仍在快速演化,未来2-3年形态存在较大不确定性[10] - 主要技术挑战来自基础设施的"三架马车":算法、算力、数据[15] 内容质量控制 - 重点拦截"投毒型"AI生成内容,通过风格识别和细节交叉验证[10] - 数据处理流程最快需半小时,存在技术性延时[11] - 多路召回机制下,AI厂商优先展示自家生态内容[7] - 不引入竞价排名机制,保持技术架构纯净[8]
北京科博会:从AI窥见“未来”
中国新闻网· 2025-05-10 22:02
AI技术应用展示 - 中科尚易展示数字中医循经调理机器人,利用AI视觉系统快速精准定位经络穴位,结合仿生双臂柔性"智能手"提供个性化调理体验 [1] - 北京朝阳环境集团展示AI智能焚烧技术系统,通过智能算法预判与动态调整实现垃圾焚烧精准控制,提升运行稳定性和减排效率 [2] - 驭势科技高级副总裁提到自动驾驶领域通过算力提升、算法改进与数据积累,推动AI在物流、接驳、配送等行业的深度应用 [2] AI平台与服务 - 安永展示EY METIS人工智能平台及智能问答机器人,融合上万篇权威报告构建审计、咨询等领域的全景知识矩阵,首月服务数千名专业用户 [3] AI技术发展趋势 - AI技术从技术工具向业务导向转变,在企业落地过程中面临内容真假难辨等"AI幻觉"问题 [2] - 行业期待在发展AI过程中秉持"科技向善、以人为本"理念,探索高风险领域应用以提升安全性与精细化水平 [3]
体验Kimi的新功能后,我为月之暗面捏把汗
虎嗅· 2025-04-30 21:56
DeepSeek R1 横空出世成了明日之星,腾讯元宝、豆包、夸克等也搭上了 DeepSeek 的便车吃香喝辣,还有誓要在技术上和 DeepSeek R1 的一较高下的阿 里通义千问捷报频频…… 唯独去年的投放王者,铺天盖地出现在各个广告位的Kimi,好像一下子没了消息。 而就在这几天,我们终于等到了 Kimi 的"大动作"。4 月 28 日,Kimi 宣布和财新传媒达成合作,当用户使用Kimi 提问财经相关内容时,Kimi "将结合财 新传媒旗下专业报道内容,通过模型生成答案,为你提供及时、可信、可证的高质量财经信息"。 好家伙,当我们以为 Kimi 已经摆烂躺平的时候,原来还是有在暗地里偷偷努力的。 选择和财新网合作发力财经垂直领域, Kimi 的确对 AI 工具的发展路线有了一些自己的新思考。 毕竟只比模型能力, Kimi 肯定不如能免费接入的 DeepSeek ,但与专业财经媒体强强联合,甚至日后拓展到和更多垂直领域的专业媒体合作提供信源, 能增强kimi 在特定垂直领域的公信力,长期来看大有可为。 不过在 Kimi 发布了合作消息后,我就第一时间测试了拥抱新功能的 Kimi。从测试结果来看,我有点想 ...
“AI幻觉”冲击合规防线,“大模型不金融”困局待解
第一财经· 2025-04-11 22:53
2025.04. 11 本文字数:1807,阅读时长大约3分钟 在法律层面,早在2023年8月,由网信办等七部门发布的《生成式人工智能服务管理暂行办法》(下 称《办法》)正式施行,《办法》明确要求生成式AI服务提供者需建立数据合规、算法透明、生成 内容管理等六大机制,随着《办法》的实施,中国AI产业的治理与规范化水平日益发展和成熟。 导读 : 金融领域因其数据密度高、专业性强,暴露出大模型垂直行业数据供给不足的问题。 作者 | 第一财经 齐琦 2025年是AI应用元年,金融行业正经历一场以"垂直化AI"为核心的深度变革。安永最新报告显示, 中国金融科技市场规模已突破4.59万亿美元,预计2030年将达9.97万亿美元,年复合增长率达 13.8%。 当前,包括银行、保险、基金等金融机构已完成多类通用大模型的本地化部署。行业人士对记者称, 大模型与专业知识库的结合是AI落地的未来趋势。 金融AI的知识基建:从通用到专属 具体看来,AI正逐步渗透金融领域,从风险管理到客户服务、从投资决策再到支付安全。 易方达投顾金融科技负责人刘玮对第一财经分析称,DeepSeek的出现令金融机构以更具成本效益的 方式运用AI技术, ...
除了不能当女婿,DeepSeek比董宇辉差到哪了?
36氪· 2025-03-11 21:48
核心观点 - DeepSeek正在成为年轻人新的消费决策工具,通过个性化推荐解构传统主播导购模式 [3][5][9] - 电商平台在AI导购领域布局滞后,未给予一级流量入口且功能体验不及DeepSeek [7][22][29] - 技术限制和商业顾虑导致主流电商平台集体缺席DeepSeek接入 [40][41][42] AI导购模式兴起 - DeepSeek累计下载量超1.1亿次,周活近9700万,部分用户已将其作为购物助手 [9] - 案例显示DeepSeek能根据年龄、肤质、预算等维度提供化妆品精准推荐,参考49个网页数据 [12][13][29] - 安慕希等品牌将"DeepSeek推荐"作为营销点,显示商业认可度 [10] 电商平台AI布局现状 - 淘宝问问接入通义千问但限制500字提问,京东言犀直接附商品链接,功能较初级 [29][31] - 1688商家版接入DeepSeek,静默下单比例达70%,但消费者端未开放 [33][34] - 抖音测试豆包大模型,计划开放短视频界面入口,但导购能力未达DeepSeek水平 [27][32] 技术竞争格局 - 阿里发布QwQ-Max-Preview模型,拼多多组建推荐大模型团队,字节测试深度思考版本 [44] - DeepSeek展示深度推理能力,如详细策划包含预算分配和风险应对,远超电商平台现有AI [37] - 电商平台顾虑数据敏感性、模型适配成本及现有商业生态平衡 [41][42] 行业影响 - 从搜索推荐、内容推荐到AI推荐,电商流量分发机制正经历第四次迁移 [10][22] - AI推荐可能削弱主播推荐价值,但当前存在AI幻觉问题,如误采营销号内容 [17][19] - 电商平台需解决隐私计算、审核机器人等技术路径才能有效接入大模型 [46]
除了不能当女婿,DeepSeek比董宇辉差到哪了?
商业洞察· 2025-03-09 16:04
核心观点 - DeepSeek的"AI导购"功能("D选")正在成为年轻人新的消费决策仪式,通过深度思考模式提供个性化推荐,解构传统主播推荐体系 [4][8][15] - 电商平台虽已布局AI导购(如淘宝问问、京东京言),但技术能力和入口优先级不足,未形成主流消费习惯 [6][18][25] - DeepSeek截至2月累计下载量超1.1亿次,周活近9700万,部分品牌已将其推荐作为营销点 [8][9] - 电商平台集体缺席DeepSeek接入,主要顾虑数据敏感性、技术适配成本和现有商业生态平衡 [32][33] 行业动态 AI导购竞争格局 - 淘宝问问接入通义千问,但限制500字提问且仅参考6篇文章,推荐深度不足 [25][27] - 京东京言直接附商品链接,缺乏深度分析 [27] - 抖音AI搜索基于豆包大模型,入口位于个人中心,功能类似竞品 [21] - 1688商家版接入DeepSeek-R1,但面向B端非消费者,静默下单率达70% [28][29] 技术能力对比 - DeepSeek单个问题可参考49个网页,提供成分分析、使用建议等深度推理 [11][25] - 电商平台AI普遍存在入口隐蔽(需主动搜索)、结果简化问题 [18][25] - DeepSeek展示出跨品类推荐能力(化妆品、3C、服饰等),用户认可其客观性 [13][14][15] 用户行为变迁 - 年轻用户通过DeepSeek获取定制化方案(如27岁敏感肌护理),替代主播推荐 [11][15] - 用户认为AI推荐能规避软广干扰,但需自行判断"AI幻觉"问题 [16] - 对比主播选品,AI推荐缺乏价格优势,需跳转平台完成交易 [16] 平台战略矛盾 - 电商平台需重构技术栈(如NLP引擎、视觉识别)以接入外部模型,ROI存疑 [32] - 大模型推荐可能冲击现有搜索广告和推荐流量变现体系 [33] - 阿里、字节侧重办公场景,淘天/抖音等核心业务暂未接入DeepSeek [31] 未来发展方向 - 阿里测试QwQ-Max-Preview模型,字节研发豆包深度思考版本 [34] - 拼多多组建推荐大模型团队,聚焦比价/广告等商业化场景 [34] - 隐私计算框架可能成为技术突破口,实现数据安全下的需求预测 [35]