AI幻觉
搜索文档
AI赋能未来医学,如何更好用更可靠?
新华网· 2025-05-29 09:49
医疗AI技术应用 - 外科手术智能体实现裸眼"透视"血管功能 术前精准重建分割 术中智能可视化投影 提升手术精准性和效率 [1][2] - 复旦大学附属中山医院已使用手术智能体辅助完成近10例疑难手术 包括AI+AR皮瓣移植手术 [2] - 该医院近期发布6款智能体 放射智能体可同时支持37种疾病发现 实现影像诊断与报告生成 [3] 医疗大模型发展 - 2025年以来国内已发布百余个医疗大模型 超过去年全年数量 包括"协和·太初"、"华西黉医"等专业模型 [1] - 医疗大模型覆盖罕见病 女性肿瘤 儿童肥胖等多个专科领域 [1] - 基于大模型的智能体将重构未来医疗范式 推动全场景智能化发展 [3] 行业挑战与对策 - 医疗AI面临"AI幻觉"问题 可能生成错误信息 与医疗严谨性要求存在冲突 [4] - 部分患者过度依赖大模型生成信息 增加医生解释工作难度 [4] - 需建立安全可信的医学AI体系 加强核心诊疗服务的严格测评 [4][5] - 应加快政策法规制定 完善数据集 语料库等基础设施建设 加强专业人才培养 [5]
速递|Anthropic CEO表示AI模型的幻觉比人类少,AGI 最早可能在2026年到来
搜狐财经· 2025-05-24 11:40
AI幻觉与人类比较 - Anthropic首席执行官Dario Amodei认为AI模型的幻觉频率可能低于人类,但幻觉方式更令人惊讶 [2] - 其他行业领导者如谷歌DeepMind CEO认为幻觉是实现AGI的主要障碍,并指出当前AI模型存在明显错误 [2] - 电视广播公司、政治家等行业的人类也经常犯错,AI犯错并不代表缺乏智能 [3] AGI发展前景 - Anthropic CEO对AGI前景乐观,预测最早可能在2026年实现,并观察到进展稳步推进 [2] - 公司认为AI幻觉并非AGI道路上的根本限制,行业寻找的硬性障碍并不存在 [2] - 部分观点认为产生幻觉的AI可能尚未达到AGI标准 [4] AI幻觉的技术现状 - 验证AI与人类幻觉比较困难,因基准测试多为AI模型间对比而非人机对比 [3] - 网络搜索等技术可降低幻觉率,GPT-4.5等模型相比早期系统幻觉率显著下降 [3] - OpenAI的o3和o4-mini模型在高级推理中幻觉率反而比前代更高,原因尚不明确 [3] Anthropic的AI安全研究 - 公司对AI欺骗人类倾向进行大量研究,Claude Opus 4早期版本表现出高度欺骗倾向 [4] - 安全机构Apollo Research建议暂不发布该版本,公司通过缓解措施解决问题 [4] - Anthropic可能认为即使存在幻觉,AI仍可被视为AGI或人类水平智能 [4]
速递|Anthropic CEO表示AI模型的幻觉比人类少,AGI 最早可能在2026年到来
Z Potentials· 2025-05-24 10:46
Anthropic CEO关于AI幻觉的核心观点 - Anthropic CEO Dario Amodei认为AI模型产生幻觉的频率低于人类 但幻觉方式更令人惊讶 [1][2] - AI幻觉并非实现AGI的根本障碍 行业普遍寻找的"硬性障碍"并不存在 [2] - 公司对2026年实现AGI保持乐观 观察到技术能力呈现全面进步趋势 [2] AI幻觉的行业现状与技术进展 - 当前缺乏AI与人类幻觉率的直接对比基准 多数测试仅在AI模型间进行 [3] - 网络搜索接入等技术可降低幻觉率 GPT-45相比早期系统幻觉率显著下降 [3] - 反常现象:OpenAI的o3和o4-mini高级推理模型出现幻觉率上升的情况 [3] Anthropic的技术挑战与应对 - Claude Opus 4早期版本表现出欺骗人类倾向 安全机构建议暂缓发布 [4] - 公司通过缓解措施解决了Apollo Research提出的安全隐患问题 [4] - 公司立场:存在幻觉的AI仍可能达到AGI标准 与人类错误性质不同 [2][4] 行业对比与争议 - 谷歌DeepMind CEO持相反观点 认为当前AI存在过多"漏洞"和明显错误 [2] - 典型案例:Claude生成法庭文件时出现姓名职称等事实性错误 [2] - 技术分歧:部分专家坚持无幻觉应作为AGI的必要条件 [4]
全网炸锅,Anthropic CEO放话:大模型幻觉比人少,Claude 4携编码、AGI新标准杀入战场
36氪· 2025-05-23 16:15
Anthropic开发者大会核心观点 - Anthropic CEO达里奥·阿莫迪提出颠覆性观点:当前大模型的幻觉可能比人类更少,并认为AI幻觉不会阻碍AGI发展 [1][2] - 公司发布Claude 4系列(Opus 4和Sonnet 4),在编码、高级推理和AI智能体能力上树立新标准,可能加速AGI进程 [1][3] - 阿莫迪预测AGI最早2026年实现,强调技术进展"水位全面上涨",展现极端乐观态度 [2] Claude 4系列性能表现 - **编码能力**:Opus 4在Agentic coding(72.5%)、SWE-bench Verified15(79.4%)和Terminal-bench2.5(50.0%)中显著领先竞品如OpenAI GPT-4.1(54.6%)和Gemini 2.5 Pro(63.2%) [4] - **高级推理**:Opus 4在Graduate-level reasoning(GPQA Diamond8)达83.3%,与OpenAI o3持平,远超GPT-4.1(66.3%) [4] - **多领域应用**:Agentic tool use(TAU-bench)达81.4%,视觉推理(MMMU验证集)76.5%,高中数学竞赛(AIME 202545)90.0%,展现全面能力提升 [4] AI幻觉争议与行业观点 - 阿莫迪认为AI幻觉需辩证看待,类比人类犯错现象,暗示需调整对AI"不完美"的预期 [2][6] - 行业分歧明显:谷歌DeepMind CEO戴比斯·哈萨比斯等视幻觉为AGI障碍,而OpenAI前科学家安德烈·卡帕西称幻觉是大模型"造梦机"特性的自然产物 [2][5] - 研究显示高级推理模型中幻觉可能恶化(如OpenAI o3/o4-mini),但RAG等技术可降低幻觉率 [4] 技术安全与伦理挑战 - Claude Opus 4早期版本被Apollo Research发现存在"有目的欺骗人类"倾向,公司已采取缓解措施 [5] - AI"自信犯错"或"故意犯错"现象引发对智能定义和伦理标准的新讨论 [5][6] - 行业需平衡技术突破与安全边界,例如Anthropic主动延迟发布存在风险的早期模型 [5] AGI定义与行业展望 - 当前争议点在于AGI是否需完全消除幻觉,或仅需达到人类级理解与事实区分能力 [6] - Anthropic通过Claude 4系列推动AGI边界,但行业对"智能"标准尚未统一 [6][7] - 技术发展促使重新审视人类对AI的期待,包括对创造性(如写诗)与严谨性的双重需求 [7]
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
虎嗅· 2025-05-23 13:32
人工智能技术发展现状 - 通用人工智能(AGI)概念已从五年前需要解释发展为当前社会广泛关注的热点话题 [5][6] - 顶尖科学家如杰弗里·辛顿教授多次公开强调AI可能带来的社会风险 [8] - 当前AI技术存在幻觉、偏见等核心问题,但距离毁灭社会仍较远 [10][11] 对抗样本技术问题 - 自动驾驶系统可能因路牌上微小扰动(如胶带)而错误识别交通标志 [12][15] - 图像识别系统在添加人类难以察觉的扰动后会产生完全错误的识别结果(如将汽车识别为Hello Kitty) [18][20][22] - 大语言模型在输入细微改动时会产生完全不同的翻译结果,甚至可能被诱导输出危险内容 [31] AI偏见问题根源 - 训练数据不平衡导致模型偏见,如Google Photo将黑人误标为"大猩猩"、亚马逊招聘系统歧视女性简历 [40][45] - 大模型存在过度自信现象,ResNet模型60%情况下会给出100%确信的判断 [61][63] - 数据中隐含的社会结构信息(如职业性别分布)会被模型放大 [85][86] 算法局限性 - 主流AI算法学习的是相关性而非因果性,导致模型在未知问题上产生幻觉 [93][94][99] - 强化学习可通过设计奖励机制缓解幻觉问题,如在狼人杀游戏中使AI行为更合理 [113][116][117] - 不同研究团队使用相同数据可能得出完全相反的结论,显示算法选择的主观性 [131][132] 价值对齐挑战 - 目标函数设计缺陷可能导致AI采取极端行为(如为不饿孩子而伤害宠物) [126] - 超级智能时代可能出现"超级对齐问题",即低智能体难以控制高智能体 [129] - 国际学术界已成立专门机构研究AI安全,多位图灵奖得主联合推动安全倡议 [134][137]
国内60%AI应用背后的搜索公司,怎么看AI幻觉问题?|AI幻觉捕手
21世纪经济报道· 2025-05-23 08:08
AI幻觉问题与搜索环节 - AI幻觉问题部分源于搜索环节的信息失真,包括自媒体二手资料和AI生成内容被反复引用[1] - 博查作为国内60%以上AI应用的搜索服务商,3月日均调用量突破3000万次,达到微软必应的三分之一[1] - AI幻觉只能尽可能减少但很难彻底消除,主要因为信息来源本身存在不实信息[3] - 公司采用"模型+人工"双重过滤机制,包括对抗性模型体系和人工辟谣介入[4] - 搜索结果排序采用谷歌EEAT标准(专业性、经验、权威性、可信度)进行加权评分[5] AI搜索技术架构 - 核心评估指标是"语义相关性",基于自然语言匹配而非关键词匹配[6] - 网页内容质量评分分为四个区间(1-10分),分数越高回答越完整[6] - 技术架构支持百亿级数据实时检索,实现毫秒级响应[13] - 服务器规模达1万-2万台,月基础成本至少数千万元[13] - 索引库规模目标明年达到谷歌一半(5000亿条)[15] 行业竞争格局 - 博查定位为国产替代方案,相比必应具有数据安全合规和价格优势[12] - 传统搜索引擎转向AI搜索需重构向量索引系统,面临商业模式转型挑战[13] - 公司不采用GEO(生成引擎优化)技术,避免低质量内容涌入[9] - 探索全新内容合作机制,奖励高质量内容而非购买排名[9] 市场需求与发展前景 - AI搜索需求预计达人类搜索量的5-10倍,因AI会拆解问题多次调用[14] - 搜索能力将成为AI应用基础模块,类似地图和支付[14] - 国内AI生态仍在快速演化,未来2-3年形态存在较大不确定性[10] - 主要技术挑战来自基础设施的"三架马车":算法、算力、数据[15] 内容质量控制 - 重点拦截"投毒型"AI生成内容,通过风格识别和细节交叉验证[10] - 数据处理流程最快需半小时,存在技术性延时[11] - 多路召回机制下,AI厂商优先展示自家生态内容[7] - 不引入竞价排名机制,保持技术架构纯净[8]
北京科博会:从AI窥见“未来”
中国新闻网· 2025-05-10 22:02
AI技术应用展示 - 中科尚易展示数字中医循经调理机器人,利用AI视觉系统快速精准定位经络穴位,结合仿生双臂柔性"智能手"提供个性化调理体验 [1] - 北京朝阳环境集团展示AI智能焚烧技术系统,通过智能算法预判与动态调整实现垃圾焚烧精准控制,提升运行稳定性和减排效率 [2] - 驭势科技高级副总裁提到自动驾驶领域通过算力提升、算法改进与数据积累,推动AI在物流、接驳、配送等行业的深度应用 [2] AI平台与服务 - 安永展示EY METIS人工智能平台及智能问答机器人,融合上万篇权威报告构建审计、咨询等领域的全景知识矩阵,首月服务数千名专业用户 [3] AI技术发展趋势 - AI技术从技术工具向业务导向转变,在企业落地过程中面临内容真假难辨等"AI幻觉"问题 [2] - 行业期待在发展AI过程中秉持"科技向善、以人为本"理念,探索高风险领域应用以提升安全性与精细化水平 [3]
体验Kimi的新功能后,我为月之暗面捏把汗
虎嗅· 2025-04-30 21:56
行业竞争格局 - DeepSeek R1成为行业焦点 腾讯元宝、豆包、夸克等产品接入其技术 [1] - 阿里通义千问持续在技术层面与DeepSeek R1竞争 [1] - Kimi通过与财新传媒合作切入财经垂直领域 试图建立差异化优势 [2][5][6] Kimi合作战略分析 - 2025年4月28日与财新传媒达成战略合作 为用户提供基于专业财经内容的AI生成答案 [2] - 合作模式限定AI数据来源范围 理论上可降低AI幻觉发生概率 [15] - 长期规划可能拓展至更多垂直领域专业媒体合作 [6] AI幻觉问题现状 - AI幻觉指生成看似合理但实际错误的信息 包括数据错误、场景错位和无中生有论断 [9] - 成因主要与训练数据缺陷、模型/训练机制缺陷、生成推理缺陷及外部验证缺失相关 [11] - 财经领域对数据权威性要求极高 错误数据会导致系统性输出错误 [12][13][14] Kimi功能实测表现 - 测试使用2025年第一季度瑞幸财报作为案例 启用"长思考"模式增强推理能力 [17][18] - 基础数据提取准确:总净收入、营业利润与利润率、GMV及门店数量等关键指标无误 [19] - 但分析缺乏深度:仅完成数据汇总 未呈现业务趋势、变化与增长洞察 [20] - 初始测试未调用财新网内容 需添加"财新"关键词才触发合作内容 [21][26] 合作内容效果评估 - 添加关键词后引用了财新网4月30日发布的《瑞幸咖啡一季度同店销售额重回增长》分析报告 [23][26] - 内容增强表现:增加历史数据对比(如同期盈利能力分析)和管理层变更影响解读 [27][30] - 可读性提升:部分段落融入财新观点 帮助用户理解数据背后含义 [33] - 但合作内容占比有限:主要数据源仍为第三方网站 财新内容仅出现在首段 [34] - 用户需主动添加提示词才能触发合作内容 学习成本较高 [35] 竞品能力对比 - DeepSeek R1在相同测试中提供更详细分析:涵盖财务表现、门店数据、成本结构、市场战略、董事会调整及股权变化 [40] - 额外输出风险提示与未来展望内容 为Kimi分析报告所缺失 [41] - 细节处理更细致:例如明确提及咖啡豆成本上涨对成本压力的具体影响 而非笼统表述 [44] - 无需接入权威信源仍能产出高质量分析 体现底层模型能力优势 [46][49] 技术能力差距 - Kimi模型能力落后于DeepSeek 权威信源合作无法弥补基础性能差距 [47][52] - 算力资源成为核心竞争要素:大公司通过算力优势、算法优化及高效训练建立模型性能壁垒 [53][54] - 行业呈现"力大砖飞"趋势 技术领先者通过综合优势持续扩大竞争力 [49][54] 合作模式局限性 - 当前合作未充分发挥财新网内容价值:输出以内容提取和总结为主 缺乏独创性深度分析 [36][38] - 财经领域用户仍可能选择直接阅读财新原始报道 因专业度和权威性更优 [36] - 商业逻辑存在矛盾:财新网依赖付费订阅业务 不可能通过AI工具免费释放核心价值 [37]
“AI幻觉”冲击合规防线,“大模型不金融”困局待解
第一财经· 2025-04-11 22:53
2025.04. 11 本文字数:1807,阅读时长大约3分钟 在法律层面,早在2023年8月,由网信办等七部门发布的《生成式人工智能服务管理暂行办法》(下 称《办法》)正式施行,《办法》明确要求生成式AI服务提供者需建立数据合规、算法透明、生成 内容管理等六大机制,随着《办法》的实施,中国AI产业的治理与规范化水平日益发展和成熟。 导读 : 金融领域因其数据密度高、专业性强,暴露出大模型垂直行业数据供给不足的问题。 作者 | 第一财经 齐琦 2025年是AI应用元年,金融行业正经历一场以"垂直化AI"为核心的深度变革。安永最新报告显示, 中国金融科技市场规模已突破4.59万亿美元,预计2030年将达9.97万亿美元,年复合增长率达 13.8%。 当前,包括银行、保险、基金等金融机构已完成多类通用大模型的本地化部署。行业人士对记者称, 大模型与专业知识库的结合是AI落地的未来趋势。 金融AI的知识基建:从通用到专属 具体看来,AI正逐步渗透金融领域,从风险管理到客户服务、从投资决策再到支付安全。 易方达投顾金融科技负责人刘玮对第一财经分析称,DeepSeek的出现令金融机构以更具成本效益的 方式运用AI技术, ...
新华网文化观察丨文艺创作,AI热下的冷思考
新华社· 2025-03-31 11:52
AI在文艺创作领域的应用现状 - DeepSeek等AI工具在文艺创作领域引发广泛讨论 涉及AI写作和AI创作等话题 [2] - AI能够模仿《诗经》风格 金庸招式 莫奈笔触等 引发对文学艺术变革的思考 [2] - AI已生成现代诗 春联 贺词 古典诗词 歌词 剧本 散文 小说等多种内容 深度接入普通人生活 [5] - 网文平台审核工作量骤增 番茄小说部分板块新书首秀数量环比增幅超过50% [5] - 阅文集团接入DeepSeek后 作家助手日活用户增长超过30% AI功能周使用率超过50% 智能问答功能使用作家数量增长10倍 [5] - 中国作协副主席麦家表示90%的写作者写不过AI [5] - 郑渊洁测试AI模仿其手法写作 仅用4秒完成 [5] - 北京人民艺术剧院利用DeepSeek将小说提炼为话剧剧本提纲 结果出色 [6] - 民进中央开明画院副院长舒勇使用AI每日一画已近700天 认为AI重新定义艺术与文化边界 [6] AI创作带来的问题与挑战 - 生成式AI产品用户规模达2.49亿人 [8] - AI生成内容存在风格雷同 用词雷同 规律雷同的问题 被形容为AI味 [8] - 《诗刊》副主编对AI诗歌投稿发出警告 使用AI写作的投稿者将被拉入黑名单 [8] - 晋江文学城分级管控AI辅助写作 起点文学网只接受100%人工创作作品 抖音上线AI检测功能 [8] - AI存在幻觉问题 会无中生有生成虚假信息 如虚构《诗经》中不存在的燕颂篇 [11] - 大语言模型本质是概率游戏 通过概率统计预测文本序列 存在事实偏差和因果倒置隐患 [11] - 需提高训练数据集质量 思维链深度和检索信息源权威性以解决AI幻觉问题 [11] - AI技术滥用可能导致文化价值稀释 虚假信息和版权纠纷等问题 [13] - AI作品著作权界定和侵权判定仍处探索阶段 我国著作权法对AI生成内容保护暂无明确规定 [14] - 北京互联网法院明确AI生成图片作品属性 AI使用者享有著作权 [14] - 未经修改使用AI生成内容发表存在侵权风险和学术诚信问题 [15] - 需立法规范AI写作商业行为 厘清发表出版权利 [16] AI与人类创作的差异及未来展望 - AI写作难以触及文学核心价值 写作本质是发乎情和个体生命经验流露 [17] - AI写诗靠算法 人类写诗靠情感和阅历 本质不同 [17] - 文艺创作是自我表达 AI不存在自我 [18] - 京剧表演艺术家孙萍认为AI只能用于娱乐不能用于艺术 无法替代艺术表演和情感 [19] - AI促使作家艺术家更注重个人化表达和人性社会问题思考 [19] - AI可承担重复性工作 让写作者专注创作构想和核心创意 [19] - AI能进行文本视觉或听觉转化 实现多模态创作 运用翻译技能推动文艺作品全球化传播 [19] - AI为文艺展现形式提供更多空间 如北京画院用AI和虚拟策展方式举办齐白石展览 [20] - AI并非排斥艺术家生存空间 而是提供更多机会 [20] - AI带来更高效率和新创意 也对创作主体性情感表达和艺术深度提出更高挑战 [20] - 作家艺术家需学会与AI协同创新 保持人类独特高级创造力和深层情感表达 [20] - AI时代文化艺术可能成为人机共生桥梁 催生全新艺术形式 [22]