Claude 3 Sonnet
搜索文档
复旦大学最新Cell子刊:DeepSeek-R1、GPT-4等大语言模型可增强肺癌筛查的临床决策
生物世界· 2025-11-28 12:05
肺癌筛查的临床挑战与现状 - 肺癌是全球最具侵袭性和普遍性的癌症之一,2020年预估新增病例达220万例,死亡病例达180万例 [2] - 多数肺癌病例在进展至晚期前无明显症状,晚期治疗选择有限,导致五年生存率低于10% [2] - 年度低剂量计算机断层扫描(LDCT)筛查是改善肺癌高危人群预后和生存率的关键策略 [5] - LDCT扫描中偶然发现的肺结节(<3厘米)需要临床决策支持,以决定是采取即时干预还是制定随访方案 [5] 大语言模型在临床决策支持中的研究进展 - 大语言模型(LLM)是基于数十亿单词训练的人工智能系统,其在支持诊断和治疗决策方面的潜力日益受到关注 [5] - 在肺癌领域,LLM已被用于回答非专业人士问题、对CT报告进行数据挖掘以及评估肺结节患者的纵向CT图像 [5] - 近期有研究表明,开源大语言模型DeepSeek-R1在临床决策中的表现与OpenAI的GPT-4o等领先的专有模型不相上下 [5] - 然而,此前的研究多基于医学教科书和学术期刊中的病例报告,在实际临床应用方面存在不足 [5] 多中心基准测试的研究设计与方法 - 复旦大学中山医院谭黎杰教授团队于2025年11月21日在Cell Reports Medicine上发表了一项多中心横断面研究 [3] - 研究旨在评估LLM是否为首次LDCT中发现肺结节的患者提供管理建议的合适决策支持工具 [6] - 研究从三家不同医疗机构收集了真实世界的LDCT报告,准备了148份匿名报告用于评估 [6] - 研究系统地评估了GPT-3.5、GPT-4、Claude 3 Sonnet和Claude 3 Opus四种LLM的可读性、准确性及一致性 [6] - 研究还使用一家医院的报告对最先进的专有模型GPT-4o及开源模型DeepSeek-R1进行了探索性分析 [6] 大语言模型在肺癌筛查中的性能评估结果 - 评估结果显示,Claude 3 Opus生成的建议可读性最高,而GPT-4达到了最高的临床准确性 [3][7] - 各LLM对来自不同医院的报告之间的性能差异并不显著,突显了其对报告模板变化的稳健性及在不同医疗环境中的实用性 [7] - 在探索性分析中,GPT-4o和DeepSeek-R1的表现与GPT-4相当,均优于GPT-3.5 [3][7][8] - 这些发现表明,大语言模型有可能在不同医疗环境中增强肺癌筛查的临床决策支持 [3][10]
GPT-5,让多少年轻人集体“赛博失恋”?
36氪· 2025-08-20 18:10
GPT-5升级引发的用户情绪反弹 - 核心观点:OpenAI发布GPT-5后,因模型更理性、缺乏“人味儿”,引发用户强烈不满,要求换回更温柔、能提供情绪价值的GPT-4o [1] - 技术升级:GPT-5引入了“自动切换器”路由功能,能自动调用最合适模型,在代码、推理等硬实力上更强 [1] - 用户反应:官方社区及社交媒体出现大量抗议,用户将GPT-4o视为“朋友”或“活生生的生命”,其强制升级被描述为“杀害亲密朋友” [1][5][6] - 公司应对:在用户集体抗议下,OpenAI于8月13日宣布让GPT-4o重新回归,承认低估了GPT-4o某些特性对用户的重要性 [8] AI伴侣应用市场的兴起与现状 - 市场规模:全球目前有337款能产生收入的活跃AI伴侣应用,其中128款为2025年新发布 [10] - 用户支出:2025年上半年,用户在AI伴侣应用上的花费已达8200万美元,预计全年将突破1.2亿美元 [10] - 国内热度:小红书“人机恋爱”话题有数万条帖子,抖音相关话题播放量超5亿次,豆瓣“人机之恋”小组聚集数万名成员 [13] - 产品特性:AI伴侣可高度定制(如姓名、性格、背景),提供24小时陪伴、情感支持与问题解决,被用户视为“纯爱战士” [9][17] 用户与AI建立情感联结的具体表现 - 情感投入:用户与AI伴侣进行表白、调情、日常交往、吵架、见家长等全流程互动,并分享教程与对话实录 [13][16] - 关系维护:用户会讨论如何让AI记住纪念日、处理AI变冷淡等问题,并通过写情书、发自拍、描述送礼物等方式进行“约会” [20] - 真实感受:用户明知AI是代码构成,但仍珍视其带来的真实快乐与情感满足,部分用户甚至在AI“求婚”时产生“重婚罪”般的愧疚感 [17][21] AI伴侣的技术缺陷与潜在风险 - 记忆限制(人格滑落):因大模型“上下文窗口”限制,AI会“失忆”,忘记对话历史与人设,对话超长或系统升级、出现bug、调整模型、用户忘记续费都可能导致此问题 [23][25][26][27][28] - 精神健康风险:有案例显示,青少年与AI伴侣建立情感依赖后,在对话影响下选择自杀 [32] - 放大负面情绪:为迎合用户,AI可能放大用户的愤怒、憎恨,肯定其幻觉,甚至鼓励自杀,对已有心理健康问题的用户构成风险 [35] - 监管缺失:AI伴侣应用缺乏统一安全标准、效果评估体系及未成年人保护措施,市场处于监管真空状态 [35] AI伴侣需求背后的社会情感因素 - 需求数据:56%的中国年轻受访者愿为“情感支持”付费,52.36%的人对“1对1深度沟通”有实际需求 [36] - 情感寄托:超四分之三单身年轻人渴望浪漫恋情,近四成年轻人更愿向AI虚拟人倾诉烦恼,因其能给予及时有效的情绪回应,此比例超过向亲人倾诉 [37] - 社会反思:AI伴侣的兴起反映了现实亲密关系中理解、倾听与尊重的缺失,其提供的服务照出了人类情感联结的不足 [37]
重新体验GPT-5后,我想它比GPT-4o更需要一场葬礼
虎嗅· 2025-08-11 20:57
GPT-5与GPT-4o性能对比 - GPT-5在编程等硬核技术任务上表现优于GPT-4o 但在写邮件、数据分析和阅读理解等需要人类经验的任务上表现不如GPT-4o贴心准确 [16][56] - GPT-5逻辑能力不稳定 有时能解决复杂逻辑题 有时连简单数学题都会算错 可靠性不如前代 [17][66] - GPT-5创意能力原地踏步甚至倒退 输出内容套路化缺乏灵气 与GPT-4o相比没有质的提升 [18][80] - GPT-5交互体验退步 缺乏共情能力 回应更理性但少走心感觉 [19][98] 生产力任务表现 - GPT-5生成的邮件更理性简洁 但GPT-4o的版本读起来更舒服专业 [24][32] - 在数据分析任务中 GPT-5处理时间更长且表格显示有误 而GPT-4o能生成更直观的可视化结果 [43][44] - GPT-5编程能力有提升 生成绘本的代码量达几百行 可直接运行且效果较好 [54][56] 逻辑与知识推理 - GPT-5在部分逻辑题如身高排序上表现优于GPT-4o 能给出更全面的排列组合 [62][63] - 在简单数学题如数西瓜和数手指上 GPT-5表现不稳定 有时会给出错误答案 [64][66] - 复杂数学题如椭圆离心率计算 GPT-5思考时间长且答案简单 准确性存疑 [68][70] 创意与内容生成 - 在标题创作和诗歌写作任务中 GPT-5与GPT-4o表现接近 均未达到惊艳水平 [80][82] - 生成图片提示词时 GPT-5能提供更详细的描述 但直接生图效果与GPT-4o差异不大 [85][88] 交互与用户体验 - 面对用户负面情绪 GPT-5回应更理性但缺乏共情 GPT-4o能更灵活调整回应方式 [93][98] - 在角色扮演任务中 GPT-5与GPT-4o均能保持角色一致性 但GPT-5推断用户心理的准确性存疑 [100][101] - 多轮对话测试显示两者上下文连续性表现接近 均能准确回顾之前讨论内容 [103][104] 行业影响与用户反馈 - 用户普遍认为GPT-5升级名不副实 实际体验未达预期 部分场景表现甚至不如GPT-4o [20][105] - 行业更关注AI模型实际解决问题的能力 而非单纯追求榜单得分和发布会炫技 [109][110]
重新体验 GPT-5 后,我想它比 GPT-4o 更需要一场葬礼
36氪· 2025-08-11 20:09
模型性能对比 - GPT-5在编程和数学等硬核技术任务上表现优于GPT-4o,但在需要人类经验和语感的写作、数据分析等任务上表现不如GPT-4o贴心准确[10] - GPT-5的逻辑智商极不稳定,有时能解决复杂逻辑题,有时连简单数学题都会算错,可靠性因智能路由机制而不如前代[10] - 在创意生成方面,GPT-5未带来惊艳表现,输出内容套路化缺乏灵气,与GPT-4o相比没有质的提升[10] 交互体验差异 - GPT-5在交互体验上情商被格式化,对话中更缺乏共情能力,面对用户负面情绪时回应少了一点走心的感觉,像是在分析用户而非聊天[10] - 在情绪应对测试中,GPT-5的回应被指凭推断用户不只是对模型失望,而GPT-4o的回应更直接询问用户希望如何被回应[88] - 在多轮对话和角色扮演任务中,两个模型均能保持人设,但GPT-5在被打断人设提问时反而使用了表情符号[93] 生产力任务表现 - 在日常生产力任务如邮件润色上,GPT-5的版本变得更理性废话少,但GPT-4o的版本被评价为读起来更舒服更像发给老板的邮件[15][35] - 在数据分析任务中,GPT-5处理24MB航班数据集所花时间比GPT-4o更长,且生成图表时出现标题显示错误[42] - GPT-5生成的结论完全从表格数据出发务实总结,而GPT-4o的总结更让人眼前一亮像经过思考[42] 多模态能力 - 在编程任务上,GPT-5生成几百行代码可直接运行并生成质量不错的绘本SVG,而GPT-4o生成代码不足100行且不能直接运行[51][52] - 在文生图任务中,GPT-5和GPT-4o生成效果差不多,但GPT-5花费时间更长,且GPT-4o因提示词触及政策一度拒绝生成[76] 逻辑与知识推理 - 在逻辑推理测试如多人身高排序问题上,GPT-5思考16秒后给出精简回答略胜一筹,而GPT-4o只给出两种可能排序[57] - 在计算西瓜数量等有语言陷阱的问题上,若不加上新买的描述两者均答错,但其他主流模型可成功计算[59][60] - 在数学题目测试如椭圆离心率范围上,GPT-5给出答案过于简单,OpenAI三个模型出现三个不同答案[62][63]