大语言模型(LLM)
搜索文档
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park· 2025-12-20 16:59
文章核心观点 - 2025年是大语言模型发展令人兴奋的一年,行业远未实现其10%的潜力,仍有大量工作要做,将持续快速进步[2][4][6] - 大语言模型作为一种全新的智能形态浮现,其智能“形状”与生物智能截然不同,需要用全新的心智模型来理解[3][22] - 2025年行业经历了多个重塑格局的“范式转变”[7] 2025年大模型训练范式的转变 - 2025年初,行业训练大模型的标准流程为预训练、监督微调和基于人类反馈的强化学习[11] - 可验证奖励的强化学习在2025年成为训练流水线上的新主力环节[12] - RLVR的核心是让模型在答案可自动验证的环境中训练,促使模型自发学会思考,将复杂问题拆解为中间步骤[14] - RLVR训练对象是客观的奖励函数,模型无法投机取巧,可进行更长时间优化,性价比极高,吞噬了原本留给预训练的算力[16] - 2025年模型能力的提升主要源于消化RLVR带来的红利,而非参数规模增长[17] - RLVR带来了新的调节旋钮,通过生成更长的推理链条、增加“思考时间”,可在推理阶段用更多算力换取更强能力[19] - OpenAI的o1是RLVR模型的首次亮相,而o3则让人直观感受到质变[21] 对大模型智能本质的新认知 - 大语言模型的智能与生物智能不同,其神经网络架构、训练数据、算法及优化目标均不同,是在智能空间中截然不同的实体[22] - 大语言模型智能在可验证领域附近的能力会尖峰式飙升,整体呈现出参差不齐的特征[22] - 人类智能同样参差不齐,只是“形状”不同[24] - 2025年对基准测试产生了普遍的冷感与不信任,因其是可验证环境,易被RLVR或合成数据攻克,在测试集上训练已成为一门新艺术[25] 应用层的新机遇与产品形态 - Cursor的火箭般增长证明了在基础大模型之上,存在一个厚实且充满机遇的“应用层”[9][28] - 像Cursor这样的应用会针对特定垂直领域打包和编排大模型调用[30] - 大模型实验室倾向于培养能力全面的“毕业生”,而大模型应用则通过组织、微调并结合私有数据、传感器等,将其培训成特定领域的“专业人士”[30] - 这些应用负责上下文工程,编排多次大模型调用串联成有向无环图,提供特定图形界面及自主性滑块[32] - Claude Code首次令人信服地展示了大模型智能体的面貌,以循环方式串联工具调用与推理进行持续问题求解[9][34] - Claude Code运行在用户本地电脑,使用私有环境、数据和上下文,是一种与AI交互的全新范式,使其成为一个“住在电脑里的小精灵”[34][37] AI编程能力的范式转变 - 2025年是AI编程能力跨越关键门槛的一年[9] - “氛围编程”使人们可以纯用英语生成程序,将从根本上重塑整个软件行业,彻底改变软件工程师的工作方式[9][38] - 编程不再是高度训练专业人士的专属,普通人从大模型中获得的收益远超专业人士、企业和政府[40] - 氛围编程也让专业人士能写出大量原本不会被写出的软件,代码变得免费、短命、可塑、用完即弃[40] 大模型交互界面的未来可能 - Google Gemini Nano Banana是2025年最令人惊叹、最具范式转变意义的模型之一,给未来大模型图形化交互带来了可能[9][42] - 与LLM的文本聊天类似于1980年代在计算机控制台上敲命令,文本并非人类偏爱的格式[42] - 大模型应该用人类偏爱的格式交流,如图像、信息图表、幻灯片、白板、动画视频、Web应用等[44] - Nano Banana是一个早期雏形,其重要性在于文本生成、图像生成和世界知识三者融合在模型权重中所产生的联合能力[46]
AI智能体时代中的记忆:形式、功能与动态综述
新浪财经· 2025-12-17 12:42
智能体记忆研究的核心观点 - 记忆是AI智能体实现从静态大语言模型到自适应智能体转变的核心能力,支撑长程推理、持续适应及与复杂环境的交互 [1][5] - 当前智能体记忆研究领域呈现碎片化,术语定义松散且传统分类法(如长/短期记忆)已不足以捕捉当代系统的多样性和动态性,亟需新的系统性框架进行统一 [1][6] - 该综述旨在通过“形式-功能-动态”三维视角,提供一个最新且全面的智能体记忆研究图景,并区分其与大型语言模型记忆、检索增强生成(RAG)等相关概念 [1][7] 智能体记忆的定义与范畴 - 智能体记忆被明确定义为促成AI智能体通过环境交互实现持续适应的关键能力,区别于静态大语言模型的参数化记忆 [5][7] - 其应用场景广泛,包括个性化聊天机器人、推荐系统、社会模拟及金融调查等领域,这些应用均依赖于智能体处理、存储和管理历史信息的能力 [5] - 从发展角度看,赋予智能体持续演化能力是AGI研究的核心目标,而这根本上依赖于其记忆能力 [5] 智能体记忆的形式(架构与表示) - 从形式视角,智能体记忆主要有三种实现方式:标记级记忆、参数化记忆和潜在记忆 [10][18] - 这些不同的架构形式是第3节讨论的重点,旨在解答“智能体记忆可以采取哪些架构或表示形式”这一关键问题 [7][19] 智能体记忆的功能(角色与目的) - 从功能视角,提出了超越时间分类的细粒度分类法,区分了三种功能类型:事实性记忆、经验性记忆和工作记忆 [10][18] - 事实性记忆记录智能体与用户及环境交互中获得的知识;经验性记忆通过执行任务逐步增强智能体解决问题的能力;工作记忆在单个任务实例中管理工作区信息 [7][19] - 第4节将详细阐述这些功能类型,以解答“为何需要智能体记忆以及它服务于哪些角色或目的” [7][19] 智能体记忆的动态性(生命周期与运作) - 从动态视角,分析了在智能体与环境交互过程中,记忆如何随时间被形成、检索和演化 [10][18] - 第5节将按记忆形成、检索和演化的顺序进行阐述,聚焦于智能体记忆的生命周期与运作动态 [7][19] 研究资源与新兴前沿 - 为支持实证研究和实际开发,汇编了关于代表性基准测试和开源记忆框架的全面总结 [2][12] - 阐明了数个新兴研究前沿,包括面向自动化的记忆设计、强化学习(RL)与记忆系统的深度融合、多模态记忆、多智能体系统的共享记忆以及可信度问题 [2][12][20] - 这些方向在早期的分类方案中尚未得到充分体现,例如2025年出现的从过往经验中提炼可复用工具的记忆框架或基于记忆增强的测试时缩放方法 [6][16] 综述结构与贡献 - 综述结构包括:第2节形式化定义与概念厘清;第3、4、5节分别审视形式、功能和动态性;第6节总结基准与框架;第7节讨论未来方向;第8节总结 [9][21] - 主要贡献包括:提出了一个基于“形式-功能-动态”视角的最新多维度分类法;探讨了不同记忆形式与功能的适用性及相互作用;勾勒了未来研究方向;汇编了综合资源集以支持研究与开发 [8][20]
AI赋能资产配置(三十二):AI如何赋能财经信息“聚合提纯”?
国信证券· 2025-12-13 21:02
核心观点 - AI大模型通过自动化财经情报工具,为解决金融信息处理领域的信息过载、分析成本高等痛点提供了技术支撑,其核心在于将情绪分析贯穿于信息处理全链条,实现从信息聚合到价值挖掘的流程革新 [2][3] - 以Wide-Research-for-Finance工具为例,其通过两阶段处理机制(热点筛选与深度分析),实现了财经信息分析的标准化、自动化与低成本化,旨在缩小专业信息鸿沟,推动金融信息服务普惠 [2][4][5] AI赋能财经信息处理的行业痛点与解决方案 - 传统金融信息检索面临三大痛点:信息源分散导致检索效率低下、非结构化数据难以快速提炼核心价值、市场情绪难以量化导致决策主观性较强 [3] - AI技术,特别是大语言模型在文本理解与情绪分析领域的突破,为解决上述痛点提供了全新方案,通过模块化架构设计实现“数据采集-信息提炼-分析输出”的全流程自动化 [3] - AI被定位为高效的信息“提纯器”,从海量文本中提取核心实体、判断情绪倾向、分类事件类型,而非黑盒预测器 [4] Wide-Research-for-Finance工具的核心功能与优势 - **高效信息聚合与筛选**:工具系统性整合全球21个核心信息源,涵盖国际主流媒体、专业分析平台及政策发布机构,通过RSS解析器与网页爬虫自动完成实时数据抓取 [7] - **两阶段处理机制**:第一阶段通过标题快速筛选每小时采集的200+条新闻;第二阶段依托DeepSeek大模型完成情绪识别、实体提取、事件分类与影响评估,并同步生成结构化报告 [2][4] - **标准化与自动化输出**:自动将筛选分析后的信息转化为市场情绪总览、热点追踪榜单、重大事件摘要等模块化报告,减少人工解读主观性,方便用户快速抓取关键信息 [4][7] - **低成本与高灵活性**:工具具备开源属性,支持本地部署与自定义数据源扩展,日均API成本控制在0.08美元以内,让个人投资者与小型团队能以较低成本获得专业级情报 [4][8] AI在多源实时财经热点提炼中的应用 - 工具实现了财经热点提炼的全流程自动化,打破了传统信息获取的时间与成本壁垒,将依赖人工经验的过程转化为标准化、可复现的自动化流程 [6][8] - 热点捕捉具备结构化与量化优势,并非简单罗列新闻,而是通过关键词出现频次排序呈现核心关注对象,生成模块化的热点分析结果 [7] - 如图1示例,工具从海量新闻中筛选出20条有效新闻,并识别出其中四条预计会影响市场情绪的重大事件 [7][9] AI在市场情绪分析中的深度应用 - **深度分析实现量到质转换**:通过大模型将筛选后的热点信息进行事件分类与影响评估,自动识别新闻中的关键要素(如公司、人物、政策)并标记事件类型 [11] - **情绪量化与可视化**:系统通过情绪指数量化市场整体氛围,例如明确输出“中性(情绪指数:0.18)”,使市场情绪可感可测 [11] - **具体分析示例**:工具可对事件进行标注,如将【外资看好中国股市延续涨势】标注为【情绪: 积极|中国: 积极|美国: 中性】,让投资者快速聚焦核心价值信息 [11] - **支持个性化扩展**:支持用户自定义添加多领域RSS源,实现专属热点的精准捕捉 [11] 工具定位、局限与行业趋势 - 该工具是聚焦基础功能的开源项目,定位为通过技术优化实现金融信息服务普惠,让不同规模的投资者都能以较低成本获得结构化、标准化的情报支持 [5] - 工具目前存在明确提升空间,例如历史数据深度挖掘功能不足,无法支持长期情绪趋势分析等进阶场景 [5] - 其所代表的大模型赋能财经信息获取思路,正在成为中小规模用户获取专业财经情报的新方向 [5]
LLM距离AGI只差一层:斯坦福研究颠覆「模式匹配」观点
机器之心· 2025-12-10 18:30
文章核心观点 - 大语言模型的理论基础可能面临改变,传统认为“LLM只是模式匹配器”的观点被颠覆[1][2] - 实现通用人工智能的瓶颈在于缺少一个“协调层”来组织模型的模式以实现可靠推理,而非单纯扩大模型规模[3][4][5] - 提出“基础层加协调层”的第三条道路,其中LLM作为系统-1基础层(模式存储库),而缺失的系统-2协调层负责将模式与外部约束绑定、验证输出并维护状态[5][8] 关于AGI瓶颈与协调层理论 - 人工智能界围绕大语言模型本质存在分裂:扩展派认为LLMs足以实现AGI,而批评者认为LLM仅是模式匹配器,在结构上不具备推理能力,是死胡同[5] - 核心观点认为争论建立在错误的二分法上,LLM的失败不是因为缺乏推理能力,而是缺少将其模式与目标绑定的系统[5] - 使用捕鱼隐喻解释:海洋代表模型庞大的模式库,无饵撒网只能捕获最常见鱼类(通用模式);智能行为需要下饵(传达意图)和过滤,诱饵的密度需要优化以高效吸引目标鱼类(特定概念)[6] - “缺失的层”是协调层,其作用是优化计算转移后验分布所需的精确密度,同时控制成本[8] UCCT理论与推理相变 - 作者引入统一认知意识理论来形式化协调机制[9] - UCCT最激进的观点是:LLM从幻觉到推理的转变是一个相变,而非线性过程,类似于水在冰点凝结[10] - 相变由锚定分数决定,该分数综合考虑三个关键变量:有效支持、表征失配和自适应锚定预算[10][13] - 幻觉是模型在未加诱饵情况下输出其模式存储库的最大似然先验;推理则是外部约束将后验分布从通用统计模式转向目标的结果[10] - 只要提供足够密度的“诱饵”和“渔网”(即协调层的锚定机制),LLM就能被组织起来执行可靠推理[10] MACI架构与核心组件 - 为将UCCT理论转化为实际架构,作者构建了多智能体协作智能,这是一个为LLMs提供类似人类“执行功能”的协调堆栈[12] - MACI架构通过三个核心组件映射并解决UCCT中决定推理相变的三要素[13] - **有效支持**:指外部约束对目标任务提供的强度和密度,作用是拉动模型走向目标,有效锚点越多分数越高[13] - **表征失配**:指模型当前潜在模式与目标任务或外部约束之间的差异程度,作用是惩罚模型偏离约束,失配度越大分数越低[13] - **自适应锚定预算**:代表为达到目标愿意付出的上下文成本和计算资源,作用是平衡效率与可靠性[13] - 当锚定分数低于阈值时,模型基于训练数据的统计学最大似然先验输出,表现为幻觉;高于阈值时,目标导向约束主导后验分布,推理行为被激活[13] - 深度协调模式将推理视为受控过程,智能体进行辩论、交叉检查、修改方案等,由锚定信号指导,本质上是在底层模式基质之上叠加执行功能[14] MACI的具体实现机制 - **行为调制的辩论**:用于最大化有效支持,让多个智能体扮演不同角色进行辩论,主动检索、生成和验证证据,确保审议多角度且有证据支持[18] - **苏格拉底式评判CRIT**:用于最小化表征失配,CRIT作为专门裁判,在推理每一步严格审查智能体的提议和论点,查找过滤与事实或约束矛盾的内容,防止低质量或幻觉性内容污染推理循环[18] - **事务性内存**:用于优化锚定预算,以持久化和事务性方式存储经过验证的关键中间状态,避免重复计算和上下文膨胀[18] 对AGI路径的重新认知 - AGI不会来自于更大的模式之海,而将来自于组织这些模式以形成可靠推理的网、诱饵、过滤器和记忆机制[14] - 如果该技术能够扩展,LLM将不再是“自动补全”,而会成为完整推理系统的认知基质[14] - 大语言模型是实现AGI的必要“认知基质”,其瓶颈不在于底层模式规模,而在于缺失一个将这些模式组织和绑定到目标的“协调层”[14]
深大团队让机器人听懂指令精准导航,成功率可达72.5%,推理效率提升40%
36氪· 2025-12-10 15:00
行业技术突破 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构,提出了视觉-语言导航新框架UNeMo,其核心是构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构,旨在解决现有方法中视觉状态推理与导航决策脱节的问题 [1][6] - 该框架通过多模态世界模型预测未来视觉状态,并结合分层预测反馈导航器进行决策,形成了“推理-决策”相互赋能的动态闭环优化,使智能体能在复杂环境中持续迭代并做出更聪明的决策 [3][12] 技术优势与性能 - 在资源消耗方面实现大幅优化:UNeMo采用FlanT5-1.5B模型,参数规模仅为对比方法NavGPT2所用FlanT5-5B模型的30%,训练时GPU显存占用从27GB降至12GB,减少56%,推理速度从每步1.1秒提升至0.7秒,效率提升40% [14][15] - 在核心性能上实现超越:在R2R数据集的未见环境测试中,UNeMo的导航成功率(SR)达到72.5%,较NavGPT2的71%提升1.5个百分点,路径效率(SPL)从60%提升至61.3% [15][16] - 在长路径导航中表现尤为突出:在路径长度≥7的长轨迹任务中,导航成功率(SR)大幅提升5.6%(从64.2%至69.8%),提升幅度是短路径的4.7倍,有效缓解了长距离导航的累积误差 [17] 通用性与可拓展性 - 框架展现出强可拓展性:团队将UNeMo迁移至不同类型的导航基线(如DUET)与目标导向导航数据集REVERIE进行验证,实验结果显示其在未见场景的导航成功率(SR)与远程目标定位成功率(RGS)指标上均有提升 [18][19][20] - 这表明UNeMo的协同训练架构并非局限于特定类型的导航系统,能够灵活适配不同任务场景,验证了其作为通用导航架构的潜力 [20] 学术认可与影响 - 该研究成果已入选顶级人工智能会议AAAI 2026,为视觉-语言导航领域提供了高效可行的新方案,有望推动服务机器人等实际应用场景的落地发展 [3][21]
深大团队让机器人听懂指令精准导航!成功率可达72.5%,推理效率提升40%|AAAI2026
新浪财经· 2025-12-10 14:52
技术突破与核心架构 - 深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出视觉-语言导航新框架UNeMo 其核心突破在于构建了“多模态世界模型+分层预测反馈导航器”的双向协同架构 将视觉状态推理与导航决策深度绑定 从根本上解决现有方法的脱节问题 [1][5][20] - UNeMo通过多模态世界模型与分层预测反馈机制 让导航智能体不仅能感知当前环境 还能预测未来视觉状态 并据此做出更聪明的决策 [3][18] - 多模态世界模型基于条件变分自编码器构建 核心是精准预判未来视觉状态 它通过跨注意力机制融合多模态信息 且无需额外标注数据 就能通过导航决策结果反向反馈 持续优化预测精度 形成自适应进化循环 [5][21] - 分层预测反馈导航器采用两阶段分层机制 先基于当前特征生成粗粒度候选动作锁定方向 再融合预测的未来视觉状态优化出细粒度动作修正偏差 让智能体在复杂场景中稳健导航 [8][24] - 该框架构建了“推理-决策”相互赋能的闭环优化 MWM的视觉预判提升导航决策精准度 导航的实际执行结果则实时反馈给MWM优化其预测准确性 这种双向促进让智能体在导航中持续迭代 [10][26] 性能优势与实验验证 - 在VLN领域核心数据集R2R的实验中 UNeMo在轻量化配置与高性能决策的平衡上实现关键突破 其采用的FlanT5-1.5B模型参数规模仅为主流方法NavGPT2所用FlanT5-5B的30% [11][27] - 在资源消耗上实现大幅优化 训练时GPU显存占用从27GB降至12GB 减少56% 推理速度从每步1.1秒提升至0.7秒 效率提升40% [11][27] - 在模型未见过的测试环境中 其导航成功率(SR)达到72.5% 较NavGPT2的71%提升1.5个百分点 路径效率(SPL)从60%提升至61.3% [12][28] - 在复杂的长路径导航场景中 UNeMo优势尤为突出 短路径(长度<7)的导航成功率仅微增1.2%(从71.1%至72.3%) 而长路径(长度≥7)的SR大幅提升5.6%(从64.2%至69.8%) 提升幅度是短路径的4.7倍 证明其能有效缓解长距离导航中的累积误差 [13][14][29][30] - 在跨场景可拓展性验证中 团队将UNeMo迁移至不同类型的导航基线(DUET)与目标导向导航数据集REVERIE 实验结果显示其在unseen场景的导航成功率与远程目标定位成功率指标上均有提升 验证了其强可拓展性 [15][31][32] 行业影响与落地前景 - UNeMo针对传统VLN方法推理与决策脱节、资源消耗高的问题 以协同架构破解痛点 其轻量化配置具备高性能、长路径导航稳健、跨场景适配性强的优势 [16][33] - 该研究为视觉-语言导航提供了高效可行的方案 有助于推动服务机器人等实际场景的落地应用 [16][33] - 该论文已入选人工智能顶级会议AAAI 2026 显示了其学术价值与行业关注度 [3][18]
谷歌IMO金牌级Gemini 3深夜上线,华人大神挂帅,OpenAI无力反击
36氪· 2025-12-05 18:08
产品发布:Gemini 3 Deep Think - 谷歌DeepMind发布全新推理模型Gemini 3 Deep Think,基于前代Gemini 2.5 Deep Think迭代,在复杂数学、科学和逻辑难题的推理能力上实现质的飞跃[7] - 该模型的核心能力是“并行思考”,可同时探索多种假设以解决超高难度问题[2][14] - 模型在多项基准测试中取得行业领先成绩:在Humanity‘s Last Exam(无工具辅助)上获得41%的高分,在ARC-AGI-2(配合代码执行)上创下45.1%的新纪录[2][7],在ARC-AGI系列测试中实力被描述为无“模”能敌[10] - 产品已上线,所有Gemini App的Ultra订阅用户即可体验[5][11] 技术演示与能力 - 在3D场景生成任务中,Gemini 3 Deep Think相比Gemini 3 Pro展现出更高的还原度和符合物理逻辑的交互光影[5] - 该模型能够根据草图创建精确的交互式3D场景[5],并能生成具备真实物理效果(如碰撞模拟)的游戏关卡和动画[14][16] - 在程序化生成内容(如创建地球类行星)的任务中,Deep Think版本被评价为比Pro版本更具创造力[14] - 开发者实测表明,该模型具备根据静态照片(如玻璃瓶)生成相应3D动画的惊人能力[15][16] 团队与人才战略 - 谷歌DeepMind宣布在新加坡组建一支全新的精英团队,专注于高级推理、大语言模型/强化学习,并推进Gemini及Deep Think等前沿模型的发展[18] - 该团队由华人科学家Yi Tay领导,并向位于山景城、由谷歌Fellow Quoc Le领导的团队汇报,后者是Gemini Deep Think在IMO和ICPC竞赛中获得金牌突破的核心团队之一[18][20] - 团队组建理念强调“人才密度”,初期规模小但能力极强,并已从全球招募顶尖人才[20][21][23] - 团队将与包括“推理之王”Denny Zhou、Noam Shazeer在内的多位AI领域顶尖研究者联动[23] - 该项目得到了谷歌DeepMind内部高层(如Demis Hassabis、Jeff Dean)的大力支持[23] 市场动态与竞争格局 - 随着Gemini 3 Pro的发布,谷歌Gemini的网页端市场份额突破15%大关,目前达到15.1%[26][27] - Gemini的网站访问量达到13.51亿次,较上月(10月)增长14.3%[30] - 尽管ChatGPT在流量上仍断崖式领先,但其市场份额持续下降,目前为71.3%,网站访问量降至58.44亿次,这是其在2025年第二次出现环比下滑[26][27][30] - Grok凭借4.1版本的发布持续增长,市场份额升至2.7%,网站访问量达到2.344亿次,创历史新高,较10月增长14.7%,并首次实现连续两个月流量增长[26][27][33]
元保发布第三季度财报:营收达11.58亿元,AI驱动业务成效显著
格隆汇· 2025-12-03 18:07
公司财务业绩 - 第三季度总收入达人民币11.58亿元,同比增长33.6% [1] - 第三季度净利润达人民币3.70亿元,同比增长51.3% [1] - 截至2025年9月30日现金储备达人民币37.50亿元 [1] 技术能力与投入 - 模型库已扩充至超过4900个模型、5500个特征,较上年同期分别新增约400个、750个 [1] - 研发人员占比近70%,AI团队规模持续保持员工总数的10%以上 [1] - 第三季度新保单数量达800万份,同比增长41.8% [1] 大语言模型应用 - 研发端AI生成代码占比近50% [1] - 客服端通过大模型自动生成服务工单摘要、提炼关键信息并给出处理建议,辅助身份核验和记录客户情绪变化 [1] - 消费者全周期服务引擎引入大模型辅助建模与特征自动挖掘技术,提升建模速度和效果 [1] 行业发展趋势 - 全国性"医保+商保"清分结算中心落地,商业保险与基本医保实现"一站式"衔接 [2] - 商业保险已成为我国多层次医疗保障体系中的重要组成部分,普惠健康险迎来更广阔发展空间 [2] 公司产品与服务 - 联合保司推出以"普惠价格撬动百万保额"的短期重疾险,采用"一次给付+多次报销"模式 [2] - 客服中心发布"五心服务"标准,提升用户全流程保障体验 [2]
2025年AI智能体在未来产业创新上的前沿应用与发展趋势报告(1)
搜狐财经· 2025-12-03 05:04
人工智能产业宏观趋势 - AI正从大模型(LLM)的“理解与生成”阶段,迈向智能体“感知-决策-行动-学习”闭环的Agentic时代 [1] - 其核心公式为“Agent = Model + Memory + Action + Reflection + Evolution” [1][6] - 智能体系统产业正经历从基于管道的自主进化(~2025),到模型原生(2025~2027),再到完全自主进化(2027~)的演变 [19] 智能体核心架构与局限 - 核心模块包括感知、推理与行动,并扩展到高级组件如专用智能体、高级推理与规划、持久记忆以及编排层 [11] - 多智能体协作涉及系统协调、共享上下文和任务分解,架构向分布式、自适应转变 [11] - 当前主要局限包括:缺乏因果推理能力、受LLM固有缺陷(如幻觉、浅层推理)限制、能动性不足、长期规划与恢复能力薄弱,以及多智能体协调失效与通信不稳定 [13][14] 市场规模与资本流向 - 2024年全球AI智能体市场规模约52.9亿美元,预计2030年达460-470亿美元,年复合增长率超40% [1][15] - 北美是主要资金池与企业客户基地,风险投资、云厂商与并购活跃 [15] - 欧洲市场重点在隐私合规与企业效率工具,中国偏向出海应用层服务,以色列深耕中后台技术(如强化学习、规划模块) [15] 产业生态与商业模式 - 美国产业生态分层包括:应用生态与市场层、行业垂直层、体验与协同中台层、智能体操作系统层、底层模型与计算层 [17] - 主要商业模式包括:智能体即服务(AaaS)按需租用、协作式AI平台、个性化AI助手以及AI智能体市场 [22] - 产业演化呈现五大趋势:从应用驱动到生态驱动、从Prompt到Policy演化、从单智能体到多智能体协同、从虚拟智能到具身智能、从模型应用到产业系统共演 [29] 技术解决方案与突破方向 - 十大新兴架构与算法解决方案包括:检索增强生成(RAG)、工具增强推理、多智能体协同、反思与自我批判机制、因果建模与基于仿真的规划等 [32] - 未来技术突破方向包括:多模态能力融合、自主决策能力提升、协作能力增强、边缘计算集成 [38] - 多智能体协同演化方法通过实例化提议者、求解者和评判者三个角色,持续提升模型推理能力 [35] 行业应用与规模化拐点 - 行业应用覆盖金融、医疗、教育、制造业及协同办公等领域 [1] - 协同办公正从“工具自动化”向“组织智能演化”转型 [1] - 2025年被业界视为AI智能体大规模应用的“拐点时刻”,预计到2028年,33%的企业软件应用将集成AI智能体功能,超过15%的日常工作决策将由AI智能体自主完成 [23] - 行业渗透分三波推进:2024-2025年(客服、数据分析、内容创作);2025-2026年(金融风控、医疗诊断、教育个性化);2026-2027年(制造业智能化、供应链优化、城市管理) [23] 对产业与就业的影响 - AI智能体将深刻改变传统产业运作方式,预计到2028年,其应用有望使组织运营成本降低40%,营业收入提升20% [25] - 就业结构将发生变化:重复性、规则化岗位面临替代,同时将创造AI智能体开发、训练、维护等新岗位,对创造性、战略性及情感交流能力的需求将增长 [28]
复旦大学最新Cell子刊:DeepSeek-R1、GPT-4等大语言模型可增强肺癌筛查的临床决策
生物世界· 2025-11-28 12:05
肺癌筛查的临床挑战与现状 - 肺癌是全球最具侵袭性和普遍性的癌症之一,2020年预估新增病例达220万例,死亡病例达180万例 [2] - 多数肺癌病例在进展至晚期前无明显症状,晚期治疗选择有限,导致五年生存率低于10% [2] - 年度低剂量计算机断层扫描(LDCT)筛查是改善肺癌高危人群预后和生存率的关键策略 [5] - LDCT扫描中偶然发现的肺结节(<3厘米)需要临床决策支持,以决定是采取即时干预还是制定随访方案 [5] 大语言模型在临床决策支持中的研究进展 - 大语言模型(LLM)是基于数十亿单词训练的人工智能系统,其在支持诊断和治疗决策方面的潜力日益受到关注 [5] - 在肺癌领域,LLM已被用于回答非专业人士问题、对CT报告进行数据挖掘以及评估肺结节患者的纵向CT图像 [5] - 近期有研究表明,开源大语言模型DeepSeek-R1在临床决策中的表现与OpenAI的GPT-4o等领先的专有模型不相上下 [5] - 然而,此前的研究多基于医学教科书和学术期刊中的病例报告,在实际临床应用方面存在不足 [5] 多中心基准测试的研究设计与方法 - 复旦大学中山医院谭黎杰教授团队于2025年11月21日在Cell Reports Medicine上发表了一项多中心横断面研究 [3] - 研究旨在评估LLM是否为首次LDCT中发现肺结节的患者提供管理建议的合适决策支持工具 [6] - 研究从三家不同医疗机构收集了真实世界的LDCT报告,准备了148份匿名报告用于评估 [6] - 研究系统地评估了GPT-3.5、GPT-4、Claude 3 Sonnet和Claude 3 Opus四种LLM的可读性、准确性及一致性 [6] - 研究还使用一家医院的报告对最先进的专有模型GPT-4o及开源模型DeepSeek-R1进行了探索性分析 [6] 大语言模型在肺癌筛查中的性能评估结果 - 评估结果显示,Claude 3 Opus生成的建议可读性最高,而GPT-4达到了最高的临床准确性 [3][7] - 各LLM对来自不同医院的报告之间的性能差异并不显著,突显了其对报告模板变化的稳健性及在不同医疗环境中的实用性 [7] - 在探索性分析中,GPT-4o和DeepSeek-R1的表现与GPT-4相当,均优于GPT-3.5 [3][7][8] - 这些发现表明,大语言模型有可能在不同医疗环境中增强肺癌筛查的临床决策支持 [3][10]