大语言模型(LLM)
搜索文档
2025 Agentic AI应用构建实践指南报告
搜狐财经· 2025-07-20 16:08
Agentic AI核心概念与技术演进 - Agentic AI是基于大语言模型(LLM)的自主软件系统,通过感知、推理、规划与工具调用能力实现复杂任务自动化执行,技术演进从规则引擎发展到目标导向架构 [1][22] - 核心能力包括自然语言理解与推理(支持模糊指令逻辑分析)、自主规划与工具集成(通过思维链/树状思维分解任务)、记忆机制与闭环反馈(短期/长期记忆结合RAG技术) [3][25][28][31] - 系统分类:单Agent适用于特定领域简单任务(响应快、成本低),多Agent通过"主管-协作者"模型处理复杂任务(如投资分析、赛事诊断) [36][38] 技术架构与前沿技术 - 关键技术模块包括目标定义与任务管理(ReAct框架形成闭环)、环境交互与沙箱技术(硬件级虚拟化隔离)、多Agent通信协议(A2A/MCP协议标准化工具连接) [3][32] - 前沿技术包含Agentic RAG系统(动态获取最新数据)、Computer Use/Browser Use(自动化流程操作)、端到端训练内化模型能力 [4][25] 构建方案与场景适配 - 亚马逊云科技提供三类方案:专用Agent(Amazon Q,开箱即用)、全托管服务(Amazon Bedrock Agents,快速集成)、完全自建Agent(Strands Agents,深度定制) [1][12] - 选择依据包括任务确定性(专用Agent适合标准化流程)、灵活性需求(自建Agent满足特殊业务流程) [1] 行业应用案例与价值验证 - 金蝶国际:优化ERP系统智能提单流程,员工通过自然语言描述需求实现自动化单据提交 [1][12] - Formula 1:赛事根因分析从数周缩短至几小时,通过Agent分析日志数据提升诊断效率 [2][12] - 制造业:采购合同关键条款识别与物流单信息提取减少人工错误,金融领域:整合市场数据生成可视化决策报告 [4] 未来趋势与挑战 - 趋势:模型能力内化减少外部依赖、标准化协议推动"AgentOS"生态形成、通用与垂直场景分化(个人助理vs专业领域) [4][26] - 挑战:复杂任务推理链断裂、多Agent协同中的上下文丢失、幻觉问题需结合RAG提升输出可信度 [4][38] 市场前景 - 到2028年企业软件应用中33%将集成Agentic AI技术,技术发展推动各行业智能化变革 [26][5]
一文了解 AI Agent:创业者必看,要把AI当回事
混沌学园· 2025-07-16 17:04
AI Agent 的核心重构 - 智能系统的进化本质是对"认知-行动"闭环的迭代 [1] - 大语言模型(LLM)突破在于破解人类语言符号编码逻辑,赋予机器近似人类的语义推理能力 [2] - 当前LLM如同未开化的原始大脑:拥有海量知识但缺乏主动调用能力,能解析逻辑但无法规划连续行动 [3] 记忆系统 - 将静态"知识存储"转化为动态"认知流程"是智能体的第一重突破 [4] - 短期记忆类似工作内存,负责实时处理任务上下文(如多轮对话记忆) [10][11] - 长期记忆作为"认知基因",通过向量数据库储存用户偏好和业务规则(如电商场景的购物偏好记忆) [12] - 双重记忆机制使智能体具备学习能力,能总结经验优化未来决策(如客户投诉处理方案优化) [14][15] 工具调用能力 - 工具调用是智能体突破认知边界的关键 [17] - 相比RAG技术仅提供数据访问,智能体可将外部信息转化为可处理的符号流(如金融数据API调用) [18][19][20] - 工具多样性决定认知边界广度(数学计算器/图片识别插件等场景应用) [26][27] - 在企业办公场景可整合数据分析工具和文档编辑工具完成复杂任务 [24] 规划模块 - 规划模块破解复杂任务的"认知熵增"(如餐厅预订任务的思辨链拆解) [28] - 在项目管理中可拆解子任务、监控进度并动态调整规划 [30][31][32] - 具备自我反思优化能力,通过复盘提升复杂任务处理效率 [34][35] 商业应用前景 - 正在重塑企业软件底层逻辑,重新定义人机协作边界 [36][37] - 完成从"能思考"(LLM)到"知边界"(RAG)再到"会行动"的完整闭环 [38] - 未来可能在医疗(病历分析)、教育(个性化学习)等领域带来变革 [45] - 混沌AI创新院开发了可落地的AI Agent解决方案,已在3000+实战案例中应用 [51][52]
多模态大模型崛起:华泰证券预测应用奇点即将到来
搜狐财经· 2025-07-14 07:44
多模态大模型发展趋势 - 多模态大模型正迅速接近关键转折点,是大语言模型(LLM)演进的必然趋势 [1][5][6] - 原生多模态架构(MLLM)因全模态同步训练在性能、延时、部署上优势显著,但算力要求严苛,OpenAI和Google处于领先地位 [1][6] - 技术迭代推动图像生成转向易用性,视频生成在时长、清晰度、一致性持续突破,语音、音乐、3D领域同步拓展 [2][4] 商业化进展 - 全球商业化呈现三大趋势:海外快于国内、一级市场公司快于二级市场、多模态产品快于文本产品 [1][7] - 海外Chatbot类产品(如OpenAI、Anthropic)年化收入(ARR)超10亿美元,国内Chatbot商业化仍较初期 [1][7] - 国内年收入超1亿美元的AI公司(美图、快手、睿琪软件)均聚焦多模态产品 [1][7] 视频生成赛道表现 - 国内厂商在视频生成赛道全球化与商业化最成熟,字节Seedance 1.0、快手可灵(Kling)、MiniMax Hailuo 02位列全球榜单前列 [8] - 快手可灵上线10个月ARR突破1亿美元,标志国内视频生成从单点突破进入多点突破阶段 [2][8] 投资机会 - 算力侧:原生多模态模型及视频推理需求激增,视频Agent落地进一步催生算力需求 [9] - 应用侧:广告、零售、创作等领域AI化需求释放,国内视频生成模型领先 [9] - 推荐标的包括国产算力链(沪电股份、生益科技)及应用产业链(微软、奥多比、金山办公等) [9][14] 行业共识与未来方向 - 多模态大模型将成为行业核心发展方向,融合图像、视频、语音数据以拓宽AI应用场景 [4][15] - 原生多模态架构主流化及一级市场公司进展需重点关注,与市场认知存在差异 [5][7]
AGI没那么快降临:不能持续学习,AI没法全面取代白领
36氪· 2025-07-14 07:23
AGI发展瓶颈 - 当前大语言模型(LLM)缺乏人类持续学习能力 模型开箱即用的能力即为天花板 无法通过反复调试系统提示词达到人类经验积累的效果 [6] - 人类价值核心在于构建语境、反思失误、持续优化细节的能力 而LLM仅能通过文字说明被动学习 无法像人类通过实践主动适应 [7][8] - 强化学习微调(RL fine-tuning)存在技术局限 每项子任务需定制强化学习环境 难以实现人类编辑自主发现细节的成长路径 [8] 计算机操作智能体挑战 - 现有计算机操作智能体表现糟糕 执行链延长导致进度放缓 处理图像视频需额外算力消耗 [13] - 多模态数据先天不足 纯文本训练无法解决UI逻辑理解问题 类似用1980年文本数据训练GPT-4 [14] - DeepSeek研发案例显示 从GPT-4到o1耗时两年 计算机操作领域数据更匮乏、模态差异大 突破难度被低估 [15] AGI时间线预测 - 2028年AI或能处理小企业税务全流程 相当于GPT-4在语言模型的里程碑意义 但2026-2027年demo可能炫酷不实用 [17][18] - 2032年AI在职学习能力或媲美人类白领 七年时间跨度足以突破持续学习瓶颈 类比GPT-1到当前模型的进步速度 [19][20] - 本十年(2030年前)是AGI关键窗口期 依赖算力年增四倍的发展模式将终结 之后进展需靠算法突破 概率直线下跌 [22] 模型能力现状评估 - LLM在单次对话中展现灵光 但对偏好的理解会话结束即归零 长上下文窗口方案在非软件工程领域效果脆弱 [9] - 顶尖模型在擅长领域已展现推理能力 能拆解问题、揣摩需求、调整方向 部分场景实现零样本生成可用程序 [16] - 当前AI若停滞发展 仅能替代不到25%白领岗位 因无法持续学习适应偏好 上下文构建缺失使其难以成为真正"员工" [10]
当AI说“我懂你”,人类为何难被打动?
科技日报· 2025-07-09 09:22
AI情绪支持的市场现状 - 当前AI对话助手已能生成精准且人性化的情绪支持回复,但用户仍难以被打动[2] - 实验显示6000名参与者对相同内容的人类回复评价更高,认为更具同理心[2] - 大语言模型(LLM)可分析情感状态并生成关怀性回应,但用户仍认为其缺乏真实理解[3] 用户心理与行为特征 - 存在"共情怀疑症"现象,用户难以将机器视为真正的倾听者[3] - 即使AI回复经过人类润色,用户知晓AI参与后仍会降低情感认同度[4] - 实验中用户宁愿多等几分钟获取人类回复,而非即时AI回复[4] 行业技术发展动态 - Hume AI公司2024年推出首款"情商对话AI",可检测53种情绪但引发伦理争议[5] - 现实应用中AI陪伴软件通过长期对话建立"虚拟亲密感",可能改变用户认知[5] - 未来趋势或转向AI作为"共情增强工具",辅助心理咨询师或提供临时陪伴[5] 人机交互的核心挑战 - 用户潜意识认为AI缺乏情感经历,无法实现真正的"感同身受"[4] - 共情不仅需要语言准确性,还需被感知为真实的情感共鸣[4] - 行业需解决用户对AI情绪支持的深度信任问题[4]
AI写综述,靠谱吗?
虎嗅· 2025-07-04 15:49
人工智能在科学文献综述中的应用进展 - 初创公司FutureHouse开发的人工智能系统PaperQA2能在几分钟内完成科学知识总结,准确度超过维基百科页面,并生成了约17000个人类基因的维基百科式条目 [1] - 基于人工智能的科学搜索引擎如Consensus和Elicit能通过查找、分类和总结出版物帮助撰写叙述性文献综述,但尚无法独立完成高质量的系统性综述 [2][4] - 南丹麦大学研究员Mushtaq Bilal开发的工具Research Kick和Scite系统能快速找出支持或反驳某个观点的文献并做出详细分析,显著提升文献综述效率 [4] 技术实现与挑战 - FutureHouse的PaperQA2系统通过搜索多个学术数据库并访问免费和付费论文全文来识别和总结最相关内容,但运行成本较高 [5] - Elicit和Consensus等工具只能搜索开放获取论文和摘要,无法检索付费墙后的全文,处理数百万篇全文需要极高计算成本 [5] - 系统性综述至少需要25个严谨步骤,目前人工智能工具如RobotSearch和RobotReviewer可辅助部分流程,但完全自动化仍需较长时间 [7][8] 性能评估与局限性 - FutureHouse团队测试显示,人工智能生成的文章出现"推理错误"的频率仅为人工撰写文章的一半,实现了"超人类水平科学知识综合" [6] - 人工智能科学搜索引擎的输出水平类似"赶工熬夜的本科生",建议仅用于优化综述特定环节而非独立完成 [4] - 生成式人工智能在阅读和评估论文方面表现良好,但在设计全面文献搜索等环节仍存在不足 [9] 行业发展趋势 - 国际系统性综述自动化协作组织致力于开发自动化工具,Evidence Review Accelerator网站提供多种工具以逐年缩短综述时间 [9] - 英国两家资助机构宣布投入超过7000万美元开发证据综合系统,推动非营利组织参与人工智能工具开发 [12] - 研究人员担忧人工智能可能导致更多低质量综述,但也可能通过快速检查文献提高工作水平 [10][11]
14%论文都有AI代写?Nature:每7篇就有1篇藏有ChatGPT特征词
量子位· 2025-07-04 15:02
LLM在学术写作中的使用现状 - 2024年PubMed上发表的150万篇生物医学研究摘要中,超过20万篇频繁出现LLM特征词,占比约14% [1] - 部分国家和学科中AI辅助写作比例已超过五分之一,且趋势持续上升 [3] - 自ChatGPT实现学术文本生成后,LLM被广泛融入论文写作流程,甚至出现合作撰写现象 [5] LLM的文本特征识别方法 - 研究团队分析2010-2024年1400万篇PubMed摘要,构建词汇二元矩阵计算超额使用指标 [10] - 2024年后"intricate"、"notably"等风格词超额使用,其中66%为动词(如"delving")、16%为形容词(如"crucial") [11] - 通过222个低频风格词+10个高频词组合计算,2024年论文中10%-11%摘要使用LLM,部分子库高达30% [13] 跨领域使用差异 - 计算领域和生物信息学等学科LLM使用率达20%,因技术迭代快需快速掌握新技术 [16] - 非英语国家(如中国、韩国)LLM辅助英语写作使用率15%,显著高于英语国家 [16] - 开放获取期刊《Sensors》LLM使用率24%,而《Nature》《Science》等顶刊仅6%-8% [16] 人为干预对特征词的影响 - 2024年4月起"delve"、"intricate"等ChatGPT特征词使用频率显著下降 [23] - 实验显示提示词干预可降低LLM特征词频率,但无法完全消除 [25] - Binoculars检测器对提示词修改后的文本敏感度降低,但无法准确区分真实与LLM生成文本 [27] 未来研究方向 - 需通过统计大量文本词汇频率(而非单篇检测)量化AI对学术文献的影响 [28] - 当前MGT检测器准确度受模型类型、文本类别和人为修改策略多重影响 [28] - 亟需建立AI参与学术写作的边界标准和使用规范 [28]
AI:加速能力退化的元凶
36氪· 2025-07-02 15:16
行业认知与LLM依赖 - 过度依赖LLM加速工程师批判性思维退化,技术敬畏成为生存必修课 [1][3] - 工程师将LLM视为伙伴的本质是追求速度至上,但牺牲思考深度和代码质量 [4][5] - 微软研究发现AI使用以牺牲批判性思维为代价,导致能力萎缩 [6] LLM对工程师能力的影响 - 资深工程师失去攻坚成长机会,初级工程师无法建立核心能力 [6] - AI剥夺开发者心流状态和创造乐趣,影响长期职业发展 [7] - LLM无法替代人类工程智慧,但滥用可能导致能力退化和技术债积累 [12][17] 程序理论与LLM局限性 - 编程本质是理论构建活动,程序是心智模型而非代码文本,LLM无法掌握程序理论 [9][10][13] - 实验证明拥有程序心智模型的团队能更高效改造代码,而LLM仅提供表面解决方案 [10][11] - LLM生成代码存在输入输出风险,如逻辑漏洞、XY问题识别失败等 [12] 程序熵与LLM的文本局限性 - 程序开发是熵减过程,维护是熵增过程,人类才能通过设计理念延缓熵增 [14] - LLM作为token预测器仅操作文本层面,无法进行概念性思考或降低代码复杂度 [15] - LLM修改代码常引入多余改动,对话越久偏离设计初衷越远 [15] 行业长期价值与AI定位 - 企业滥用AI可能重蹈离岸开发覆辙,衍生新风险并承受长尾成本 [18] - 人类工程师的核心价值在于技术实力与深度思考,LLM应作为工具而非拐杖 [18][19] - 2019年前被重视的工程核心能力(如理论构建、熵减设计)仍是长期竞争力基础 [19]
大模型时代,通用视觉模型将何去何从?
机器之心· 2025-07-02 08:54
通用视觉模型(VGM)研究背景 - 通用视觉模型(VGM)曾是计算机视觉领域的研究热点,旨在构建统一架构处理图像、点云、视频等多种模态输入及分类、检测、分割等多样化任务,目标是实现「视觉模型大一统」[1] - 随着大语言模型(LLM)的兴起,多模态大模型成为新趋势,视觉被视作语言模型的输入模态之一,其独立性被重新定义,传统VGM研究面临边缘化风险[1] - 视觉数据具有结构化强、空间信息丰富等优势,但存在模态间差异大、难替代的挑战,如2D图像、3D点云和视频流的统一处理问题在当前多模态范式中未充分解决[1] VGM的核心能力与价值 - VGM通过广泛预训练和共享表示实现跨任务零样本迁移,无需为单一任务专门调整,解决了传统视觉模型任务专用化的局限性[7] - VGM具备多模态输入统一处理能力,能将图像、点云、视频等映射到共享特征空间,同时支持多任务并行处理(如图像识别与视频分析)[7][8] - 清华大学团队在IJCV发表的综述系统梳理了VGM研究进展,涵盖输入统一方法、任务通用策略等,为未来视觉模型发展提供参考[2] VGM的技术实现框架 - 编码式框架通过共享特征空间统一输入模态,使用Transformer编码不同数据(如图像、文本),最终生成统一输出[12] - 序列到序列框架借鉴NLP方法,将可变长度输入(如视频)转换为固定表示,适用于图像生成等任务[13] - 多任务学习、视觉-语言学习等技术被用于扩充VGM知识边界,相关领域研究为模型设计提供技术补充[13] VGM的数据与评测体系 - 训练采用大规模多模态数据集(图像/视频/点云),任务分为图像、几何、时间序列等四类,评测注重跨任务泛化能力[9] - 研究对比了主流VGM在22个基准数据集的表现,但未披露具体数据指标[14] VGM的挑战与未来方向 - 当前面临统一框架设计优化、训练效率提升和大规模数据处理等挑战,数据标注仍是发展瓶颈[16] - 自动化标注技术和大规模无监督学习将成为研究重点,需解决模型偏见、公平性等伦理问题[16] - 应用潜力覆盖智能监控、自动驾驶等领域,可扩展至视觉问答、图像-文本检索等复杂任务[16]
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 18:23
大模型架构变革 - 当前大语言模型(LLM)采用思维链(CoT)技术存在任务分解复杂、数据需求大、高延迟等问题 [2] - 分层推理模型(HRM)通过循环架构实现高计算深度,仅需2700万参数和1000个训练样本即可在复杂推理任务中表现卓越 [3][4] - HRM无需预训练或CoT数据,在数独、迷宫路径查找等任务中达到近乎完美性能,并在ARC-AGI基准上超越更大模型 [5][7] HRM设计原理 - 核心灵感源于大脑分层处理和多时间尺度机制:高级模块负责抽象规划(慢速),低级模块处理细节计算(快速) [12][13] - 采用四个可学习组件(输入网络、高低级循环模块、输出网络)实现层级收敛性,H模块稳定收敛,L模块周期性重置 [14][15][17] - 通过一步梯度近似法(O(1)内存)和深度监督机制优化训练效率,避免传统BPTT算法的深层信用分配难题 [19][20][23] 性能与实验验证 - 在ARC-AGI、数独、迷宫任务中,HRM表现出类似深度优先搜索和渐进优化的底层推理算法 [31] - 训练后高层模块与低层模块自然涌现维度层级分化,而非架构固有特性 [33][34] - 具备图灵完备性,可模拟任何图灵机,通过自适应计算时间(ACT)动态调整资源分配 [35][36][27] 技术对比优势 - 相比CoT模型,HRM在符号树搜索任务(如Sudoku-Extreme)中准确率接近100%,而标准Transformer增加深度无效 [10] - 强化学习(RL)需依赖CoT能力且数据效率低,HRM通过密集梯度反馈实现连续空间运算,生物合理性更高 [37][39] - 推理阶段仅需调整计算限制参数Mmax即可扩展性能,无需重新训练 [28]