Workflow
RAG技术
icon
搜索文档
大模型专题:2025年大模型智能体开发平台技术能力测试研究报告
搜狐财经· 2025-08-14 23:48
今天分享的是:大模型专题:2025年大模型智能体开发平台技术能力测试研究报告 报告共计:21页 《大模型专题:2025年大模型智能体开发平台技术能力测试研究报告》对阿里云百炼、腾讯云智能体开发平台、扣子、百度智能云千帆四个典型平台的技术 能力进行了测试,围绕RAG能力、工作流能力、Agent能力三个核心维度展开。RAG能力测试涵盖文本问答、结构化数据问答、图文问答,各平台在文本处 理上表现优异,单文档及多文档问答准确率较高,但拒答与澄清处理存在差异,腾讯云对知识库外问题实现100%拒答;结构化数据问答中,百度智能云千 帆在复杂查询场景表现稳定,多表关联查询准确率较高;图文问答中,阿里云百炼、腾讯云及扣子图片识别能力较强,但配图输出率分化。工作流能力以订 单修改为核心场景,测试参数提取、异常回退等,各平台端到端准确率在61.5%-69.2%,腾讯云意图识别准确率达93.3%,参数提取是主要差异点,整体具 备基础可用性但需优化。Agent能力测试工具调用,各平台单工具调用完成率较高(83%-92%),多工具协同及提示词调用有提升空间,腾讯云表现较均 衡,存在流程断点、技术稳健性不足等问题。总体而言,平台基础能力趋 ...
VLA:何时大规模落地
中国汽车报网· 2025-08-13 09:33
尽管如此,端到端在VLA面前还是"雪却输梅一段香"。清华大学车辆与运载学院助理研究员颜宏伟认 为,端到端模型是将传感器输入数据直接映射为转向、加速等车辆控制指令的单层架构,其核心优势在 于简化流程、减少级联误差。例如,特斯拉于2023年推出的FSD V12,就应用了一段式端到端架构,相 较此前FSD V11的30万行程序代码,V12仅需约2000行代码,减少了对人工规则编程的依赖。但是,行 业有观点认为,端到端模型存在"黑箱",即其中的神经网络权重调整、特征提取以及决策制定过程均通 过数据驱动的自主学习完成,整个信息处理链中不存在显式的逻辑规则或可分解的推理环节。因此,当 遇到异常情况或罕见场景时,模型的决策可能会变得不可预测。通俗地说,也就是在一定程度上缺乏复 杂场景的推理能力。 "VLA能够更好地解决上述问题。"颜宏伟认为,VLA模型的主要优势在于模型一体化以及更强的泛化 性,即应对复杂场景的能力。VLA是多模态大模型驱动的智能体架构,其核心突破在于引入思维链, 通过语言模型实现对环境理解与决策推理的可解释性。例如,在潮汐车道场景中,VLA能通过文本指 令和视觉信号综合判断车道可用性,并通过转向灯与其他车 ...
一文了解 AI Agent:创业者必看,要把AI当回事
混沌学园· 2025-07-16 17:04
AI Agent 的核心重构 - 智能系统的进化本质是对"认知-行动"闭环的迭代 [1] - 大语言模型(LLM)突破在于破解人类语言符号编码逻辑,赋予机器近似人类的语义推理能力 [2] - 当前LLM如同未开化的原始大脑:拥有海量知识但缺乏主动调用能力,能解析逻辑但无法规划连续行动 [3] 记忆系统 - 将静态"知识存储"转化为动态"认知流程"是智能体的第一重突破 [4] - 短期记忆类似工作内存,负责实时处理任务上下文(如多轮对话记忆) [10][11] - 长期记忆作为"认知基因",通过向量数据库储存用户偏好和业务规则(如电商场景的购物偏好记忆) [12] - 双重记忆机制使智能体具备学习能力,能总结经验优化未来决策(如客户投诉处理方案优化) [14][15] 工具调用能力 - 工具调用是智能体突破认知边界的关键 [17] - 相比RAG技术仅提供数据访问,智能体可将外部信息转化为可处理的符号流(如金融数据API调用) [18][19][20] - 工具多样性决定认知边界广度(数学计算器/图片识别插件等场景应用) [26][27] - 在企业办公场景可整合数据分析工具和文档编辑工具完成复杂任务 [24] 规划模块 - 规划模块破解复杂任务的"认知熵增"(如餐厅预订任务的思辨链拆解) [28] - 在项目管理中可拆解子任务、监控进度并动态调整规划 [30][31][32] - 具备自我反思优化能力,通过复盘提升复杂任务处理效率 [34][35] 商业应用前景 - 正在重塑企业软件底层逻辑,重新定义人机协作边界 [36][37] - 完成从"能思考"(LLM)到"知边界"(RAG)再到"会行动"的完整闭环 [38] - 未来可能在医疗(病历分析)、教育(个性化学习)等领域带来变革 [45] - 混沌AI创新院开发了可落地的AI Agent解决方案,已在3000+实战案例中应用 [51][52]
没有RAG打底,一切都是PPT,RAG作者Douwe Kiela的10个关键教训
虎嗅· 2025-07-01 12:09
文章核心观点 - AI在理解上下文和隐性知识方面存在挑战,导致聊天生硬且准确率不足[1][6][11] - RAG技术应用面临工程难度大、专业化要求高、数据护城河构建等核心问题[15][20][26] - 企业AI项目需关注可观测性而非绝对准确率,建立闭环迭代机制[45][46][52] AI技术瓶颈 - 当前AI能覆盖80%场景但业务要求95%准确率[1] - 大模型擅长有限集任务(如围棋)但难以处理语料残缺的隐性知识[8][9][10] - 专家系统需解决医生诊断中的微表情解读、伦理判断等非结构化问题[11] RAG技术实践 - 工程复杂度远超模型:50个SOP需25-50万字提示词,数据工程占80%工作量[15][17][19] - 垂直领域专业化优于通用AI,如法律Harvey、医疗Open Evidence等案例[20][22] - 数据是核心壁垒:企业非结构化数据构建的飞轮系统形成差异化优势[26][28] 生产环境挑战 - 试点项目70分易实现,但生产需处理千万级文档和数万场景[29][30] - 快速迭代比追求完美更重要,初期barely functional即可[33][34][35] - 竞争焦点转向试错速度与资源,但需平衡成本与差异化[36][37][38] 可观测性方法论 - 审计追踪和归因机制比准确率更重要,需记录错误上下文[45][47][48] - 财务审核案例展示4类错误闭环处理:费用标准、发票合规等[51] - 五步方法论:锁定关键字段、显性化规则、双跑道架构等[52] 行业落地建议 - 优先将业务SOP全量导入Workflow,强化基础数据[56] - 建立审计链闭环,积累可观测数据再优化推理[56] - 盘活非结构化资产,通过数据飞轮拉开竞争差距[56][58]
估值72亿美元,红杉加持的这家AI搜索创企什么来头?
证券时报网· 2025-06-14 19:08
融资与估值 - AI初创公司Glean完成1.5亿美元新一轮融资,估值达72亿美元,相比去年9月的46亿美元估值大幅提升 [2] - 本轮融资由威灵顿资产领投,新增投资者包括Khosla Ventures等,老股东红杉资本等也再次参与 [3] - 公司自2019年成立后已完成六轮融资,去年9月E轮融资2.6亿美元 [3] - 资金将用于加速产品开发、发展合作伙伴生态系统及国际扩张 [3] 产品与技术 - Glean从企业内部搜索起步,核心产品为基于RAG技术的企业AI搜索 [4] - 主要产品包括Glean Search(企业内部文件搜索)、Glean Assistant(自然语言查询业务数据)和Glean Agents(创建AI智能体完成任务) [6] - Glean Agents平台每年支持超过1亿个代理,整合100多个软件平台的实时数据 [6][7] - 技术关键在于与企业系统的深入集成、安全权限框架和复杂知识图谱 [9] 市场表现与战略 - 客户包括戴尔等财富500强企业,年度经常性收入从去年9月的5500万美元增长至1亿美元 [7] - 反映企业AI领域从试点项目转向广泛部署自主代理的趋势 [7] - 公司定位为组织智能的上下文系统,致力于AI访问权大众化 [7] - 商业模式强调从用户实际需求出发,先提供关键功能再扩展AI功能 [10] 行业洞察 - 企业搜索比互联网搜索更难,难点在于数据私有性、权限管理和上下文依赖性 [8][9] - 有效AI应用需要强大的数据基础设施支持,否则无法提供真正价值 [9] - 企业AI迭代需从员工实际工作行为中学习,追踪隐性信号形成良性循环 [9] - AI创业者应从解决具体业务问题出发,而非单纯追求AI技术 [9][10]
Dify、n8n、扣子、Fastgpt、Ragflow到底该怎么选?超详细指南来了。
数字生命卡兹克· 2025-05-27 08:56
LLM应用平台概述 - LLM应用平台核心价值在于降低AI开发门槛,加速产品落地,提供整合工具集如插件和MCP工具 [2] - 平台让开发者更专注业务逻辑和用户体验创新,而非底层技术构建 [3] - 主流平台包括Dify、Coze、n8n、FastGPT和RAGFlow,各有特色 [4][5][6][7][8] 平台详细分析 Dify - 定位为开源LLM应用开发平台,融合BaaS和LLMOps理念 [7] - 提供一站式AI开发与运营能力,包括Agent工作流和RAG Pipeline [7][10] - 支持Docker私有化部署,最低配置2核4G服务器 [16] - GitHub星数98.3K,社区活跃但功能广度大于深度 [16] - 适合技术开发者和需要定制化解决方案的企业 [20] Coze - 字节跳动旗下无代码AI Agent开发平台 [21] - 内置上千款工具插件,支持多平台发布 [21][25] - 提供海外版(Coze)和国内版(扣子),功能丰富但闭源 [24][27] - 适合AI入门用户、产品经理和预算有限的小团队 [29] FastGPT - 开源AI知识库平台,专注RAG知识库构建 [30] - 支持多种文档格式导入,提供与OpenAI兼容的API [33][36] - 推荐2核4G服务器配置,GitHub星数24.2K [37][39] - 适合构建企业内部知识库和AI客服的场景 [35] RAGFlow - 开源RAG引擎,专注深度文档理解 [39][40] - 支持10+数据预处理类型,知识库效果上限高 [40][41] - 部署要求较高,需4核16G服务器配置 [43] - GitHub星数53.1K,适合法律、医疗等专业领域 [45] n8n - 开源低代码工作流自动化工具 [46] - 提供400+预置集成,支持JS/Python定制 [49] - 案例显示可显著提升工作效率 [52] - 部署轻量,1核1G服务器即可运行 [56] - 适合需要高度定制自动化流程的团队 [57] 平台对比分析 - 功能对比表显示各平台在核心焦点、开源性、部署方式等方面的差异 [60] - Coze目前主要功能免费,Dify和n8n有付费订阅选项 [59][60] - RAG能力方面,RAGFlow最强,FastGPT次之 [60] - 易用性方面,Coze对新手最友好,n8n学习曲线较陡 [60] 选型建议 - 新手建议从Coze开始,逐步过渡到专业平台 [61][75] - 知识库需求优先考虑FastGPT或RAGFlow [63] - 企业级应用建议选择Dify的完整生态系统 [63] - 选型需考虑预算、技术能力、部署方式等关键要素 [68][69][70][71][72]
医疗影像大模型,还需“闯三关”
36氪· 2025-05-19 07:14
医疗大模型应用现状 - 医学影像大模型已在影像科医生工作全流程中实现常态化应用,从辅助工具进化为诊疗生态核心驱动力[1] - 数坤科技发布"数坤坤多模态医疗健康大模型",探索多模态精准诊断、个性化治疗决策等方向[1][2] - 透彻未来研发全球首个临床应用级病理大模型"透彻洞察",基于亿级参数和海量高精度病理数据训练[2] 技术突破与解决方案 - 病理大模型通过通用特征底座方案解决病灶分割、细胞检测等多任务泛化性挑战,简化传统数十个小模型部署流程[3] - 采用RAG技术动态更新知识库内容,结合生成式与判别式AI协同验证,降低医疗大模型幻觉风险[8][9] - 通过统一多模态架构整合影像/文本数据,采用医学思维链训练增强推理能力,实现分步验证[9] 模型泛化能力提升路径 - 数据维度:扩大样本多样性,模拟不同设备/体位/病变阶段特征,覆盖长尾病例[4][6] - 模型维度:增加参数量至亿级,改进训练策略如临床指标加权损失函数,防止过拟合[6] - 部署维度:建立三级医院与基层医院的多场景反馈闭环,明确AI能力边界并由医生把关[7] 医院部署模式演进 - 医疗一体机成为主流选择,集成硬件/软件/大模型满足数据本地化与合规性要求[10] - 纯图像大模型可适配家用GPU,通用大模型需本地数据微调,一体机实现专科与通用场景覆盖[10] - 公有云部署在远程会诊中展现弹性算力优势,但面临数据隐私合规风险[11] 未来发展趋势 - 性能层面:医疗大模型敏感度达100%基础上提升特异性,应用医院数量从三四千家扩展至超万家[12] - 多模态融合:打破影像/文本独立发展局面,整合多维数据提升诊断准确性与个性化治疗支持[12] - 全科化演变:大模型向数字化"全科医生"发展,综合检查检验/影像/病理等多维度诊疗信息[12][13]
未知机构:脱水研报丨AI时代不可替代的“必需品”!未来软件=Agent+数据库;人形机器人运动能力的核心,这类材料同时具备“工艺+设计”-壁垒——0506-20250507
未知机构· 2025-05-07 11:55
纪要涉及的行业和公司 - **行业**:数据库、永磁材料、军工、工控 - **公司**:达梦数据、金力永磁、太极股份、海量数据、软通动力、创意信息、星环科技、超图软件、拓尔思、正海磁材、宁波韵升、英洛华、英思特、中兵红箭、航天彩虹、中航沈飞、中航西飞、图南股份、航宇科技、汇川技术、禾川科技、宏发股份、信捷电气、麦格米特、埃斯顿、弘讯科技、合康变频、科华恒盛、科士达、智光电气、大豪科技、鸣志电器、英威腾、新时达、正弦电气、伟创电气、雷塞智能、天川科技 纪要提到的核心观点和论据 数据库行业 - **核心观点**:AI Agent发展推动软件形态变革,数据库成AI时代必需品,AI赋能推动数据库自身升级,加速行业发展 [1][3] - **论据**: - **DB for AI**:AI Agent可替代中间应用层软件,直接与数据库交互;数据库承载数据,治理数据源头,向量数据库等产品和技术赋能AI,缓解大模型推理问题;OpenAI、OceanBase、海量数据等公司有相关动作 [4][6][7] - **AI for DB**:智能运维可实现对数据库系统实时监控等;降低操作门槛,用户可用自然语言查询;数据库自治模式可自我管理;达梦数据、GaussDB等公司利用AI优化数据库 [8] 永磁材料行业 - **核心观点**:关节伺服电机是核心,磁组件设计适配构筑壁垒,磁材企业话语权和附加值提高,磁组件材料设计新时代或来临 [10][16] - **论据**: - 人形机器人对电机有独特功能诉求,无框力矩电机等契合需求,关节结构待完善,磁组件设计适配重要 [10] - 磁组件生产工序繁杂,永磁材料磁性能核心,牌号储备决定定制化能力,烧结钕铁硼优势突出 [11][12] - 磁组件需契合电机结构,磁钢形状设计和固定方法可提升附加值,构筑企业壁垒 [14] 军工行业 - **核心观点**:2024年行业基本面承压,利空消化彻底,2025Q1订单下达,存货及合同负债改善,景气度Q2 - Q3向下游传导,25 - 27年将保持高景气 [17][22] - **论据**: - 2024年营收和盈利处近年低位,2025Q1部分企业业绩扭亏,核心标的营收和净利润同比下降,船舶行业业绩释放,上游企业收入好转 [17] - 一季度除有源器件外,其余子版块存货正增长,中下游企业明显,预收款及合同负债改善,公司在手订单及存货充足 [18][21] 工控行业 - **核心观点**:行业底部已现,复苏开启,龙头利润超预期,二线稳健增长,需求复苏、出海业务进展、人形机器人方向有布局 [24] - **论据**: - **需求复苏**:25Q1工控板块收入和归母净利润同比增长,毛利率承压但部分公司利润率增长,经营性现金流改善,合同负债增长,各产品品类需求复苏 [25][26][27][28] - **出海业务**:东南亚市场部分公司增长快,欧美市场部分公司有进展,全球市占率低,替代空间大,预计H1有“抢装潮” [29] - **人形机器人方向**:各工控企业卡位核心零部件及其总成,有电机、驱动及编码器等系列产品 [30][31] 其他重要但是可能被忽略的内容 - 军工行业作为强内需行业,几乎不受对等关税影响,国际局势不确定时应重视板块配置价值,优先关注精确打击武器等方向 [22] - 工控行业25Q1低压变频/交流伺服/中大型PLC/小型PLC销售额同比增速分别为 +1.0%/+4.5%/+20.3%/+13.6% [28] - 各行业研报来源及分析师信息 [32][33]