工作流能力

搜索文档
大模型专题:2025年大模型智能体开发平台技术能力测试研究报告
搜狐财经· 2025-08-14 23:48
今天分享的是:大模型专题:2025年大模型智能体开发平台技术能力测试研究报告 报告共计:21页 《大模型专题:2025年大模型智能体开发平台技术能力测试研究报告》对阿里云百炼、腾讯云智能体开发平台、扣子、百度智能云千帆四个典型平台的技术 能力进行了测试,围绕RAG能力、工作流能力、Agent能力三个核心维度展开。RAG能力测试涵盖文本问答、结构化数据问答、图文问答,各平台在文本处 理上表现优异,单文档及多文档问答准确率较高,但拒答与澄清处理存在差异,腾讯云对知识库外问题实现100%拒答;结构化数据问答中,百度智能云千 帆在复杂查询场景表现稳定,多表关联查询准确率较高;图文问答中,阿里云百炼、腾讯云及扣子图片识别能力较强,但配图输出率分化。工作流能力以订 单修改为核心场景,测试参数提取、异常回退等,各平台端到端准确率在61.5%-69.2%,腾讯云意图识别准确率达93.3%,参数提取是主要差异点,整体具 备基础可用性但需优化。Agent能力测试工具调用,各平台单工具调用完成率较高(83%-92%),多工具协同及提示词调用有提升空间,腾讯云表现较均 衡,存在流程断点、技术稳健性不足等问题。总体而言,平台基础能力趋 ...