开源智能体
搜索文档
开发者TALK双城行,共建开源智能体新生态
新浪财经· 2025-12-25 20:40
行业背景与市场机遇 - IDC预测,中国企业级Agent应用市场规模在2028年保守估计将达到270亿美元 [2][11] - 当前Agent技术在客服、创作、审核等场景已完成初步落地,技术可行性正被不断验证 [1][10] - 行业面临的核心挑战是智能体如何从“Demo演示”走向“实战部署”,解决稳定部署、持续调优和融入现有系统的问题 [1][10] 公司核心平台:讯飞星辰Agent平台 - 平台定位为智能体开发、调优、部署与运营的一站式服务平台,提供高效、可靠、可扩展的智能体能力底座 [2][11] - 平台支持灵活调用星火大模型、主流开源模型及开发者自有微调模型,方便定制专业级智能体 [2][11] - 平台深度整合了原生RPA功能,结合讯飞多项AI能力与通用MCP工具,解决智能体落地时的系统对接问题 [2][11] - 平台已在高校、求职、办公、政务、能源等多个领域实现应用落地 [2][11] - 具体案例:基于该平台打造的求职助手已上线教育部旗下“国家智慧教育公共服务平台”,提供AI简历生成与优化服务 [2][11] 企业级开源平台:Astron Agent - Astron Agent是与星辰Agent平台核心技术一致的企业级开源智能体平台 [3][12] - 继承了星辰平台在AI工作流编排、模型管理、AI与MCP工具集、RPA自动化和团队空间等特性 [3][12] - 基于Apache 2.0协议开源,无任何商业限制,可自由商用 [3][12] - 通过开源的RPA项目,使Agent能真正操作电脑、调用接口,实现业务流闭环 [3][12] - 目前Astron Agent在GitHub上的Star数已突破12000,持续吸引开发者共建生态 [3][12] 技术落地关键:RPA与Agent融合 - RPA(机器人流程自动化)与Agent结合,解决了企业落地“最后一公里”的执行难题 [4][5][13] - RPA通过软件机器人模拟人类操作,自动执行规则明确、重复性强的业务流程 [5][13] - 讯飞自研的星辰RPA具有丰富的自动化组件,提供开箱即用的能力,并支持极简设计开发与企业级控制管理 [5][13] - 星辰RPA已接入讯飞星辰Agent平台,支持在RPA流程中调用已发布的AI工作流节点,并同步实现开源 [6][14] - 应用案例:电商竞品信息监控与分析中,星辰RPA Agent可自动抓取页面信息并分析提取核心卖点、价格等,生成结构化报表,将运营人员从耗时数日的工作中解放 [5][14] 开发者生态与市场活动 - 公司通过“开发者TALK”技术沙龙品牌,在2025年已走进北京、上海等12个城市,吸引了来自头部科技企业和知名高校的数千名开发者参与 [10][16] - 活动通过线下深度交流与实战案例拆解,聚焦大模型、智能体等前沿技术,为开发者搭建对话平台 [9][16] - 在郑州和青岛的活动中,技术专家手把手分享了Astron Agent的部署指南,并详细介绍了Astron RPA的部署方式,许多开发者现场完成了环境配置与首次调用 [3][6][13][14] - 公司已开启首届Astron开源智能体训练营,旨在帮助开发者从零掌握智能体开发和开源协作创新 [8][16] 实际应用案例与开发者反馈 - 郑州轻工业大学梅克尔工作室基于星辰Agent平台,孵化了包括气候稻米品质分析、脊柱侧弯LLM术前规划、智能配肥系统等多个跨领域项目 [7][14] - 具体项目“脊柱侧弯LLM术前规划及力触仿真导航”中,借助平台创建的“脊柱侧弯出题助手”有效帮助实习医生和医学生掌握专业知识 [7][14] - 科大讯飞1024 Astron黑客松冠军分享了“空白面板测试法”等实用调试技巧,并强调通过提示词工程控制Token成本和提高系统响应速度 [8][15] - 开发者关注焦点包括智能体如何更符合业务需求、RPA快速上手、部署方式、执行稳定性及适用边界等问题 [8][15]
开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp
机器之心· 2025-07-07 15:50
背景与问题 - 传统搜索引擎难以满足深层次、多步骤信息获取需求,触及人类认知极限[2] - 开源Web Agent在极端复杂任务上表现不佳,BrowseComp-en基准准确率几乎为零[2] - 闭源系统如DeepResearch已实现"超人类"水平,开源模型存在显著差距[2] - 复杂任务需要多步推理和整合分散线索,如HBO剧集音乐创作者溯源案例[3] 技术创新 数据构造 - 构建SailorFog-QA数据集,包含Level-3高不确定性任务(非线性知识网络、模糊化信息)[8][12] - 通过维基数据选取模糊实体,随机扩展生成复杂知识图谱[12] - 信息模糊化处理(时间、地点、定量数据)提升任务难度[12] - 数据复杂度验证:工具调用呈长尾分布,20%样本需超5次交互[24] 训练方法 - 推理轨迹重构:保留LRM的Action-Observation序列,反向生成简洁推理过程[16] - 两阶段训练:RFT冷启动(数千条高质量轨迹)+ DUPO强化学习[17] - DUPO算法效率提升:训练速度比DAPO快2-3倍,采用动态样本复制策略[18] - 复合奖励机制:同时评估格式规范性与答案准确性[17] 性能表现 - WebSailor-72B在BrowseComp-en准确率达12%,超越所有开源模型[20] - WebSailor-7B以6.7%准确率超过32B规模竞品,验证训练范式优势[21] - 四大基准全面领先:BrowseComp-zh(30.1%)、Xbench-DeepSearch(55%)、GAIA(55.4%)[20] - 简单任务兼容性:在SimpleQA子集上超越直接推理和其他Agent方法[22] 行业意义 - 证明性能提升关键在训练范式革新,非单纯模型规模[27] - 提供通用蓝图:高难度任务合成→精炼逻辑监督→高效强化学习[27] - 推动AI从模仿人类转向构建极限挑战任务[27] - 未来方向:异步强化学习、多模态整合、跨领域综合任务[28]