Workflow
Eureka
icon
搜索文档
AI Agent进化之路:从RPA执行到多智能体协同的数字化转型引擎
搜狐财经· 2025-07-01 07:42
AI Agent技术发展 - AI Agent从实验室走向企业应用场景 成为推动自动化解决方案的重要力量 [1] - 市场上涌现字节跳动"扣子空间"、OpenManus开源社区、AutoGLM深度智能探索、实在智能TARS-RPA-Agent等多样化产品 [1] - 技术重新定义人机协作方式 拓宽技术边界 [1] RPA与AI Agent融合 - RPA从"规则驱动"转变为"智能决策" 形成"RPA+AI"新型自动化模式 [2] - Automation Anywhere的AI Agent Studio通过低代码平台实现自然语言指令转自动化流程 [2] - 实在智能TARS-RPA-Agent具备意图理解能力 在复杂环境中自主调整策略 实现从执行者到决策者的升级 [2] 垂直领域应用 - 金融领域:招商银行、华夏银行采用实在智能RPA Agent实现信贷审核、反洗钱流程100%自动化 人工错误率归零 [4] - 设计领域:Lovart支持全链路设计流程 通过多模态模型调度和增强型画布编辑器实现人机自然语言协作 [4] 开源生态推动 - OpenManus完全开源Manus核心功能 打破AI产品封闭性 [4] - AutoGLM模拟人类思维过程 完成数据检索至报告生成全流程任务 [4] - "开源+垂直"模式降低技术门槛 加速生态扩展 [4] 多Agent协同趋势 - 字节跳动扣子空间通过MCP协议实现跨平台工具集成 扩展AI Agent功能边界 [5] - 智慧芽Eureka平台构建技术创新领域Agent生态 形成"Agent Store"模式 [5] - AI Agent从单体工具向多Agent协同演进 依赖开放生态而非单一功能堆砌 [5] 技术与场景融合 - 实在智能TARS-RPA-Agent在金融领域广泛应用 [7] - OpenManus推动开源社区发展 AutoGLM探索深度智能 [7] - AI Agent成为企业数字化转型核心驱动力 引领智能化变革 [7]
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 12:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]
多模态推理新基准!最强Gemini 2.5 Pro仅得60分,复旦港中文上海AILab等出品
量子位· 2025-06-06 21:45
多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准,全面评估多模态大模型(MLLMs)的推理能力,涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目,其中84.85%为新增题目,15.15%为抽样题目,题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖,聚焦K12以下难度,避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论,归纳推理从大量案例学习规则,溯因推理通过结论反推前提[5] - 评估维度包括五种能力:模式分析、规划与探索、空间与时间、计算、因果链分析,每道题目标注1-5种能力[11] - 题目难度分为三级,图像类型包含单图(58.50%)和多图(31.57%)问题,学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T),显示基准挑战性极强[2][18] - 模型表现存在显著偏差:演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0),溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版,如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差,规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限,可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应:输出token超1k时准确率提升趋缓,o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为,包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型,Qwen2.5-VL-72B最高34.1分,仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]
【七彩虹教育】架构介绍
搜狐财经· 2025-06-04 03:05
微服务架构技术栈 - 后端采用SpringCloud+SpringBoot搭建微服务框架,前端基于微信小程序商城 [1] - 核心组件包括:服务网关Zuul、服务注册发现Eureka+Ribbon、服务框架Spring MVC/Boot、服务容错Hystrix [1] - 分布式技术栈涵盖:Redis分布式锁、Feign服务调用、Kafka消息队列、私有云盘文件服务 [1] - 辅助组件包含:UEditor富文本、xxl-job定时任务、Apollo配置中心 [1] 秒杀系统设计 - 秒杀场景特点为瞬时高并发流量(远大于库存量)、简单下单业务流程 [1] - 架构设计四大理念:限流(控制后端流量)、削峰(通过缓存/消息中间件)、异步处理(提升并发)、内存缓存(减少数据库I/O瓶颈) [1] - 系统需具备弹性扩展能力以应对流量波动 [1] 电商技术架构 - 基础设施包含:ZK/Eureka注册中心、MySQL集群(读写分离)、Redis集群(缓存/热点数据/分布式锁) [3] - 流量处理采用Nginx+Keepalived负载均衡、CDN加速、Gateway网关 [3] - 数据服务层部署ES集群(全文检索)、Kafka消息中间件(业务解耦) [3] - 服务调用通过Dubbo/Feign实现RPC远程通信 [3]
智慧芽发布AI Agent平台Eureka,首批上线近20个专业化AI智能体
IPO早知道· 2025-04-26 10:16
据 IPO早知道消息, 4月25日,AI驱动的科技创新和知识产权信息服务商智慧芽发布"更懂技术创新 的AI Agent平台Eureka"。Eureka专注于为知识产权、研发、生物医药、材料、科创等技术创新场 景,提供一系列高度专业化的AI Agent,首批上线近20个,包括查新检索、专利说明书撰写、技术 方案探索、技术问答、生物医药百科问答、材料性能分析等。 这些 "专家型"AI智能体能够真正理解 用户需求,结合业务场景的工作流,自主拆解并精准完成复杂任务,有望解放70%以上的生产力。 由AI中台支持,显著降低幻觉。 本文为IPO早知道原创 作者|罗宾 微信公众号|ipozaozhidao 图:智慧芽查新检索 AI Agent 示意 智慧芽创始人兼 CEO张济徽表示:"AI技术发展至今,通用大模型虽然功能强大,但面对专业领域的 深度问题仍力不从心。这正是我们Eureka平台的核心竞争力所在,在技术创新领域,智慧芽的AI Agent凭借其专业数据储备和行业Know-how积累,能够更精准、更高效地自主完成复杂工作流。令 人欣喜的是,这些Agent已在实际应用中带来了显著的降本提效成果,不少客户愿意为这种实质性价 ...
智慧芽张济徽:AI Agent时代的垂直领域机遇在哪? | 红杉Family
红杉汇· 2025-04-20 16:00
AI大时代真正来临 - 春节后各行业对AI的态度从观望转向实际行动,企业高管积极寻求AI应用方案 [2] - 智慧芽即将发布垂直领域AI Agent平台Eureka,聚焦技术创新场景 [1] AI时代的商业模式和SaaS创新 - SaaS收费模式从账号订阅转向按使用量(调用次数/token/任务完成量)计价,体现价值导向 [3] - 混合模式成为过渡方案:保留账号形式但设置用量软上限,平衡客户预算与使用灵活性 [4] - 产品需确保高频使用才能维持客户付费意愿,对SaaS供应商提出更高要求 [4] AI Agent时代的垂直领域机遇 - 垂直Agent通过限定任务范围(如专利分析)有效降低大模型幻觉问题 [6] - 专业壁垒存在:智慧芽专利翻译优于谷歌,因采用专利术语专项训练 [6] - Agent需分阶段推进(L2-L5),通过交互设计增强用户掌控感以建立信任 [8] - 当前Agent已在专利查新等场景实现效率提升(1-2天→0.5-1小时),明确ROI说服客户 [9] 智慧芽AI路径:专注技术创新 - 短期聚焦专利相关AI化(生物序列/化合物),目标年内做到全球专利Agent第一 [11] - Eureka平台四大主线:IP、通用研发、生物医药、材料,支持第三方Agent接入 [12] - 部署策略:先推SaaS版验证价值,再开放本地化部署满足客户RAG需求 [13] AI的未来发展 - AGI争议:LLM统计学习存在局限,需结合其他能力突破理论创新瓶颈 [15] - Agent组织化将重构企业协作模式,未来创业团队可能大幅精简人力 [16] - 大模型厂商是潜在颠覆者,但垂直领域数据壁垒(如专利加工数据)仍具防御性 [17][18]
智慧芽张济徽:AI Agent时代的垂直领域机遇在哪? | 红杉Family
红杉汇· 2025-04-20 16:00
AI Agent成为AI领域下一个重点 - Agent(智能体)已成为AI领域下一个重点发展方向 智慧芽即将发布AI Agent平台Eureka 开启全新AI战略[3] - 春节后各行业对AI态度从观望转向实际行动 企业高管主动寻求AI解决方案[4] AI时代SaaS商业模式转型 - SaaS收费模式从账号订阅转向按使用量(调用次数/token/任务完成量)收费 体现价值导向[5] - 混合模式成为过渡方案 保留账号形式但设置用量"软上限"以优化销售周期[5] - OpenAI拟推出月费2000美元的博士级Agent模型 研发领域存在高端替代机会[5] 垂直领域AI Agent发展优势 - 垂直领域可有效控制幻觉问题 通过任务拆解分配至专业Agent(如专利分析Agent)实现精准服务[7] - 专利翻译等细分场景存在专业壁垒 垂直数据训练效果优于通用工具(如谷歌翻译)[7] - Agent需分阶段发展(L2-L5) 通过渐进式交互建立用户信任 当前应保持用户"驾驶舱"掌控感[8] AI Agent落地价值验证 - 专利查新报告生成时间从1-2天缩短至0.5-1小时 明确ROI提升推动商业化[9][10] - 现阶段核心价值在于降本增效 准确性持续迭代中 但已满足客户付费阈值[10] 智慧芽AI战略布局 - 短期聚焦专利相关生物序列/化合物分析 目标年底成为全球专利Agent第一[12] - Eureka平台四大主线:IP知识产权 通用研发 生物医药 材料科学[13] - 支持SaaS+本地部署双模式 允许客户结合自有数据(如研发报告)进行RAG增强[14] 行业竞争与壁垒分析 - 大模型厂商是潜在颠覆者 但垂直领域数据积累构成核心壁垒(如专利数据处理经验)[16] - 持续降低特定场景幻觉率可形成差异化优势 需紧跟技术迭代保持竞争力[16] 未来组织形态演变 - Agent间协作(Agent2Agent)可能重构企业工作流 未来创业团队规模将大幅精简[16] - 21世纪科技发展呈"压缩"特征 但LLM统计学习局限性与AGI实现路径仍存争议[15]
提出机器人自主学习新范式,深大团队最新顶会论文,刷新6大复杂任务SOTA
量子位· 2025-03-14 19:22
文章核心观点 - 深圳大学李坚强教授团队联合鹏城国家实验室、北京理工莫斯科大学提出奖励函数与策略协同进化框架ROSKA,该框架在多个高维度机器人任务中表现优异,相比现有SOTA方法有显著性能提升,成果被人工智能顶级会议AAAI 2025收录 [1][2][3] 分组1:ROSKA框架提出背景 - 机器人技术应用广泛,但多自由度机器人控制领域传统强化学习方法依赖人工设计奖励函数,对开放环境下机器人自主学习构成挑战 [3] - 传统奖励函数设计依赖专家经验,周期长、成本高,大语言模型虽提供新思路,但现有方法训练效率低、浪费计算资源 [5] 分组2:ROSKA框架特点 - 创新融合大语言模型推理与代码生成能力,实现奖励函数与强化学习策略协同进化 [3] - 采用奖励 - 策略协同进化机制,将奖励函数设计与策略优化紧密结合形成动态闭环,减少数据使用量并提升策略性能 [6] - 通过将奖励函数和策略进化过程结合,相互促进、共同优化,提高训练效率和策略适应性、可塑性 [8] - 在策略进化部分融合历史最优策略和随机策略生成新策略候选,用贝叶斯优化方法确定最优融合比例 [9][10] 分组3:实验情况 - 在Isaac Gym仿真环境中对六个代表性机器人任务评估,涵盖简单运动控制到复杂物体操作 [11] - 采用人类归一化得分作为评价指标,ROSKA在所有任务中HNS超人类专家基线,性能优于人类设计奖励函数 [12] 分组4:实验结果 - 相比SOTA方法Eureka,ROSKA在HNS指标上平均改进率达95.3%,在ShadowHand任务提升154.6%,在ShadowHandUpsideDown任务提升184.07% [13] - 在仅使用89%训练样本情况下,相比现有SOTA方法在多个高维度机器人任务上平均性能提升95.3%,验证强大适应能力 [2][14]