Workflow
Agents SDK
icon
搜索文档
OpenAI教你做Agent:2025年,评估标准和如何产品化是Agent的重点
Founder Park· 2025-04-25 21:29
AI Agent技术演进 - 2024年至2025年AI agent的行动能力和交互方式发生质变,头部模型厂商将agentic能力融入模型,成为模型竞赛重点之一 [2] - agent获取信息方式从单次搜索决策模式转变为完全自主的Deep Research模式,能同时打开多个网页节省时间 [3] - OpenAI判断agent可调用的工具数量将在几个月内从10个量级扩展到100个量级 [4] - multi agent系统具备更高可控性和优化潜力,通过任务分拆提升整体工作效率 [5] - vertical agent将直接受益于multi-agent系统发展 [6] 开发者工具与评估 - 开发者需要构建agent评估微调飞轮,通过强化微调能力让模型找到正确tool use路径 [7] - 评估器需能将模型输出与权威资料对比或执行代码验证数学正确性,而非简单字符串比对 [8] - 强化微调方法可推动模型在特定行业深入应用,实现专业化能力提升 [20] - 目前AI领域核心问题是评分机制,如何构建高质量任务和评分器成为重要课题 [21] Computer Use创新 - Computer Use处于早期阶段,VM(虚拟机)需要开发者填补空白,可能出现专门做iPhone VM的公司 [10] - computer use应用场景包括无API的传统软件系统自动化,如医疗行业手工操作和Google Maps街景分析 [22] - BrowserBase和Scrapybara等公司提供computer use模型托管服务,开发者可便捷访问底层控制 [25][26] - Arc浏览器开发的Dia项目将agent深度集成到浏览器中,成为浏览器本身的一部分 [29] 开发者实践与API设计 - multi agent系统通过任务分拆使调试更独立,降低修改风险 [31][33] - OpenAI采用"阶梯式API"设计理念,平衡易用性与可定制性,如向量搜索默认配置可逐步调整 [34] - Assistants API的tool use功能(如文件搜索)找到市场契合点,但使用门槛过高需优化 [36] - Responses API优化多轮交互体验,与MCP生态互补,需深入思考如何更好整合 [37] 行业应用与前景 - AI infra公司垂直化发展仍有市场需求,如Runloop AI为AI coding初创企业提供测试虚拟机 [38] - computer use在网络安全领域应用,如探测网站系统漏洞 [42] - 模型在科学研究领域应用被低估,可能加速科研进程 [53] - 旅游行业存在创新机会,期待AI agent打破传统格局 [56]
Agents和Workflows孰好孰坏,LangChain创始人和OpenAI杠上了
Founder Park· 2025-04-21 20:23
行业观点分歧 - OpenAI发布构建AI Agents的实用指南,主张通过LLMs主导Agent设计[2] - LangChain创始人反对严格区分Agent类型,认为理想框架应允许结构化工作流向模型驱动灵活过渡[2] - Anthropic提出"Agentic系统"概念,将Workflows和Agents视为同一系统的不同表现形式[2][12] - 大模型派(Big Model)强调通用型智能体系统,工作流派(Big Workflow)主张模块化工作流构建[2] Agent定义差异 - OpenAI定义Agent为"能代表用户独立完成任务"的宏观系统[10] - Anthropic将Agent明确区分为预设规则的Workflows和动态决策的Agents[12][13] - 实际生产环境中大多数系统采用Workflows和Agents混合模式[16][20] - 建议采用"Agentic程度"的连续光谱概念替代二元分类[21] 技术实现挑战 - 构建可靠Agent的核心难点在于确保LLM每步获取精准上下文[26][27] - 上下文传递问题常源于系统提示不完整、工具描述不当或响应格式错误[28] - 声明式框架可视化清晰但动态性不足,代码优先方案更灵活但控制复杂[6][41] - 多Agent系统需解决通信机制问题,可采用交接或工作流混合模式[45][46] 框架设计维度 - 成熟框架需同时支持Workflows和Agents两种模式[32] - 需平衡可预测性与自主性,不同应用场景需求各异[33] - 理想框架应兼具低门槛(易用性)与高上限(扩展性)[37][40] - LangGraph采用声明式与命令式混合API,支持持久化与流式传输[30][31] 生产环境考量 - Agentic系统通常需牺牲延迟和成本换取任务表现[20][63] - 企业级应用需特殊功能如人工监督、容错机制和长期记忆存储[53][57] - 垂直领域需定制化方案,通用模型难以满足独特业务需求[67] - 框架价值体现在标准化构建方式、调试工具和生产级功能集成[49]
微信上线就近找零工服务;蜜雪冰城利润增加、利润率提高;OpenAI估值奔着3000亿美元而去丨百亿美元公司动向
晚点LatePost· 2025-03-28 20:12
微信零工市场服务 - 微信上线"附近的工作"小程序,覆盖广东江门、河北唐山、江西九江、广东深圳、北京朝阳等地,提供超过2万个政府审核发布的零工岗位 [1] - 微信搜一搜推出"附近的工作"专区,覆盖全国超200个地市,通过智能梳理本地中介机构发布的零工招聘信息 [1] - 微信零工市场服务接入"微工卡"数字化解决方案,提供微信零钱及银行卡结算、合同签约、实时定位打卡、日结保险等服务 [1] 蜜雪冰城业绩表现 - 蜜雪冰城2023年营业收入248.3亿元,同比增长22.3%,净利润44.5亿元,同比增长39.8% [2] - 全球门店总数达46479家,上市20多天股价涨幅超60% [2] - 商品销售毛利率从28.8%提升至31.6%,主要得益于供应链效率提升和原材料采购成本下降 [2] OpenAI融资与技术进展 - OpenAI即将完成400亿美元融资,估值达3000亿美元,软银将投资75亿美元 [3] - 发布GPT-4o图片生成更新,对Agents SDK进行重大更新,支持MCP服务协议 [3] - 新功能可集成文件处理、数据查询和网络信息收集等工具,提高任务效率 [3] 英伟达收购动态 - 英伟达拟以数亿美元收购AI创业公司Lepton AI,该公司专注于AI基础设施和GPU服务器租赁 [5] - Lepton AI由阿里云前副总裁贾扬清创办,2023年完成1100万美元天使轮融资 [5] - 收购可能助力英伟达进军云和企业软件市场,与AWS和谷歌竞争 [5] TikTok交易进展 - TikTok美国业务面临"不卖就禁"最后期限,特朗普表示愿意延长期限并以关税作为谈判筹码 [6] - 美国政府考虑让字节最大的非中国投资者收购TikTok美国业务 [6] 科技行业动态 - Google将停止维护Android开源项目(AOSP),未来所有开发工作将仅在内部分支进行 [7] - 理想汽车宣布开源自研整车操作系统"理想星环OS",投入超十亿元研发费用 [12] - 蔚来拟增发1.1879亿股A类普通股,融资约35亿港元,用于智能电动汽车研发 [11] 汽车行业动态 - 特朗普宣布对所有进口汽车征收25%关税,包括整车和关键零部件 [13] - 奇瑞拟在土耳其投资10亿美元建电动车工厂,年产能20万辆 [14] - 比亚迪发布仰望U7,起售价62.8万元,搭载云辇-Z电悬架和L2+智驾系统 [15] 食品饮料行业 - 雀巢水业务或被多家私募竞购,估值约50亿欧元,包括巴黎水、圣培露等品牌 [8] - 国家发布50项食品安全新标准,要求标示糖和饱和脂肪含量,禁止"零添加"等宣传用语 [10]
OpenAI开放工具包,智能体落地加速
国泰君安· 2025-03-14 19:29
行业投资评级 - 行业评级为“增持” [2] 报告核心观点 - OpenAI于2025年3月12日向公众开放4款AI agent工具包,包括新Responses API、开源Agents SDK、若干内置工具和可观察性工具 [4] - 新工具降低了AI agent应用开发的难度,简化了开发逻辑、编辑方式和交互流程,为AI agent产品开发全面赋能,加速了agent多样化应用的快速落地 [4][9] - OpenAI此举是对谷歌、微软和阿里等竞争者迅速扩大AI agent行业版图的回应,旨在巩固和加强其凭借首个AI agent产品Operator所建立的竞争力和影响力 [9] 工具包具体内容与影响 - **Responses API**:具有网络搜索和文件搜索两项内置工具,其网络搜索工具准确度得分超过同类产品,文件搜索工具在多文件种类、元数据过滤和自定义排序等方面实现升级,能覆盖企业文档管理、市场研究等广泛应用场景,可以显著降低人工检索成本 [9] - **Responses API的计算机操作工具**:由CUA模型支持,可根据代码循环执行点击、输入和滚动等任务,从而促进浏览器或操作系统流程的自动化,提高了agent与外部世界交互的能力,使agent独立执行任务成为可能 [9] - **开源Agents SDK**:可设置agent所采用的LLM模型、内置工具和指令,促进agent智能转换控制权,提供可修改安检机制和可视化跟踪监督流程,适用于自动化客户服务、分步骤研究和潜在客户跟进等场景,令多模型协作趋于简洁,让多线程任务并发处理成为可能,借助极简的操作方式减轻了开发者的代码负担,有助于提高用户留存度 [9] 商业模式分析 - OpenAI采取“免费API+付费工具”的商业模式,不针对Responses API单独收费,而是依照token和其他工具使用情况计费 [9] - 该模式通过“免费API”扩张市场,又借助“付费工具”收回研发费用、增加盈利、实现商业价值,既提供了复杂任务的低成本解决方案以赢得用户和市场,又为公司后续发展提供资金保证 [9] 投资建议与标的 - 报告推荐标的:鼎捷数智、福昕软件、科大讯飞 [9] - 报告受益标的:泛微网络、迈富时、润达医疗 [9] - **科大讯飞**:股价51.8元,预测2024年EPS为0.39元/股,对应PE为132.82倍,评级为“增持” [6] - **福昕软件**:股价69.64元,预测2025年EPS为0.30元/股,对应PE为232.13倍,评级为“增持” [6] - **鼎捷数智**:股价39.57元,预测2024年EPS为0.68元/股,对应PE为58.19倍,评级为“增持” [6]