Workflow
Agents SDK
icon
搜索文档
OpenAI教你做Agent:2025年,评估标准和如何产品化是Agent的重点
Founder Park· 2025-04-25 21:29
AI Agent技术演进 - 2024年至2025年AI agent的行动能力和交互方式发生质变,头部模型厂商将agentic能力融入模型,成为模型竞赛重点之一 [2] - agent获取信息方式从单次搜索决策模式转变为完全自主的Deep Research模式,能同时打开多个网页节省时间 [3] - OpenAI判断agent可调用的工具数量将在几个月内从10个量级扩展到100个量级 [4] - multi agent系统具备更高可控性和优化潜力,通过任务分拆提升整体工作效率 [5] - vertical agent将直接受益于multi-agent系统发展 [6] 开发者工具与评估 - 开发者需要构建agent评估微调飞轮,通过强化微调能力让模型找到正确tool use路径 [7] - 评估器需能将模型输出与权威资料对比或执行代码验证数学正确性,而非简单字符串比对 [8] - 强化微调方法可推动模型在特定行业深入应用,实现专业化能力提升 [20] - 目前AI领域核心问题是评分机制,如何构建高质量任务和评分器成为重要课题 [21] Computer Use创新 - Computer Use处于早期阶段,VM(虚拟机)需要开发者填补空白,可能出现专门做iPhone VM的公司 [10] - computer use应用场景包括无API的传统软件系统自动化,如医疗行业手工操作和Google Maps街景分析 [22] - BrowserBase和Scrapybara等公司提供computer use模型托管服务,开发者可便捷访问底层控制 [25][26] - Arc浏览器开发的Dia项目将agent深度集成到浏览器中,成为浏览器本身的一部分 [29] 开发者实践与API设计 - multi agent系统通过任务分拆使调试更独立,降低修改风险 [31][33] - OpenAI采用"阶梯式API"设计理念,平衡易用性与可定制性,如向量搜索默认配置可逐步调整 [34] - Assistants API的tool use功能(如文件搜索)找到市场契合点,但使用门槛过高需优化 [36] - Responses API优化多轮交互体验,与MCP生态互补,需深入思考如何更好整合 [37] 行业应用与前景 - AI infra公司垂直化发展仍有市场需求,如Runloop AI为AI coding初创企业提供测试虚拟机 [38] - computer use在网络安全领域应用,如探测网站系统漏洞 [42] - 模型在科学研究领域应用被低估,可能加速科研进程 [53] - 旅游行业存在创新机会,期待AI agent打破传统格局 [56]
Agents和Workflows孰好孰坏,LangChain创始人和OpenAI杠上了
Founder Park· 2025-04-21 20:23
行业观点分歧 - OpenAI发布构建AI Agents的实用指南,主张通过LLMs主导Agent设计[2] - LangChain创始人反对严格区分Agent类型,认为理想框架应允许结构化工作流向模型驱动灵活过渡[2] - Anthropic提出"Agentic系统"概念,将Workflows和Agents视为同一系统的不同表现形式[2][12] - 大模型派(Big Model)强调通用型智能体系统,工作流派(Big Workflow)主张模块化工作流构建[2] Agent定义差异 - OpenAI定义Agent为"能代表用户独立完成任务"的宏观系统[10] - Anthropic将Agent明确区分为预设规则的Workflows和动态决策的Agents[12][13] - 实际生产环境中大多数系统采用Workflows和Agents混合模式[16][20] - 建议采用"Agentic程度"的连续光谱概念替代二元分类[21] 技术实现挑战 - 构建可靠Agent的核心难点在于确保LLM每步获取精准上下文[26][27] - 上下文传递问题常源于系统提示不完整、工具描述不当或响应格式错误[28] - 声明式框架可视化清晰但动态性不足,代码优先方案更灵活但控制复杂[6][41] - 多Agent系统需解决通信机制问题,可采用交接或工作流混合模式[45][46] 框架设计维度 - 成熟框架需同时支持Workflows和Agents两种模式[32] - 需平衡可预测性与自主性,不同应用场景需求各异[33] - 理想框架应兼具低门槛(易用性)与高上限(扩展性)[37][40] - LangGraph采用声明式与命令式混合API,支持持久化与流式传输[30][31] 生产环境考量 - Agentic系统通常需牺牲延迟和成本换取任务表现[20][63] - 企业级应用需特殊功能如人工监督、容错机制和长期记忆存储[53][57] - 垂直领域需定制化方案,通用模型难以满足独特业务需求[67] - 框架价值体现在标准化构建方式、调试工具和生产级功能集成[49]
微信上线就近找零工服务;蜜雪冰城利润增加、利润率提高;OpenAI估值奔着3000亿美元而去丨百亿美元公司动向
晚点LatePost· 2025-03-28 20:12
微信零工市场服务 - 微信上线"附近的工作"小程序,覆盖广东江门、河北唐山、江西九江、广东深圳、北京朝阳等地,提供超过2万个政府审核发布的零工岗位 [1] - 微信搜一搜推出"附近的工作"专区,覆盖全国超200个地市,通过智能梳理本地中介机构发布的零工招聘信息 [1] - 微信零工市场服务接入"微工卡"数字化解决方案,提供微信零钱及银行卡结算、合同签约、实时定位打卡、日结保险等服务 [1] 蜜雪冰城业绩表现 - 蜜雪冰城2023年营业收入248.3亿元,同比增长22.3%,净利润44.5亿元,同比增长39.8% [2] - 全球门店总数达46479家,上市20多天股价涨幅超60% [2] - 商品销售毛利率从28.8%提升至31.6%,主要得益于供应链效率提升和原材料采购成本下降 [2] OpenAI融资与技术进展 - OpenAI即将完成400亿美元融资,估值达3000亿美元,软银将投资75亿美元 [3] - 发布GPT-4o图片生成更新,对Agents SDK进行重大更新,支持MCP服务协议 [3] - 新功能可集成文件处理、数据查询和网络信息收集等工具,提高任务效率 [3] 英伟达收购动态 - 英伟达拟以数亿美元收购AI创业公司Lepton AI,该公司专注于AI基础设施和GPU服务器租赁 [5] - Lepton AI由阿里云前副总裁贾扬清创办,2023年完成1100万美元天使轮融资 [5] - 收购可能助力英伟达进军云和企业软件市场,与AWS和谷歌竞争 [5] TikTok交易进展 - TikTok美国业务面临"不卖就禁"最后期限,特朗普表示愿意延长期限并以关税作为谈判筹码 [6] - 美国政府考虑让字节最大的非中国投资者收购TikTok美国业务 [6] 科技行业动态 - Google将停止维护Android开源项目(AOSP),未来所有开发工作将仅在内部分支进行 [7] - 理想汽车宣布开源自研整车操作系统"理想星环OS",投入超十亿元研发费用 [12] - 蔚来拟增发1.1879亿股A类普通股,融资约35亿港元,用于智能电动汽车研发 [11] 汽车行业动态 - 特朗普宣布对所有进口汽车征收25%关税,包括整车和关键零部件 [13] - 奇瑞拟在土耳其投资10亿美元建电动车工厂,年产能20万辆 [14] - 比亚迪发布仰望U7,起售价62.8万元,搭载云辇-Z电悬架和L2+智驾系统 [15] 食品饮料行业 - 雀巢水业务或被多家私募竞购,估值约50亿欧元,包括巴黎水、圣培露等品牌 [8] - 国家发布50项食品安全新标准,要求标示糖和饱和脂肪含量,禁止"零添加"等宣传用语 [10]