Workflow
AI Agent
icon
搜索文档
速递|OpenAI升级其Operator的底层模型,推理模型o3全面接棒GPT-4o
Z Potentials· 2025-05-25 12:37
OpenAI AI代理Operator模型升级 - OpenAI正在将Operator代理的AI模型从定制版GPT-4o升级为基于o3的新模型 o3是OpenAI最新o系列"推理"模型之一 升级后API版本仍保持基于4o不变 [1][2] - o3模型在数学和推理任务上表现显著优于GPT-4o 针对计算机使用场景进行了额外安全数据微调 包含专门教授模型决策边界的数据集 [2][3] - o3 Operator在安全评估中表现优异 相比GPT-4o更少拒绝执行"非法"活动或搜索敏感数据 对提示注入等攻击抵抗力更强 采用与4o相同的多层安全防护机制 [3] 行业竞争格局 - 各大AI公司竞相开发高度复杂的智能体工具 这些智能体可基本无需监督完成各种任务 [2] - 谷歌通过Gemini API提供"计算机使用"智能体和面向消费者的Mariner服务 Anthropic的模型也具备执行计算机任务的能力 [2] 技术细节 - o3 Operator继承了o3的编程能力 但不具备直接访问编程环境或终端的原生权限 [3] - 模型升级涉及云端托管的虚拟机使用特定软件 代理可自主浏览网页满足用户需求 [1]
深度|Anthropic首席产品官:从Claude到MCP,最好的AI产品不是计划出来的,是从底层自发长出来的
Z Potentials· 2025-05-25 12:37
AI生成内容的未来 - AI生成内容的核心问题不是真假之辨,而是内容的可信度与能否引发共鸣 [3] - 长期来看,大多数内容将由AI生成,"是否AI生成"的问题将变得无意义 [3][7] - 未来重点将是内容的来源、溯源和引用问题,AI反而可能更有助于解决这些问题 [3][7] - AI只是讲故事者工具箱中的一个工具,关键在于能否讲出吸引人的故事 [3] AI产品开发方法论 - 优秀AI产品的标准始终是能否解决真实问题 [4] - 最好的AI产品往往不是计划出来的,而是从底层自发长出来的 [5][7] - 产品开发路径应从"自上而下"转为"自下而上" [5][7] - Artifacts最初是一个研究原型,后来才进入产品化阶段 [5] - MCP协议起源于两个工程师的"小火花",后来发展为行业标准 [6] MCP协议的发展 - MCP最初设计目标是引入上下文,现已能集成GitHub、触发Zapier等操作 [8] - 下一阶段目标是让模型不仅能"理解"还要能"行动",自动执行工作流 [8] - 未来将探索AI Agent之间的协作,可能形成新的AI经济系统 [8] - 公司内部已开始讨论"Agent雇佣其他Agent"的场景 [8] AI在编程领域的应用 - 公司内部超过70%的Pull Request由Claude代码生成 [10] - 模型生成的代码是否用户喜欢用比Benchmark分数更重要 [10] - 正在探索生成式AI在整个开发流程中的定位 [10] - 面临代码审查、技术架构可控性等新问题 [10] AI对组织效率的影响 - AI让工程效率提升后,组织中的"非工程环节"低效变得更加明显 [11] - 以前一个对齐会议耽误一个工程师一小时,现在等于耽误8小时的AI产出 [11] - 模型可以总结会议、提出建议,但还无法帮助做出组织层面的决策 [11] AI在组织中的应用 - 非技术团队如销售团队开始主动使用模型 [12] - 公司内部文化发生变化,从犹豫使用AI到鼓励使用AI [13] - 内部工具帮助打破"AI使用羞耻感",推动AI融入日常工作 [13] - 模型被用作"思维合伙人",用于战略文档、绩效评语等 [12] AI Agent发展方向 - 目标是让AI Agent成为下一代"数字员工" [14] - 需要配套系统:记忆能力、高级工具调用、自动适应组织结构、可验证性 [14] - 模型不仅要更强大,还需要一整套配套系统支持 [14] - 不打算做生态里的每一个环节,但希望成为构建的基石 [14] AI产品面临的挑战 - AI产品对新手来说仍然太难用 [16] - 使用路径稍微偏离主线,效果就会大打折扣 [16] - 模型能力很强,但实际能用好的用户太少,潜力远未释放 [16] - 与当前偏重"工作场景"而非"日常娱乐"有关 [16] 研究与应用平衡 - 产品团队需要思考如何充分利用研究成果 [18] - 理想AI产品团队应包括产品经理、工程师、Applied AI人员、微调团队成员 [18] - 目前只有约10%的研究人员参与到产品中 [18] - 基础性研究如让模型更好执行指令仍在投入 [18] AI Agent交互协议 - 关键问题是Agent要不要透露信息、透露多少 [19] - 模型本能想"讨好"用户,容易透露太多或过度保守 [19] - 另一个挑战是如何在大规模部署时进行可审计 [19] - 这些问题既是产品设计问题,也是研究课题 [19] AI应用层产品常见问题 - 很多AI产品从"轻量AI"开始,逐步变"重AI",但结构拖后腿 [20] - 应用没有暴露足够多的"操作原语"给模型使用 [20] - 应该先考虑AI怎么用产品,让AI成为产品的"主要使用者" [20]
通信行业周报:谷歌AI亮眼,坚定看好全球AIDC产业链
开源证券· 2025-05-25 12:25
报告行业投资评级 - 看好(维持)[1] 报告的核心观点 - 谷歌开发者大会发布多款AI新品,用户量持续攀升,大厂陆续宣布支持MCP,助力AI Agent加速发展,持续看好国产AI算力产业链、卫星互联网、6G等七大产业方向 [3][4][5] 根据相关目录分别进行总结 周投资观点 谷歌开发者大会发布多款AI新品,用户量持续攀升 - 2025年5月21日,谷歌I/O开发者大会发布多款AI模型、AI应用、AI Agent等产品,Gemini系列模型全面升级,Imagen 4和Veo 3等多模态模型功能增强,Gemini模型将登陆多平台赋能终端产品,AI Agent产品功能丰富且计划扩展平台 [11][13][15] - 截至5月21日,谷歌每月token处理数量达480万亿,同比提升超50倍,超700万名开发者用Gemini搭建AI应用,是去年的5倍,Gemini应用有4亿月活用户,使用2.5 Pro模型的用户活跃度上涨45% [13] - 谷歌搜索方面,截至5月21日,AI Overviews月活用户达15亿,新上线“AI Mode”功能强大,可用于多方面 [14] 大厂陆续宣布支持MCP,助力AI Agent加速发展 - 5月19 - 22日,字节、微软、谷歌、OpenAI等大厂陆续宣布支持MCP协议,随着A2A协议和MCP生态完善,AI Agent开发效率和交互能力有望提升,加速AI应用落地 [16] 投资建议 - 展望2025年,看好国产AIDC算力产业链、海外AIDC产业链以及AI应用、运营商、卫星互联网&6G等板块投资价值,建议重视七大产业方向,包括AIDC机房建设、IT设备、网络设备、算力租赁、云计算平台、AI应用、卫星互联网&6G,并给出各方向推荐标的和受益标的 [17][18][19] 市场回顾 - 本周(2025.05.19 - 2025.05.23),通信指数下跌2.3%,在TMT板块中排名第三 [24] 通信数据追踪 5G - 2025年3月底,我国5G基站总数达439.5万站,比2024年末净增14.5万站;3月,三大运营商及广电5G移动电话用户数达10.68亿户,同比增长22.20%;3月,5G手机出货1942.4万部,占比85.3%,出货量同比增长9.52% [25] 运营商 - 云计算方面,2024年中国移动、中国电信、中国联通云营收分别达1004亿元、1139亿元、686亿元,同比分别增长20.4%、17.1%、17.1% [41] - 三大运营商ARPU值方面,2024年中国移动、中国电信移动业务ARPU值分别为48.5元、45.6元,同比分别略减1.6%、略增0.4%;2023年中国联通移动业务ARPU值为44.0元,同比略减0.7% [41]
业界对 Agent 的最大误解:它能解决所有问题
AI前线· 2025-05-25 12:24
AI Agent 的核心观点 - 业界对 AI Agent 的最大误解是认为它能解决所有问题,实际上 AI 并非万能,需回归业务场景验证价值 [1][2] - AI Agent 的规模化应用拐点已至,但需避免过度神化技术,重点在于解决企业核心业务问题 [1][28] - 企业级 AI 的本质是业务重构而非炫技,需结合全栈技术、行业 Know-How 和开放生态实现可量化成果 [30] AI Agent 的技术特性 - 区别于传统 AI 助手,AI Agent 能自主规划任务路径、调用多系统资源并动态优化策略 [4] - "假智能体"可通过算力需求识别:真 Agent 需持续消耗算力自主运行,传统自动化工具仅需低算力 CPU [4] - IBM 内部 AskIBM 平台展示 Agent 能力,可自动路由员工查询至 HR、IT 等垂直领域智能体实现全流程自动化 [4] 规模化挑战与解决方案 - 企业规模化应用 AI Agent 面临三大难题:异构系统连接、高 ROI 场景选择、全生命周期管理 [5][6] - watsonx Orchestrate 的三层架构: - 开箱即用垂域智能体(HR、销售、采购智能体,6 月上线)可解决 90% 标准化问题 [8] - 多智能体编排支持跨智能体协作,如销售→市场→客服智能体自动串联 [9] - 开放生态集成 80+ 企业应用(Salesforce、SAP 等),避免重复开发接口 [10] 数据准备与治理 - AI Agent 依赖高质量数据,企业需评估数据可用性及实际作用,90% 非结构化数据未被充分利用 [12] - watsonx.data 通过语义层整合结构化和非结构化数据,自然语言查询准确率高于 RAG 技术 [14][17] - 数据治理工具 watsonx.data intelligence 统一管控多访问方式权限,封装 API/向量数据库供 Agent 实时调用 [18] 流程自动化与集成 - 企业平均上千个异构系统需与 AI Agent 打通,Hybrid Integration 提供跨平台集成能力解决"次元壁"问题 [22][23] - AgentOps 实现全链路可视化运维,Instana 工具实时监控响应延迟并自动扩容 [24] - 27% 云计算浪费可通过自动化平台优化,IBM 收购 HashiCorp 强化基础设施生命周期管理 [26] 业务落地策略 - 企业需分阶段迭代验证 AI Agent ROI,30 天 POC 周期内每周调整方案,优先选择研发/生产/供应链/财务等高价值场景 [29] - 制造业案例显示,IBM 内部已验证 HR、财务、采购智能体的高 ROI,可作为企业模板 [29] - 完备 IT 基础设施是 AI 落地前提,企业需先补齐基础能力再寻找场景痛点 [28][30]
通信行业周报:谷歌AI亮眼,坚定看好全球AIDC产业链-20250525
开源证券· 2025-05-25 11:41
报告核心观点 - 看好通信行业,谷歌发布多款AI新品且大厂支持MCP,持续看好国产AI算力产业链、卫星互联网、6G等七大产业方向 [1][3][5] 周投资观点 谷歌开发者大会发布多款AI新品,用户量持续攀升 - 2025年5月21日谷歌I/O开发者大会发布多款AI产品,Gemini系列语言模型全面升级,如Gemini 2.5 Pro Deep Think强化推理能力、Gemini 2.5 Flash注重效率成本、Gemini Diffusion文本生成速度快,还引入新功能 [11][12] - 多模态模型方面,Imagen 4支持高分辨率和定制,Veo 2和Veo 3新增功能且Veo 3可直接生成有声视频,截至5月21日谷歌月处理token量同比提升超50倍,超700万开发者用Gemini搭建应用,Gemini应用月活4亿,2.5 Pro模型用户活跃度涨45% [13] - AI应用上,Gemini将登陆多平台,谷歌搜索AI Overviews月活15亿,新上线“AI Mode”功能强大,可用于多方面 [14] - AI Agent方面,Google Beam可将2D转3D,Project Astra功能丰富,Project Mariner能协作完成多任务,未来将扩展平台 [15] 大厂陆续宣布支持MCP,助力AI Agent加速发展 - 5月19 - 22日,字节、微软、谷歌、OpenAI等大厂宣布支持MCP协议或完善相关版本,随着A2A和MCP协议完善,AI Agent开发效率和交互能力有望提升,加速应用落地 [16] 投资建议 - 看好国产AIDC算力产业链、海外AIDC产业链及AI应用、运营商、卫星互联网&6G等板块,建议重视七大产业方向,包括AIDC机房建设、IT设备、网络设备、算力租赁、云计算平台、AI应用、卫星互联网&6G,并给出各方向推荐和受益标的 [17] 市场回顾 - 本周(2025.05.19 - 2025.05.23)通信指数下跌2.3%,在TMT板块中排名第三 [24] 通信数据追踪 5G - 2025年3月底我国5G基站总数达439.5万站,比2024年末净增14.5万站;3月三大运营商及广电5G移动电话用户数达10.68亿户,同比增长22.20%;3月5G手机出货1942.4万部,占比85.3%,出货量同比增长9.52% [25] 运营商 - 云计算方面,2024年中国移动、中国电信、中国联通云营收分别达1004亿、1139亿、686亿元,同比分别增长20.4%、17.1%、17.1% [41] - ARPU值方面,2024年中国移动、中国电信移动业务ARPU值分别为48.5元、45.6元,同比分别略减1.6%、略增0.4%,2023年中国联通移动业务ARPU值为44.0元,同比略减0.7% [41]
2024年中国人工智能产业研究报告
艾瑞咨询· 2025-05-23 17:42
人工智能产业宏观环境 - 2024年国家将人工智能纳入战略重点,各地政府推进科研创新与算力基建,因地制宜出台特色政策 [4] - GDP增速放缓背景下,AI作为新质生产力在效率提升和产业升级方面展现潜力,政府支持提供强劲动能 [4] - 资本市场聚焦语言/多模态模型应用、芯片、算力服务等领域,基础层与应用层协同完善产业生态 [4][12] - 生成式AI普及提升公众接受度,但就业替代和隐私问题引发焦虑 [4] 技术发展与创新 - Transformer架构仍主导大模型发展,研发侧通过强化学习、思维链优化提升推理能力,加速跨模态融合 [4][16] - Scaling Law面临高质量数据与资源限制挑战,厂商转向后训练思维链优化和强化学习推理优化 [18] - DeepSeek开源模型通过多令牌预测(MTP)、多头潜在注意力机制(MLA)等技术降低训练/推理成本达50%以上 [31][83] - 端到端语音大模型架构(如GPT-4o)提升交互流畅度,但级联式架构仍保持可控性优势 [50] 市场规模与商业化 - 2024年中国AI产业规模2697亿元,增速26.2%低于预期,主因大模型场景落地成本高且处于探索阶段 [6][24] - 预计2025-2029年CAGR达32.1%,2029年规模破万亿,DeepSeek开源推动2025年加速增长 [25] - B端以项目制为主(政务、教科、通信、能源领域占60%),C端采用"免费+订阅制" [6][37][39] - 价格战激烈:字节大模型降价99%,阿里云通义千问降价97%,百度部分模型免费 [34] 产业动态与竞争格局 - 算力需求向推理侧转移,开源模型推动智算中心利用率提升 [6] - 分布式框架(DeepSpeed、Colossal-AI)、LLMOps平台及一体机产品降低企业应用门槛 [28] - 大厂主导C端生态(如kimi、豆包),创业公司聚焦垂类B端市场 [66] - 出海集中在图像/视频(占40%)和社交/情感陪伴(占35%)赛道,字节、阿里云、Minimax为主要厂商 [71][73] 产品创新方向 - AI Agent从对话问答向复杂任务代理演进,智谱AutoGLM支持超长任务规划 [45][76] - 具身智能成为战略高地,需解决硬件加速与跨行业协作挑战 [80] - AI硬件端侧落地加速:华为、荣耀等手机集成大模型,豆包推出AI耳机 [47] - 多模态模型分化为生成向(DiT架构)与理解向(MLLM架构),技术融合是未来关键 [63] 技术普惠与生态建设 - DeepSeek开源策略降低中小开发者使用门槛,带动沐曦、阿里云等产业链合作 [7][37][83] - MCP协议连接1100+工具服务,推动Agent生态标准化 [77] - 视觉生成产品商业化提速,Sora验证DiT架构在视频生成的优势 [56][63]
科创人工智能ETF华夏(589010)跌1.65%,OpenAI宣布“星际之门”首个国际部署项目落户阿联酋
每日经济新闻· 2025-05-23 14:43
科创人工智能ETF华夏(589010)紧密跟踪科创人工智能指数,精选AI核心资产,凭借高研发强度与政 策倾斜,叠加科创板制度优势,为投资者提供低门槛、高弹性的AI投资机会。 今日A股午盘整体回落,截至14点27分,科创人工智能ETF华夏(589010)下跌1.65%。持仓股方面涨跌互 现,恒玄科技下跌8.72%领跌,中邮科技下跌5.9%,优刻得下跌4.27%跌幅靠前;海天瑞声上涨2.53%领 涨,石头科技、天淮科技涨幅靠前。 (文章来源:每日经济新闻) 消息面上,当地时间5月22日,OpenAI宣布了"星际之门阿联酋"(Stargate UAE)项目,将为阿布扎比 带来一个1GW的数据中心集群。OpenAI预计,该项目将于2026年投入使用,这一项目将与G42、甲骨 文、英伟达、思科和软银等合作伙伴共同开发。OpenAI表示:"根据该合作,阿联酋将成为全球第一个 在全国范围内启用ChatGPT的国家,让全国各地的人们都能使用OpenAI的技术。" 中信建投认为,AI Agent成为大模型公司发力方向。当前,大模型成本投入过大,预训练边际收益在放 缓,数据面临边界,以及以DeepSeek为代表的开源模型崛起,单 ...
大模型之后,AI 开始“自己动手”了
AI科技大本营· 2025-05-23 14:14
全球科技巨头AI Agent布局 - 微软在Build 2025大会上推出Copilot Studio解决方案,强调AI Agent将重塑未来工作方式 [8] - Google在I/O大会上宣布为Chrome浏览器、搜索及Gemini应用推出智能体模式,支持自动执行任务 [8] - OpenAI发布能自动执行复杂操作的AI Agent "Operator"并推出面向深度研究的智能体功能 [8] - Anthropic发布Agent最佳实践指南,推动工程落地 [8] 腾讯AI Agent战略与进展 - 腾讯云升级智能体开发平台TCADP,融合知识管理、工作流编排和AI能力 [5] - QQ浏览器、腾讯健康、腾讯云代码助手CodeBuddy等C端与B端应用已集成智能体能力 [5] - 腾讯云与汽车、金融、文旅等行业合作,智能体应用在生产环境中落地 [13][15] - 智能体在汽车行业用于故障自诊断,金融行业用于智能客服,文旅行业用于行程规划 [15] AI Agent技术演进 - 智能体具备自主规划能力,能根据自然语言指令调用工具或协同多Agent完成任务 [11] - 工具调用技术经历三个阶段:Function Calling、ReAct模式、Code Agent,执行效率逐级提升 [14] - 腾讯通过文档转问答对、版本比对和运营机制优化RAG效果 [15] - 视觉、多模态、文本与智能体技术协同支撑企业AI应用落地 [12] 行业趋势与驱动力 - 互联网从"信息获取"转向"任务完成",Agentic AI成为关键方向 [1] - 技术演进与业务需求双轮驱动智能体爆发 [6][9] - 客户对个性化、智能化解决方案的需求推动AI应用范式变革 [10][11] - 智能体被视为大模型落地最具系统性、可扩展性与变革性的路径之一 [18]
明略科技宣布与Dify达成生态合作 推动企业级AI Agent应用落地
环球网· 2025-05-23 11:45
资料显示,Dify作为一款开源的大语言模型(LLM) 应用开发平台,融合了"后端即服务"(Backend as Service)和"LLMOps"理念,为开发者及企业用户提供了构建 LLM 应用所需的关键技术栈,包括对全 球1000+大语言模型的支持、直观的Prompt编排界面、高质量的RAG引擎、稳健的Agent框架、灵活的 流程编排,并同时提供了一套易用的界面和API。 明略科技副总裁杨威表示:"企业级Agent技术正在从试验阶段迈向生产力阶段,逐渐成为智能化转型的 核心驱动力。通过本次合作,明略科技将与Dify平台形成协同互补,为企业客户提供从应用构建到落地 部署的一站式解决方案,帮助企业解决生成式AI应用投入生产的实际痛点。在复杂业务场景中,我们 将共同致力于优化企业级Agent的可用性、适配性与实用性,推动其深度融入企业核心系统,并为企业 进入AGI时代铺设重要入口。" 此外,依托自身在多模态数据集成、企业知识图谱及数据隐私保护方面的技术积淀和服务经验,明略科 技称将在与Dify的合作基础上提供更丰富的技术服务,以适配企业发展需要。如通过自研的MoE(混合 专家模型)架构,明略科技能够为不同领域动态 ...
Claude 4发布:新一代最强编程AI?
虎嗅· 2025-05-23 08:30
模型发布与性能 - Anthropic正式发布Claude 4系列模型 包括Claude Opus 4和Claude Sonnet 4 [2] - Opus 4是目前全球最强的编程模型 能够稳定胜任复杂且持续时间长的任务和Agent工作流 [4] - Sonnet 4着重强化了编程和推理能力 能更精准地响应用户的指令 [4] - Opus 4在编程基准测试SWE-bench上拿下72.5%的高分 在Terminal-bench上以43.2%领先同行 [6] - Sonnet 4在SWE-bench的成绩达到72.7% 几乎与Opus 4持平 [15] 新功能与特性 - 工具辅助的延伸思考功能 模型在进行深入思考时能够交替使用工具优化推理过程 [7] - 两款模型可并行使用工具 执行更精确的指令 并提升记忆能力 [7] - Claude Code正式发布 支持GitHub Actions、VS Code和JetBrains [7] - API新增四项功能 包括代码执行工具、MCP连接器、文件API和最长可缓存1小时的提示缓存功能 [7] - 引入"思维总结"功能 在模型思考路径过长时自动调用更小模型进行压缩和归纳 [30] 实测表现 - 在Replit的实测中 Opus 4在多文件、大改动的项目中表现出更高准确率 [9] - 在代号为Goose的Agent中 该模型显著提升了代码质量 同时保持稳定性和性能 [10] - 进行高要求的开源重构任务时 连续稳定运行7小时 [11] - 能解决其他模型无法完成的复杂任务 成功处理多个前代模型没法完成的关键操作 [11] - 创建带有动画效果的天气卡片 只用一次机会就成功生成 [12] 行业影响与定位 - GitHub选择Sonnet 4作为新一代Github Copilot的底座模型 [17] - 两款模型为不同层级用户提供明确选项 Opus 4面向极致性能与科研突破 Sonnet 4面向主流落地与工程效率 [39] - 价格与前代保持一致 Opus 4每百万token为$15/$75 Sonnet 4为$3/$15 [38] - 三家头部AI公司几乎在同一时间选择Agent路径 编程是最天然适合AI Agent落地的场景 [55][56][57] - 开发者群体是天然适配Agent产品的用户 他们习惯自定义、愿意尝鲜、擅长集成 [58] 技术演进与未来展望 - 模型开发过程中存在"最后开窍"现象 某些能力在最后一刻才展现出来 [69][70] - 正在进入新世界 开发者可以像管理一支Agent团队一样工作 [74] - 预训练和后训练都有显著进步 扩展规律在预训练阶段依然有效 [78] - 未来一年"代码"方面会出现很多令人惊艳的进展 构建"Agent团队"将对世界产生有意思的影响 [103] - 当写软件的成本大幅下降时 经济和商业结构将发生改变 [104][105]