AI Agent
搜索文档
2025,AI Agent赛道还有哪些机会?
虎嗅· 2025-05-26 16:16
AI Agent行业动态 - OpenAI以30亿美元收购编程工具Windsurf [1] - 编程工具Cursor母公司Anysphere获9亿美元融资 估值达90亿美元 [1] - 中国通用AI Agent项目Manus获Benchmark领投7500万美元融资 [1] - OpenAI推出具备浏览器能力的Operator和复杂任务处理产品Deep Research [1] 技术演进 - 2025年AI Agent技术实现跃迁 结合强化学习与推理模型能力 [8] - RFT(强化学习微调)技术推动Agent具备自主学习能力 [8] - 大语言模型达到"AlphaGo时刻" 能自主探索解题路径 [15] - 环境理解成为关键 Devin构建包含四个子界面的综合开发环境 [21] 产品分析 - Cursor从编程工具向通用平台转型 积极接入MCP接口 [31][55] - Windsurf内置context engine 环境理解能力突出 [19] - Devin创新性加入笔记系统 支持长期开发过程管理 [21] - Manus依赖Claude Sonnet 3.7模型 面临API稳定性挑战 [33] 创业机会 - 通用Agent领域被大厂占据 创业者机会集中在垂直场景 [23] - 服务型Agent面临被整合风险 如Operator覆盖上百个场景 [22] - 个人化Agent可能成为新方向 类似自媒体网红模式 [24] - 评估机制(Evaluation)成为构建竞争力Agent的关键 [40][43] 技术路线 - RFT相比SFT性能提升25% 但成本高出数倍 [47] - Manus采用SFT技术调优外围执行模块而非核心模型 [48] - MCP协议发展缓慢 行业采纳面临商业化障碍 [72] - 代码层成为数字世界操作的关键中间层 [28] 垂直领域案例 - Vantel为保险经纪人节省80%重复工作时间 [58] - Sweet Spot服务中小企业申请政府资助 用户体验优异 [59] - Gamma革新PPT制作流程 模块化设计获长期用户认可 [61][62] - Replit和Fellou在人机交互设计上表现突出 [49][52] 行业趋势 - 产品开发节奏加快 执行优先于计划 [65] - 环境侧建设滞后 MCP生态渗透需以年计 [68] - 编程Agent可能发展为通用型平台 [31][56] - 用户需求理解仍是待解难题 [69]
当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试
第一财经· 2025-05-26 13:30
基准测试现状与挑战 - 大模型厂商通过基准测试跑分对比新产品 但基准测试难以真实反映AI客观能力 [2] - 静态评估集存在题目泄露问题 模型反复测试可刷高分数 [3] - 主流模型刷爆题目的速度加快 基准测试有效时间急剧缩短 [3] xbench基准测试工具 - 红杉中国推出xbench基准测试工具 采用双轨评估体系和长青评估机制 [3] - 双轨评估体系测评多维度数据集 追踪模型理论能力上限与Agent实际落地价值 [3] - 长青评估机制为动态持续更新方法 解决静态评估集刷榜问题 [3] - xbench最初为红杉内部AGI进程评估工具 2022年ChatGPT推出后开始使用 [3] 垂直领域Agent评测 - 相关机构提出垂直领域Agent评测方法论 构建招聘与营销领域评测框架 [3] - Agent深度搜索能力(自主规划/信息收集/推理分析等)是通向AGI的核心能力 [3] - xbench-DeepSearch评测集关注多模态模型商用视频生成等三个方向 [5] AI Agent发展现状 - AI在长文本/多模态/工具使用/推理方面突破 催化Agent爆炸式增长 [4] - Agent可交付完整任务 相比聊天机器人能提供生产力或商业价值 [4] - 高质量评估集推动Agent在工具使用/编码/客户服务等领域发展 [4] - Agent迭代迅速且外部环境动态变化 测试工具需追踪能力持续增长 [4]
Agent竞速之年,企业级SaaS软件商业模式求变
21世纪经济报道· 2025-05-26 11:49
行业趋势 - 2025年成为Agent加速落地之年,国内外厂商均在推进垂域模型和Agent能力落地 [1] - 企业级SaaS市场因数字化基础良好,成为Agent应用重点场景 [1] - AI Agent预计为企业服务SaaS打开万亿美元蓝海市场,商业模式向多元化付费转变 [1][8] - 企业管理软件技术沿革经历五次演变,当前进入AI驱动的EMAI阶段,交互方式转向自然语言及多模态 [2] 公司动态 - 金蝶发布五大智能体产品及苍穹Agent平台2.0,涵盖财报分析、企业问数、招聘等场景 [3] - Agent 2.0阶段注重与企业业务场景结合,提供模板降低搭建门槛,强化数据安全隔离 [4] - 公司商业模式从SaaS按功能收费转向RaaS(按成果收费),如差旅智能体按行程数量计价 [5] - 研发组织从模块化转向闭环团队,围绕智能体交付结果重构流程 [6] 技术挑战与竞争焦点 - 大模型应用面临不确定性输出与企业需求确定性之间的矛盾,需结合场景数据优化 [7] - 未来竞争聚焦数据、场景、算力与算法,需产业链协同 [7] - 企业管理AI将形成"人机共生"生态,通用SaaS或成基础设施,垂类SaaS借AI扩展市场 [8] 产品进展 - 五大智能体实现开箱即用,可连接内外SaaS产品,去年产品为"AI增强",今年转向结果交付 [3] - 计划围绕报价、合同管理、供应链等构建更多智能体 [3] - Agent 1.0构建通用能力,2.0通过模板简化任务流复杂度 [4]
两大算力龙头宣布重磅吸收合并交易,软件ETF(159852)震荡上涨,机构:AI Agent及算力依旧是最明确的投资方向
21世纪经济报道· 2025-05-26 10:21
市场表现 - A股三大指数集体低开 沪指反弹飘红 中证软件服务指数涨幅0 04% [1] - 软件ETF(159852)震荡上涨0 52% 盘中交投活跃 成分股中科软涨超4% 中国软件 石基信息 中科创达 太极股份等多股跟涨 [1] - 软件ETF(159852)紧密跟踪中证软件服务指数 为全市场相关挂钩产品中规模最大 覆盖30只软件开发 软件服务领域上市公司证券 [1] 行业并购动态 - 海光信息拟通过换股方式吸收合并中科曙光 并募集配套资金 两家公司股票5月26日起停牌不超过10个交易日 [2] - 该交易为《上市公司重大资产重组管理办法》修订后首单上市公司吸收合并案例 [2] - 中科曙光在高端计算 存储 云计算等领域技术积累深厚 海光信息专注于国产架构CPU DCU等核心芯片设计开发 [2] 机构观点 - 人工智能仍是关键技术变化 下半年关注基础设施建设进度和应用落地变现 [2] - 科技产业链国产创新进程值得持续关注 汽车和工业等终端需求或边际改善 [2] - AI Agent及算力为最明确投资方向 看好MaaS带来的软件公司价值重估机会 [3] - 算力产业链中科技自主内循环和上游芯片国产创新加速 建议关注果链公司估值修复及新品预热行情 [3]
深度|拿下3亿美元融资后,AI金融独角兽Airwallex全球首发支付AI代理金融
Z Potentials· 2025-05-26 10:10
融资与估值 - 全球金融科技独角兽Airwallex空中云汇完成3亿美元F轮融资,投后估值达62亿美元 [1] - 投资人包括Square Peg、DST Global、Lone Pine Capital等老股东,Visa Ventures以战略投资者身份入场 [1] - 成立10年间累计融资超12亿美元,融资次数达11轮,背后集结腾讯、阿里、红杉、高瓴等顶级投资方 [1] AI代理金融战略 - Airwallex内部将预算投入AI领域,打造"AI代理金融"新业务类别,直接为客户CFO完成财务工作流程 [3] - AI Agent将深度融入决策流程,具备理解、分析、解决全盘问题的能力,优化资金管理及应付账款等任务 [4] - 全球AI产业融资金额超4000亿元,同比增长77%,AI Agent相关初创企业融资占比显著 [3] 全球化布局与业绩增长 - 2025年3月年化收入达7.2亿美元,同比增长90% [5] - 持有全球60余张金融牌照,覆盖主要经济体及新兴市场,进入37个国家和地区 [6] - 业务版图呈现全球化+区域化深耕策略,覆盖中国大陆、中国香港、欧洲、北美、东南亚等 [6] 行业定位与颠覆传统银行 - 瞄准中小企业跨境金融空白,潜在市场规模达5700亿美元 [11] - 通过数字化平台与自动化流程降低服务成本,提供国际支付、外汇管理等一站式解决方案 [11] - 传统银行基础设施难以匹配现代企业需求,Airwallex填补中小企业服务缺口 [10] 未来规划 - 设定2026年为IPO准备关键节点,但不为上市而上市 [11] - 从"跨境支付机构"向"银行服务"角色转型,战略升级意图明显 [11]
腾讯研究院AI速递 20250526
腾讯研究院· 2025-05-25 23:57
英伟达Blackwell GPU - 英伟达因美国出口管制在中国AI芯片市场份额从95%暴跌至50% [1] - 推出新款阉割版Blackwell GPU售价6500-8000美元远低于H20的1-1.2万美元 [1] - 新芯片采用GDDR7内存技术内存带宽约1.7TB/秒以符合出口管制限制要求 [1] Claude 4技术进展 - Claude 4采用可验证奖励强化学习(RLVR)范式在编程和数学等有清晰反馈信号的领域取得突破 [2] - 预计明年将出现能独立完成实际工作的软件工程Agent [2] - 预测到2026年底AI将具备足够的"自我意识"能执行复杂任务并判断自身能力边界 [2] Google Veo3视频生成模型 - Veo3视频生成模型实现流畅真实的动画效果和同步音效解决物理逻辑问题 [3] - 能精确呈现复杂场景细节包括流体动态、质感表现和人物动作支持多种镜头风格和特效 [3] - 已达近电影级画质支持非语言音效和多语言旁白 [3] OpenAI o3模型漏洞发现能力 - o3模型在Linux内核SMB实现中发现远程0-day漏洞CVE-2025-37899表现优于Claude Sonnet 3.7 [4] - 在3.3k行代码测试中100次运行8次成功识别已知漏洞误报率约1:4.5 [4][5] - 独立发现新UAF漏洞且洞察力超越人类专家能指出修复方案不足 [5] 字节BAGEL多模态模型 - BAGEL具备GPT-4o级图像生成能力整合图像理解、生成、编辑和3D生成于单一7B参数模型 [6] - 采用MoT架构包含两个专家模型和独立视觉编码器展现出能力涌现过程 [6] - 在多项基准测试中超越多数开源和闭源模型支持带图推理、复杂图像编辑和视角合成 [6] 腾讯"野朋友计划" - 推出AI物种识别与智能体问答交互功能可识别用户拍摄的生物并提供专业知识 [7] - 通过自然语言对话解答生物习性、迁徙规律等深度信息将专业术语转化为生活化表达 [7] - 用户上传的图片和互动内容将用于模型训练同时为科研提供数据 [7] OpenAI首款AI硬件 - 开发脖挂式设备形似iPod Shuffle无屏幕但配备摄像头和麦克风 [8] - 旨在突破屏幕界限提供更自然交互可连接手机和PC预计2027年量产 [8] - 市场上已有类似AI穿戴设备但网友对隐私安全和实用性存疑 [8] AI科学家团队新药发现 - AI科学家团队在2.5个月内发现治疗干性老年性黄斑变性的新药Ripasudil [10] - Robin多智能体系统自动化了科学发现全过程结合多个智能体完成研究流程 [10] - AI发现了人类未曾想到的治疗路径完全主导研究框架 [10] Anthropic产品开发逻辑 - 最好的AI产品往往"自下而上"生长而非计划出来从底层实验中发现潜力 [11] - 未来核心问题将从"是否AI生成"转向内容溯源、可信度与可验证性 [11] - Anthropic内部70%代码由Claude生成组织面临"非工程环节"效率瓶颈 [11] Character.AI发展观点 - 最佳AI应用尚未被发明现阶段AI领域状态类似炼金术 [12] - 通用性与易用性应并行发展Character.AI选择构建既可用又极度通用的产品 [12] - 大语言模型的价值在于利用有限训练转化为广泛应用关键挑战是计算能力 [12]
让无人机自主思考!道通智能空地一体智慧方案亮相无人机大会
南方都市报· 2025-05-25 15:52
行业盛会与公司展示 - 2025第九届世界无人机大会暨相关博览会在深圳开幕 主题为“步入低空经济新时代” [1] - 展会共吸引825家国内外企业 展示超过5000款无人机系统装备产品 [1] - 公司作为中国无人机产业全球化标杆企业之一 携全系列产品及解决方案重磅亮相 成为全场焦点 [1] 核心无人机产品矩阵 - 公司展示旗舰级多旋翼无人机EVO Max系列 具备Autel Autonomy自主飞行 A-Mesh组网 720度全向避障等核心技术 [3] - EVO Max系列配备多款可更换云台相机 包括变焦相机 超星光级夜视相机等 应用于公共安全 能源巡检等场景 [3] - 同时展出Autel Alpha Autel Titan等多款行业多旋翼无人机 满足不同体积 功能和应用需求 [5] - 公司展示4款倾转旋翼无人机(道通龙鱼系列) 融合垂直起降与长时续航优势 配备双频高清图传和工业级飞控系统 [5] 生态解决方案与操作系统 - 公司推出空地一体智慧安防 智慧交通和智慧能源三大解决方案 赋能治安巡逻 交通执法 能源巡检等多行业应用 [7] - 道通多旋翼无人机巢可实现无人机自动起飞 巡检 充电等功能 大幅降低人力物力成本 [8] - 道通天穹指挥系统支持网页端操作 实现态势感知 航线规划等任务 达成空地一体全局控制 [8] - Autel Athena OS搭配即将面世的行业多模态大模型AI Agent 可实现全流程智能化作业与集群智能 [8][9]
速递|OpenAI升级其Operator的底层模型,推理模型o3全面接棒GPT-4o
Z Potentials· 2025-05-25 12:37
OpenAI AI代理Operator模型升级 - OpenAI正在将Operator代理的AI模型从定制版GPT-4o升级为基于o3的新模型 o3是OpenAI最新o系列"推理"模型之一 升级后API版本仍保持基于4o不变 [1][2] - o3模型在数学和推理任务上表现显著优于GPT-4o 针对计算机使用场景进行了额外安全数据微调 包含专门教授模型决策边界的数据集 [2][3] - o3 Operator在安全评估中表现优异 相比GPT-4o更少拒绝执行"非法"活动或搜索敏感数据 对提示注入等攻击抵抗力更强 采用与4o相同的多层安全防护机制 [3] 行业竞争格局 - 各大AI公司竞相开发高度复杂的智能体工具 这些智能体可基本无需监督完成各种任务 [2] - 谷歌通过Gemini API提供"计算机使用"智能体和面向消费者的Mariner服务 Anthropic的模型也具备执行计算机任务的能力 [2] 技术细节 - o3 Operator继承了o3的编程能力 但不具备直接访问编程环境或终端的原生权限 [3] - 模型升级涉及云端托管的虚拟机使用特定软件 代理可自主浏览网页满足用户需求 [1]
深度|Anthropic首席产品官:从Claude到MCP,最好的AI产品不是计划出来的,是从底层自发长出来的
Z Potentials· 2025-05-25 12:37
AI生成内容的未来 - AI生成内容的核心问题不是真假之辨,而是内容的可信度与能否引发共鸣 [3] - 长期来看,大多数内容将由AI生成,"是否AI生成"的问题将变得无意义 [3][7] - 未来重点将是内容的来源、溯源和引用问题,AI反而可能更有助于解决这些问题 [3][7] - AI只是讲故事者工具箱中的一个工具,关键在于能否讲出吸引人的故事 [3] AI产品开发方法论 - 优秀AI产品的标准始终是能否解决真实问题 [4] - 最好的AI产品往往不是计划出来的,而是从底层自发长出来的 [5][7] - 产品开发路径应从"自上而下"转为"自下而上" [5][7] - Artifacts最初是一个研究原型,后来才进入产品化阶段 [5] - MCP协议起源于两个工程师的"小火花",后来发展为行业标准 [6] MCP协议的发展 - MCP最初设计目标是引入上下文,现已能集成GitHub、触发Zapier等操作 [8] - 下一阶段目标是让模型不仅能"理解"还要能"行动",自动执行工作流 [8] - 未来将探索AI Agent之间的协作,可能形成新的AI经济系统 [8] - 公司内部已开始讨论"Agent雇佣其他Agent"的场景 [8] AI在编程领域的应用 - 公司内部超过70%的Pull Request由Claude代码生成 [10] - 模型生成的代码是否用户喜欢用比Benchmark分数更重要 [10] - 正在探索生成式AI在整个开发流程中的定位 [10] - 面临代码审查、技术架构可控性等新问题 [10] AI对组织效率的影响 - AI让工程效率提升后,组织中的"非工程环节"低效变得更加明显 [11] - 以前一个对齐会议耽误一个工程师一小时,现在等于耽误8小时的AI产出 [11] - 模型可以总结会议、提出建议,但还无法帮助做出组织层面的决策 [11] AI在组织中的应用 - 非技术团队如销售团队开始主动使用模型 [12] - 公司内部文化发生变化,从犹豫使用AI到鼓励使用AI [13] - 内部工具帮助打破"AI使用羞耻感",推动AI融入日常工作 [13] - 模型被用作"思维合伙人",用于战略文档、绩效评语等 [12] AI Agent发展方向 - 目标是让AI Agent成为下一代"数字员工" [14] - 需要配套系统:记忆能力、高级工具调用、自动适应组织结构、可验证性 [14] - 模型不仅要更强大,还需要一整套配套系统支持 [14] - 不打算做生态里的每一个环节,但希望成为构建的基石 [14] AI产品面临的挑战 - AI产品对新手来说仍然太难用 [16] - 使用路径稍微偏离主线,效果就会大打折扣 [16] - 模型能力很强,但实际能用好的用户太少,潜力远未释放 [16] - 与当前偏重"工作场景"而非"日常娱乐"有关 [16] 研究与应用平衡 - 产品团队需要思考如何充分利用研究成果 [18] - 理想AI产品团队应包括产品经理、工程师、Applied AI人员、微调团队成员 [18] - 目前只有约10%的研究人员参与到产品中 [18] - 基础性研究如让模型更好执行指令仍在投入 [18] AI Agent交互协议 - 关键问题是Agent要不要透露信息、透露多少 [19] - 模型本能想"讨好"用户,容易透露太多或过度保守 [19] - 另一个挑战是如何在大规模部署时进行可审计 [19] - 这些问题既是产品设计问题,也是研究课题 [19] AI应用层产品常见问题 - 很多AI产品从"轻量AI"开始,逐步变"重AI",但结构拖后腿 [20] - 应用没有暴露足够多的"操作原语"给模型使用 [20] - 应该先考虑AI怎么用产品,让AI成为产品的"主要使用者" [20]
通信行业周报:谷歌AI亮眼,坚定看好全球AIDC产业链
开源证券· 2025-05-25 12:25
报告行业投资评级 - 看好(维持)[1] 报告的核心观点 - 谷歌开发者大会发布多款AI新品,用户量持续攀升,大厂陆续宣布支持MCP,助力AI Agent加速发展,持续看好国产AI算力产业链、卫星互联网、6G等七大产业方向 [3][4][5] 根据相关目录分别进行总结 周投资观点 谷歌开发者大会发布多款AI新品,用户量持续攀升 - 2025年5月21日,谷歌I/O开发者大会发布多款AI模型、AI应用、AI Agent等产品,Gemini系列模型全面升级,Imagen 4和Veo 3等多模态模型功能增强,Gemini模型将登陆多平台赋能终端产品,AI Agent产品功能丰富且计划扩展平台 [11][13][15] - 截至5月21日,谷歌每月token处理数量达480万亿,同比提升超50倍,超700万名开发者用Gemini搭建AI应用,是去年的5倍,Gemini应用有4亿月活用户,使用2.5 Pro模型的用户活跃度上涨45% [13] - 谷歌搜索方面,截至5月21日,AI Overviews月活用户达15亿,新上线“AI Mode”功能强大,可用于多方面 [14] 大厂陆续宣布支持MCP,助力AI Agent加速发展 - 5月19 - 22日,字节、微软、谷歌、OpenAI等大厂陆续宣布支持MCP协议,随着A2A协议和MCP生态完善,AI Agent开发效率和交互能力有望提升,加速AI应用落地 [16] 投资建议 - 展望2025年,看好国产AIDC算力产业链、海外AIDC产业链以及AI应用、运营商、卫星互联网&6G等板块投资价值,建议重视七大产业方向,包括AIDC机房建设、IT设备、网络设备、算力租赁、云计算平台、AI应用、卫星互联网&6G,并给出各方向推荐标的和受益标的 [17][18][19] 市场回顾 - 本周(2025.05.19 - 2025.05.23),通信指数下跌2.3%,在TMT板块中排名第三 [24] 通信数据追踪 5G - 2025年3月底,我国5G基站总数达439.5万站,比2024年末净增14.5万站;3月,三大运营商及广电5G移动电话用户数达10.68亿户,同比增长22.20%;3月,5G手机出货1942.4万部,占比85.3%,出货量同比增长9.52% [25] 运营商 - 云计算方面,2024年中国移动、中国电信、中国联通云营收分别达1004亿元、1139亿元、686亿元,同比分别增长20.4%、17.1%、17.1% [41] - 三大运营商ARPU值方面,2024年中国移动、中国电信移动业务ARPU值分别为48.5元、45.6元,同比分别略减1.6%、略增0.4%;2023年中国联通移动业务ARPU值为44.0元,同比略减0.7% [41]