Agent

搜索文档
多模态和Agent成为大厂AI的新赛点
36氪· 2025-04-30 07:29
大模型应用场景的竞争策略 - 大厂AI竞争策略向应用场景倾斜,多模态能力和代理执行成为两大焦点 [1] - 大模型落地C端需接近人类能力,进化方向包括降低沟通难度和提升复杂任务执行能力 [1] - 多模态能力实现需依托基础大模型升级,代理执行能力依赖Agent产品生态成熟 [1] 多模态能力发展现状 - 字节、百度、谷歌、OpenAI近期推出多模态能力更强的基础大模型产品 [1] - 阿里夸克上线"拍照问夸克"功能,基于通义推理及多模态大模型+后训练实现 [1] - 多模态应用场景包括看图分析地貌、生成流程图、识别图像视频内容等 [5] - OpenAI最新o3和o4-mini具备"用图像思考"能力,谷歌Gemini 2.5 Flash可分析股票走势图 [5] 代理执行产品发展 - 通用Agent产品近期集中上线,包括字节扣子空间、百度心响App、360纳米AI等 [1] - 海外巨头倾向打造单一场景Agent,如Notion Mail、OpenAI的Operator和Deep Research [2] - 通用Agent产品雏形为对话框+工作区模式,能理解任务意图并调用工具模块 [12] - 百度心响App侧重移动端轻量化任务,包含数学解题、AI相亲等生活化功能 [13] Agent产品关键能力 - 优化任务体验需培养三大能力:第三方数据工具连接、编码能力、大模型任务理解能力 [14][16] - MCP和A2A协议为Agent提供统一接口和协作能力,国内厂商已接受该解决方案 [14] - AI编程能力对复杂任务执行至关重要,OpenAI可能收购编程公司Windsurf提升该能力 [16] - 大模型任务理解能力是底层基础,OpenAI正培养职业化Agent如司机、学者等角色 [16] 行业发展趋势 - 多模态能力提升将影响AI硬件发展,未来交互可能从手机迁移到智能眼镜 [11] - OpenAI预计2025年Agent业务销售额达30亿美元,2029年达290亿美元 [17] - 国内厂商采取API逻辑开发Agent,OpenAI采用职业化培养模式 [17] - 未来入口可能是多模态能力与Agent执行能力的结合 [17]
做浏览器、买Chrome、争AI OS,Perplexity也想「上牌桌」
Founder Park· 2025-04-28 19:00
核心观点 - Perplexity CEO Aravind Srinivas 提出公司的终极目标是构建类似 Windows、Mac、Android 或 iOS 的操作系统,认为操作系统是 AI 时代的终极战场 [2][14] - 公司计划通过推出自有浏览器「Comet」获取用户跨平台上下文数据(如交易、浏览历史),以实现深度个性化和构建 Agent 能力 [2][11][13] - 浏览器被视为构建 Agent 的最佳途径,因其具备容器化操作系统特性,可代表用户执行跨应用操作 [11][13] - 公司正通过预装合作(如 Motorola)和浏览器开发挑战 Google 在 Android 生态的主导地位 [5][6][9] 战略布局 浏览器战略 - 计划下月推出「Comet」浏览器,未来将开发 Mac 和 Windows 版本 [5][11] - 浏览器可解决移动操作系统权限限制问题,实现跨应用数据抓取与操作(如比较 Uber/Lyft 价格) [11] - 通过浏览器获取用户交易记录、购物历史等跨平台数据,建立比 ChatGPT 更深入的个性化能力 [13] 合作与分销 - 与 Motorola 达成预装合作,新款 Razr 手机将预装 Perplexity 应用,潜在覆盖数百万用户 [5] - Google 通过 Play Store 权限施压 OEM 厂商(如要求默认 Gemini),但反垄断审查为公司创造合作机会 [6][7] - 正与电信运营商、OEM 厂商洽谈合作,计划复制 Google/Microsoft 的预装模式 [9] 技术架构 - 在 iOS 端使用 Apple EventKit SDK 集成提醒、播客、地图等功能,但无系统级控制权限 [10] - 当前 Agent 能力聚焦于信息检索(如歌曲、视频推荐),而非基础功能(如设置闹钟) [10] - 需利用前沿推理模型快速积累用户数据,通过数据压缩降低未来运营成本 [16] 行业竞争 - OpenAI 被曝研发自有浏览器,Google 可能被迫出售 Chrome(Yahoo/OpenAI/Perplexity 均有意收购) [3][5] - ChatGPT 通过「登录集成」策略获取用户数据,但缺乏跨平台上下文信息(如 Amazon 购物记录) [12][13] - Microsoft Copilot 凭借 Windows 预装优势占据市场,尽管技术评价不及 Perplexity [9] 其他动态 - 正以 180 亿美元估值融资,资金将用于加速 Agent 技术研发 [16] - 参与 TikTok 竞购但成功率低,主要障碍是字节跳动不愿放弃算法控制权 [17] - 已改善与出版商关系,抓取数据时严格遵守 robots.txt 协议 [15]
行业周报:积极关注高景气社交出海、Agent及多模态AI应用-20250427
开源证券· 2025-04-27 22:34
报告行业投资评级 - 看好(维持) [2] 报告的核心观点 - 社交、游戏出海中东北非等地延续高景气,国内成熟商业模式和丰富运营经验,叠加AI赋能及本地化深耕运营,或驱动线上社交产品出海延续高景气,建议关注有布局卡位优势、本地化运营能力突出的公司及有望拓展出海社交业务的公司,重点推荐腾讯控股、盛天网络,受益标的包括赤子城科技、Yalla等 [4] - 国产模型多模态、推理能力持续提升及MCP协议广泛运用,将推动Agent等应用在垂直场景加快落地,拉动推理算力需求,建议继续布局AI,给出大模型/Agent、AI游戏、AI虚拟陪伴等多领域的重点推荐和受益标的 [5] 根据相关目录分别进行总结 行业数据综述 - 游戏方面,截至2025年4月26日22:00,《七日世界》获内地iOS免费榜第一,《王者荣耀》获内地iOS畅销榜第一,《失控进化》为安卓和iOS预约榜第一;重点公司游戏产品iOS游戏畅销榜排名中,《王者荣耀》本周最高排名维持第1名 [12][16][22] - 影视方面,电影《向阳·花》获得周票房冠军;网播剧《无忧渡》表现良好;网播综艺《哈哈哈哈哈第五季》周播映指数第一;台播剧《我的后半生》周市占率第一;台播综艺芒果超媒《乘风2025》周市占率登顶第一;抖音卡牌爆款榜前10名中喝酒之奕金铲铲卡牌本周销量领先 [26][27][29][31] 行业新闻综述 AIGC - 4月24日,Coze首进国内榜前十,Photoroom海外排名跃升13位至海外榜第30;近期AI生成的猎奇内容在全球社交平台掀起热潮;4月17日,腾讯元宝赶超Kimi位居国内榜第四,Poe上升2位进入总榜前十;国产Vidu Q1在权威评测基准中超越Sora、Runway等顶尖模型,勇夺文生视频赛道双榜第一 [33][35][36] 游戏 - 4月21日,国家新闻出版署发布4月国产网络游戏审批信息,118款游戏获批,网易《极限战场》等双端产品入选;4月25日,《原神》茜特菈莉手办首发,预计12月出货;《失落星船:马拉松》测试首日登上Twitch第三 [36][38] 影视/IP - 4月24日,芒果TV与红果短剧达成系列合作,围绕优质成品短剧授权、IP联动开发及联合出品、短剧商业化展开深度合作 [39] 公告总结 - 部分公司发布2024年年报,如蓝色光标2024年收入607.97亿元,同比增速15.55%,归母净利润 -2.91亿元,同比增速 -349.32%等 [39][42] 板块行情综述 - A股传媒板块2025年第17周(4月21日 - 4月25日)下跌0.11%,弱于上证综指、沪深300、深证成指、创业板指;游戏板块表现最好(+1.15%),体育板块表现最差(-0.85%);相对传媒指数/沪深300,游戏板块获得最高超额收益,分别为+1.26%/+0.77% [47] - A股传媒互联网相关个股中,生意宝周涨幅最大(+21.1%),芒果传媒周跌幅最大(-9.68%);美股传媒互联网相关个股中,BTC DIGITAL周涨幅最大(+22.29%),云集周跌幅最大(-7.30%);港股传媒互联网相关个股中,睿见教育周涨幅最大(+23.3%),宇华教育周跌幅最大(-9.86%) [47]
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经
42章经· 2025-04-27 22:10
Agent定义与核心特征 - Agent是基于环境反馈使用工具的程序 采用Anthropic的定义[2] - 核心三要素包括状态(Context)、行动(Tool Use)、激励信号(RL反馈机制)[32][33] - 与RL强关联 需理解强化学习才能设计优质Agent产品[31] Agent技术演进 - 2023年4月AutoGPT为代表的早期Agent更像玩具 实际应用价值有限[4] - 当前Agent已能在工作生活场景中真正解决问题 实现价值跃迁[5] - 进步源于:1)底层模型能力提升(如RL结合、长思维) 2)工程产品突破(Context构建)[6][7] Context工程创新 - Context是大模型执行任务所需信息总和 不同产品Context构成不同[8] - 相比传统RAG Agent能自动化提炼Context 减少人工干预[10][11] - 优质Context需包含用户历史行为路径 如APP打开瞬间即提供海量意图线索[48][49] Tool Use技术方案 - Function Call/MCP/A2A属于代码驱动派 Computer Use/Browser Use属于视觉模拟派[13] - MCP核心价值在于统一Tool Use标准 降低工具调用门槛[12] - Browser Use存在纯视觉方案(如已倒闭的Adept)和API包装方案 后者更成熟稳定[15] 产品设计方法论 - Chat是最佳交互入口 保障用户自由度优于追求准确度[41] - 需解决双重信任问题:开发者信任模型能力 用户信任执行过程[52][54] - 垂直领域Agent将长期主导 通用Agent面临收敛困难[25][46] 行业竞争格局 - 当前Agent可分为:1)Coding Agent(交付代码) 2)调研Agent(交付报告) 3)表格Agent(定量分析)[61][64] - Sheet0实现100%准确率 核心在于模块化工具复用与AI Coding验证[57][67] - AI Coding与Agent存在协同效应 但直接编码执行任务成本过高[29][30] 发展关键变量 - 模型能力突破与Context工程进步是两大核心驱动因素[69][70] - 需构建完整评估体系(激励信号) 确保系统可收敛[35][71] - 产品需平衡通用性与准确性 不同场景选择不同技术路径[59][60]
Manus估值36亿了?
投中网· 2025-04-27 14:35
公司融资与估值 - Manus AI背后的公司"蝴蝶效应"获得由Benchmark领投的7500万美元融资,约合5.46亿人民币[2] - 此前已从腾讯、真格基金和红杉中国等投资人处筹集超过1000万美元[2] - 本轮融资使公司估值增长约5倍,达到近5亿美元,约合36.44亿人民币[2] - Benchmark此前还投资过HeyGen和Sema4.ai两个华人AI创业项目[3] 产品与技术 - 3月发布尚在内测中的通用AI Agent,能独立处理简历筛选、行程规划和股票分析等任务[3] - 订阅服务价格为每月39美元,高级版本199美元[3] - 基于开源模型和第三方API构建工程化能力,核心优势在于任务规划与执行框架[8] - 使用Anthropic的Claude 3.5 Sonnet v1和阿里巴巴Qwen模型[12] - 单任务平均成本约2美元,发布后两周内在Claude模型上花费超过100万美元[12] 市场与竞争 - 计划将服务扩展至美国、日本和中东市场[3] - 被《MIT技术评论》评价为中国AI公司积极普及Agent的代表[9] - 字节推出Agent产品"扣子空间",基于自研豆包大模型[13] - OpenAI推出强调Agent能力的o3和o4 mini模型[13] - 智谱发布Agent产品AutoGLM沉思,号称首个集深度研究能力和操作能力于一体的Agent[13] - Genspark发布Super Agent,宣称在GAIA Benchmark上超越Manus[13] 团队背景 - 三位合伙人分别为肖弘、季逸超和张涛[5] - 创始人肖弘曾创立夜莺科技,推出"壹伴助手"和"微伴助手",获腾讯和真格基金投资[5] - 联合创始人季逸超曾创立Peak Labs,开发"中文互联网最大通用知识图谱"Magi系统[5] - 产品合伙人张涛曾任光年之外产品负责人[5] 行业趋势 - 模型推理能力提升使Agent成为2025年最热的AI投资方向[2] - 2025年被称作Agent元年[2] - AI Agent对算力需求巨大,带动相关基础设施投资[10] - CoreWeave上市市值近200亿美元,主营业务为GPU租赁[9]
Windsurf团队科普Agent:不是什么都叫智能体!
Founder Park· 2025-04-25 21:29
Agent核心概念解析 - Agent系统本质是「LLM+工具」的循环结构 接收用户输入后交替调用推理模型和工具 推理模型决定行动步骤 工具执行具体操作并将结果反馈至信息流[5][6] - 推理模型的核心功能是选择工具和参数 而非单纯生成内容 其输出包含行动原因解释和结构化参数指令 工具则独立于LLM 涵盖计算器 系统时间等非文本功能[6][8] - 典型误用场景包括将思维链提示(CoT)等同于Agent推理 或混淆AI工作流与Agent系统 前者是LLM内部思考过程 后者是预设流程缺乏实时工具决策能力[8] Agent系统优势与分类 - 协作式Agent通过人类实时干预降低可靠性门槛 当前主流应用如Windsurf Cascade GitHub Copilot Workspaces均采用此模式 与完全自主Agent形成技术路径差异[16][17] - 工具集成弥补LLM短板 如数学计算 实时数据获取等 使系统能力突破文本生成限制 同时支持状态改变类操作(如发送短信) 超越RAG系统的信息检索范畴[12] - 发展历程显示 Copilot式单次调用系统率先落地 而AutoGPT(2023)和Devin等自主Agent受限于端到端可靠性 尚未大规模普及[13][15] Agent系统构建关键问题 - 工具生态决定能力边界 需评估工具独特性(如Windsurf网页解析技术)和扩展性 同时数据访问需平衡范围与控制 如代码库访问深度影响效果但增加权限复杂度[22][23] - 延迟优化涉及全技术栈 包括模型推理加速 提示工程缓存 工具并行化等 需权衡质量与响应速度 高延迟会放大失败成本[26] - 用户体验设计包含意图捕捉(隐式信号利用) 改动可视化审查(如IDE多文件修改) 以及非Agent功能融合 避免过度Agent化简单任务[24][27][29] 行业发展趋势 - 「苦涩的教训」警示过度依赖人工设计的风险 算力增长可能使定制化提示 工具选择等投入失效 需保持技术路径灵活性[31] - 协作式Agent现阶段更符合商业落地需求 因其降低了对LLM绝对可靠性的依赖 通过人机协同实现可控产出[17][19]
人工智能行业专题:大厂Agent来临,MCP拓宽应用边界
国信证券· 2025-04-24 15:52
报告行业投资评级 - 优于大市(维持评级) [1] 报告的核心观点 - Agent发展打开人机协同全新范式,为AI应用提供新发展思路,未来模型能力持续提升,各领域Agent将成模型触达终端用户的载体,持续看好AI应用后续发展 [2][33] 根据相关目录分别进行总结 字节跳动:发布通用Agent,掀开大厂竞赛帷幕 - 4月18日晚间,字节跳动扣子空间开启内测,定位通用Agent,采用邀请码制,用户可选择通用实习生或行业领域专家,通过与AI互动完成工作任务 [5] - 扣子空间特点:从回答到解决问题全线打通,拥有专家Agent生态,有探索/规划双模式,支持MCP扩展集成 [5] - MCP是开放标准协议,集成MCP扩展可扩展Agent能力边界,国内大厂纷纷布局MCP,有望成为AI时代的HTTP协议,提效AI应用开发、加速生态扩展 [8] - 扣子空间优点:内容全面、输出文档能力优秀、人机协同能力强,支持多任务同时进行,分专家和通用模型,MCP扩展集成解决调用数据问题并提供应用接入入口 [11] - 字节跳动发布扣子空间拉开大厂布局通用Agent序幕,阿里、腾讯等公司有望迅速推进,相关生态有望加速扩张 [2][11] 智谱:全栈自研,开源推动生态 - 3月31日,智谱发布AutoGLM沉思,具备深度研究和实际操作能力,能模拟人类思维过程,完成数据检索、分析到生成报告 [15] - AutoGLM沉思技术演进历经多阶段,核心链路技术与32B/9B GLM模型于4月15日全面开源 [15] - AutoGLM沉思核心在于深度思考、感知世界和工具使用三大能力,以智谱新推出的沉思模型为基础,可通过强化学习提升模型能力 [15] - AutoGLM沉思利用智谱自主研发的全栈大模型技术,新版基座模型GLM - 4 - Air - 0414参数量320亿,新版推理模型GLM - Z1 - Air性能与DeepSeek - R1媲美,推理速度提升8倍,成本降低至1/30 [19] - AutoGLM系列模型在多个测试环境中取得SOTA成绩,特别是在Phone Use和Browser Use基准测试中超越顶尖模型 [19] - AutoGLM沉思能回应开放式复杂问题,已在智谱清言PC客户端上线preview版本,未来两周将扩展更多智能体执行能力 [19] - AutoGLM沉思进步:叠加环境交互能力,输出内容更全面,降低AI技术使用门槛;核心模型逐步开源,推动生态扩展和应用场景催化;比Manus更灵活、高效、易于访问,无明确任务限制,自主研发具备更高灵活性、控制力和成本效益 [20] Genspark:整合多AI模型提供准确响应 - 美国时间4月2日,景鲲发布Genspark超级智能体,宣称是综合性AI助手,可协调多个AI工具高效执行任务,在GAIA Benchmark测试中表现超越多个产品 [28] - Genspark采用整合多AI模型的混合代理(MoA)系统,包含80多个工具集和10多个高级数据集,背后有9个模型,能汇总和优化多个高级模型的响应 [28] - Genspark 3月上线iOS应用程序,定位超级AI应用,集多种功能于一体,新注册用户有免费体验积分,PLUS会员需付费,价格为239.88美元/年或24.99美元/月,每月可获10000使用积分 [31] - Genspark特点:调用不同模型完成任务,内部构建可靠工具集和数据集,信息来自可靠来源,无广告和商业偏见,可提高效率 [31] 投资建议 - Agent时代到来,海外垂直Agent和国内通用Agent发展,相关生态有望快速发展,覆盖下游领域、实现全面自动化 [33] - C端Agent重塑流量入口,B端Agent对垂直私域数据进行智能体改造或将率先落地 [33] 相关标的梳理 - 通用企业Agent领域,用友网络、金蝶国际、泛微网络等公司有相关布局 [34] - 金融领域,中科金财、顶点软件、天阳科技等公司有相关产品和服务 [34] - 政务领域,博思软件、久其软件在相关领域开展应用和预研工作 [34] - 法律领域,华宇软件、金桥信息利用大模型和Agent技术助力业务 [34] - 医疗领域,嘉和美康、国脉科技推出相关智能体产品 [34] - 工业领域,赛意信息、鼎捷数智构建相关平台和智能体 [34] - 虚拟机领域,深信服提供安全和管理相关Agent [34] - 营销领域,新大陆发布AI营销助手 [34]
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 20:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]
Agents和Workflows孰好孰坏,LangChain创始人和OpenAI杠上了
Founder Park· 2025-04-21 20:23
行业观点分歧 - OpenAI发布构建AI Agents的实用指南,主张通过LLMs主导Agent设计[2] - LangChain创始人反对严格区分Agent类型,认为理想框架应允许结构化工作流向模型驱动灵活过渡[2] - Anthropic提出"Agentic系统"概念,将Workflows和Agents视为同一系统的不同表现形式[2][12] - 大模型派(Big Model)强调通用型智能体系统,工作流派(Big Workflow)主张模块化工作流构建[2] Agent定义差异 - OpenAI定义Agent为"能代表用户独立完成任务"的宏观系统[10] - Anthropic将Agent明确区分为预设规则的Workflows和动态决策的Agents[12][13] - 实际生产环境中大多数系统采用Workflows和Agents混合模式[16][20] - 建议采用"Agentic程度"的连续光谱概念替代二元分类[21] 技术实现挑战 - 构建可靠Agent的核心难点在于确保LLM每步获取精准上下文[26][27] - 上下文传递问题常源于系统提示不完整、工具描述不当或响应格式错误[28] - 声明式框架可视化清晰但动态性不足,代码优先方案更灵活但控制复杂[6][41] - 多Agent系统需解决通信机制问题,可采用交接或工作流混合模式[45][46] 框架设计维度 - 成熟框架需同时支持Workflows和Agents两种模式[32] - 需平衡可预测性与自主性,不同应用场景需求各异[33] - 理想框架应兼具低门槛(易用性)与高上限(扩展性)[37][40] - LangGraph采用声明式与命令式混合API,支持持久化与流式传输[30][31] 生产环境考量 - Agentic系统通常需牺牲延迟和成本换取任务表现[20][63] - 企业级应用需特殊功能如人工监督、容错机制和长期记忆存储[53][57] - 垂直领域需定制化方案,通用模型难以满足独特业务需求[67] - 框架价值体现在标准化构建方式、调试工具和生产级功能集成[49]
扣子空间一手实测:字节的第一个Agent,比Manus如何?
Founder Park· 2025-04-21 20:23
产品发布与内测 - 4 月 17 日,豆包·深度思考模型发布,同步升级文生图模型 3.0、视觉理解模型,推出 OS Agent 解决方案及 AI 云原生推理套件[29] - 4 月 18 日晚间,字节跳动扣子空间开启内测,定位通用 Agent,采用邀请码制[3] 产品功能与体验 - 扣子空间用户可选择「通用实习生」或「领域专家」完成工作任务,有探索和规划两种模式,支持添加 MCP 扩展[4][7][13] - 实测中,制定旅游攻略和一周穿搭任务部分完成,专家助手任务出现 Python 脚本调用失败、API 权限异常等 Bug[6] - 接入语音合成工具可将文字攻略转成语音,查天气推荐穿搭可输出图片[15] 专家 Agent 情况 - 扣子空间内置「用户研究专家」和「华泰 A 股观察助手」两个专家 Agent,限时免费,前者单任务平均耗时 4 分钟,后者 23 分钟[24][25] - 「华泰 A 股观察助手」执行任务不稳定,出现数据未获取、Python 脚本调用失败等问题[26][27] 行业趋势与战略 - 2025 年之前被称为 Agent 之年,manus 加速大厂在该领域推进[29] - 做好 Agent 技术上需更强多模态模型、更好架构和工具、降低模型推理成本和延迟,字节或已做好准备[30][31] - 火山引擎通过多种方式全面推进 Agent 生态建设,未来 Agent 定义和应用场景将更清晰[32] - 字节的 Agent 战略以技术突破、生态协同和成本优势为核心[33]