Agent
搜索文档
行业周报:积极关注高景气社交出海、Agent及多模态AI应用-20250427
开源证券· 2025-04-27 22:34
报告行业投资评级 - 看好(维持) [2] 报告的核心观点 - 社交、游戏出海中东北非等地延续高景气,国内成熟商业模式和丰富运营经验,叠加AI赋能及本地化深耕运营,或驱动线上社交产品出海延续高景气,建议关注有布局卡位优势、本地化运营能力突出的公司及有望拓展出海社交业务的公司,重点推荐腾讯控股、盛天网络,受益标的包括赤子城科技、Yalla等 [4] - 国产模型多模态、推理能力持续提升及MCP协议广泛运用,将推动Agent等应用在垂直场景加快落地,拉动推理算力需求,建议继续布局AI,给出大模型/Agent、AI游戏、AI虚拟陪伴等多领域的重点推荐和受益标的 [5] 根据相关目录分别进行总结 行业数据综述 - 游戏方面,截至2025年4月26日22:00,《七日世界》获内地iOS免费榜第一,《王者荣耀》获内地iOS畅销榜第一,《失控进化》为安卓和iOS预约榜第一;重点公司游戏产品iOS游戏畅销榜排名中,《王者荣耀》本周最高排名维持第1名 [12][16][22] - 影视方面,电影《向阳·花》获得周票房冠军;网播剧《无忧渡》表现良好;网播综艺《哈哈哈哈哈第五季》周播映指数第一;台播剧《我的后半生》周市占率第一;台播综艺芒果超媒《乘风2025》周市占率登顶第一;抖音卡牌爆款榜前10名中喝酒之奕金铲铲卡牌本周销量领先 [26][27][29][31] 行业新闻综述 AIGC - 4月24日,Coze首进国内榜前十,Photoroom海外排名跃升13位至海外榜第30;近期AI生成的猎奇内容在全球社交平台掀起热潮;4月17日,腾讯元宝赶超Kimi位居国内榜第四,Poe上升2位进入总榜前十;国产Vidu Q1在权威评测基准中超越Sora、Runway等顶尖模型,勇夺文生视频赛道双榜第一 [33][35][36] 游戏 - 4月21日,国家新闻出版署发布4月国产网络游戏审批信息,118款游戏获批,网易《极限战场》等双端产品入选;4月25日,《原神》茜特菈莉手办首发,预计12月出货;《失落星船:马拉松》测试首日登上Twitch第三 [36][38] 影视/IP - 4月24日,芒果TV与红果短剧达成系列合作,围绕优质成品短剧授权、IP联动开发及联合出品、短剧商业化展开深度合作 [39] 公告总结 - 部分公司发布2024年年报,如蓝色光标2024年收入607.97亿元,同比增速15.55%,归母净利润 -2.91亿元,同比增速 -349.32%等 [39][42] 板块行情综述 - A股传媒板块2025年第17周(4月21日 - 4月25日)下跌0.11%,弱于上证综指、沪深300、深证成指、创业板指;游戏板块表现最好(+1.15%),体育板块表现最差(-0.85%);相对传媒指数/沪深300,游戏板块获得最高超额收益,分别为+1.26%/+0.77% [47] - A股传媒互联网相关个股中,生意宝周涨幅最大(+21.1%),芒果传媒周跌幅最大(-9.68%);美股传媒互联网相关个股中,BTC DIGITAL周涨幅最大(+22.29%),云集周跌幅最大(-7.30%);港股传媒互联网相关个股中,睿见教育周涨幅最大(+23.3%),宇华教育周跌幅最大(-9.86%) [47]
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经
42章经· 2025-04-27 22:10
Agent定义与核心特征 - Agent是基于环境反馈使用工具的程序 采用Anthropic的定义[2] - 核心三要素包括状态(Context)、行动(Tool Use)、激励信号(RL反馈机制)[32][33] - 与RL强关联 需理解强化学习才能设计优质Agent产品[31] Agent技术演进 - 2023年4月AutoGPT为代表的早期Agent更像玩具 实际应用价值有限[4] - 当前Agent已能在工作生活场景中真正解决问题 实现价值跃迁[5] - 进步源于:1)底层模型能力提升(如RL结合、长思维) 2)工程产品突破(Context构建)[6][7] Context工程创新 - Context是大模型执行任务所需信息总和 不同产品Context构成不同[8] - 相比传统RAG Agent能自动化提炼Context 减少人工干预[10][11] - 优质Context需包含用户历史行为路径 如APP打开瞬间即提供海量意图线索[48][49] Tool Use技术方案 - Function Call/MCP/A2A属于代码驱动派 Computer Use/Browser Use属于视觉模拟派[13] - MCP核心价值在于统一Tool Use标准 降低工具调用门槛[12] - Browser Use存在纯视觉方案(如已倒闭的Adept)和API包装方案 后者更成熟稳定[15] 产品设计方法论 - Chat是最佳交互入口 保障用户自由度优于追求准确度[41] - 需解决双重信任问题:开发者信任模型能力 用户信任执行过程[52][54] - 垂直领域Agent将长期主导 通用Agent面临收敛困难[25][46] 行业竞争格局 - 当前Agent可分为:1)Coding Agent(交付代码) 2)调研Agent(交付报告) 3)表格Agent(定量分析)[61][64] - Sheet0实现100%准确率 核心在于模块化工具复用与AI Coding验证[57][67] - AI Coding与Agent存在协同效应 但直接编码执行任务成本过高[29][30] 发展关键变量 - 模型能力突破与Context工程进步是两大核心驱动因素[69][70] - 需构建完整评估体系(激励信号) 确保系统可收敛[35][71] - 产品需平衡通用性与准确性 不同场景选择不同技术路径[59][60]
Manus估值36亿了?
投中网· 2025-04-27 14:35
公司融资与估值 - Manus AI背后的公司"蝴蝶效应"获得由Benchmark领投的7500万美元融资,约合5.46亿人民币[2] - 此前已从腾讯、真格基金和红杉中国等投资人处筹集超过1000万美元[2] - 本轮融资使公司估值增长约5倍,达到近5亿美元,约合36.44亿人民币[2] - Benchmark此前还投资过HeyGen和Sema4.ai两个华人AI创业项目[3] 产品与技术 - 3月发布尚在内测中的通用AI Agent,能独立处理简历筛选、行程规划和股票分析等任务[3] - 订阅服务价格为每月39美元,高级版本199美元[3] - 基于开源模型和第三方API构建工程化能力,核心优势在于任务规划与执行框架[8] - 使用Anthropic的Claude 3.5 Sonnet v1和阿里巴巴Qwen模型[12] - 单任务平均成本约2美元,发布后两周内在Claude模型上花费超过100万美元[12] 市场与竞争 - 计划将服务扩展至美国、日本和中东市场[3] - 被《MIT技术评论》评价为中国AI公司积极普及Agent的代表[9] - 字节推出Agent产品"扣子空间",基于自研豆包大模型[13] - OpenAI推出强调Agent能力的o3和o4 mini模型[13] - 智谱发布Agent产品AutoGLM沉思,号称首个集深度研究能力和操作能力于一体的Agent[13] - Genspark发布Super Agent,宣称在GAIA Benchmark上超越Manus[13] 团队背景 - 三位合伙人分别为肖弘、季逸超和张涛[5] - 创始人肖弘曾创立夜莺科技,推出"壹伴助手"和"微伴助手",获腾讯和真格基金投资[5] - 联合创始人季逸超曾创立Peak Labs,开发"中文互联网最大通用知识图谱"Magi系统[5] - 产品合伙人张涛曾任光年之外产品负责人[5] 行业趋势 - 模型推理能力提升使Agent成为2025年最热的AI投资方向[2] - 2025年被称作Agent元年[2] - AI Agent对算力需求巨大,带动相关基础设施投资[10] - CoreWeave上市市值近200亿美元,主营业务为GPU租赁[9]
Windsurf团队科普Agent:不是什么都叫智能体!
Founder Park· 2025-04-25 21:29
Agent核心概念解析 - Agent系统本质是「LLM+工具」的循环结构 接收用户输入后交替调用推理模型和工具 推理模型决定行动步骤 工具执行具体操作并将结果反馈至信息流[5][6] - 推理模型的核心功能是选择工具和参数 而非单纯生成内容 其输出包含行动原因解释和结构化参数指令 工具则独立于LLM 涵盖计算器 系统时间等非文本功能[6][8] - 典型误用场景包括将思维链提示(CoT)等同于Agent推理 或混淆AI工作流与Agent系统 前者是LLM内部思考过程 后者是预设流程缺乏实时工具决策能力[8] Agent系统优势与分类 - 协作式Agent通过人类实时干预降低可靠性门槛 当前主流应用如Windsurf Cascade GitHub Copilot Workspaces均采用此模式 与完全自主Agent形成技术路径差异[16][17] - 工具集成弥补LLM短板 如数学计算 实时数据获取等 使系统能力突破文本生成限制 同时支持状态改变类操作(如发送短信) 超越RAG系统的信息检索范畴[12] - 发展历程显示 Copilot式单次调用系统率先落地 而AutoGPT(2023)和Devin等自主Agent受限于端到端可靠性 尚未大规模普及[13][15] Agent系统构建关键问题 - 工具生态决定能力边界 需评估工具独特性(如Windsurf网页解析技术)和扩展性 同时数据访问需平衡范围与控制 如代码库访问深度影响效果但增加权限复杂度[22][23] - 延迟优化涉及全技术栈 包括模型推理加速 提示工程缓存 工具并行化等 需权衡质量与响应速度 高延迟会放大失败成本[26] - 用户体验设计包含意图捕捉(隐式信号利用) 改动可视化审查(如IDE多文件修改) 以及非Agent功能融合 避免过度Agent化简单任务[24][27][29] 行业发展趋势 - 「苦涩的教训」警示过度依赖人工设计的风险 算力增长可能使定制化提示 工具选择等投入失效 需保持技术路径灵活性[31] - 协作式Agent现阶段更符合商业落地需求 因其降低了对LLM绝对可靠性的依赖 通过人机协同实现可控产出[17][19]
人工智能行业专题:大厂Agent来临,MCP拓宽应用边界
国信证券· 2025-04-24 15:52
报告行业投资评级 - 优于大市(维持评级) [1] 报告的核心观点 - Agent发展打开人机协同全新范式,为AI应用提供新发展思路,未来模型能力持续提升,各领域Agent将成模型触达终端用户的载体,持续看好AI应用后续发展 [2][33] 根据相关目录分别进行总结 字节跳动:发布通用Agent,掀开大厂竞赛帷幕 - 4月18日晚间,字节跳动扣子空间开启内测,定位通用Agent,采用邀请码制,用户可选择通用实习生或行业领域专家,通过与AI互动完成工作任务 [5] - 扣子空间特点:从回答到解决问题全线打通,拥有专家Agent生态,有探索/规划双模式,支持MCP扩展集成 [5] - MCP是开放标准协议,集成MCP扩展可扩展Agent能力边界,国内大厂纷纷布局MCP,有望成为AI时代的HTTP协议,提效AI应用开发、加速生态扩展 [8] - 扣子空间优点:内容全面、输出文档能力优秀、人机协同能力强,支持多任务同时进行,分专家和通用模型,MCP扩展集成解决调用数据问题并提供应用接入入口 [11] - 字节跳动发布扣子空间拉开大厂布局通用Agent序幕,阿里、腾讯等公司有望迅速推进,相关生态有望加速扩张 [2][11] 智谱:全栈自研,开源推动生态 - 3月31日,智谱发布AutoGLM沉思,具备深度研究和实际操作能力,能模拟人类思维过程,完成数据检索、分析到生成报告 [15] - AutoGLM沉思技术演进历经多阶段,核心链路技术与32B/9B GLM模型于4月15日全面开源 [15] - AutoGLM沉思核心在于深度思考、感知世界和工具使用三大能力,以智谱新推出的沉思模型为基础,可通过强化学习提升模型能力 [15] - AutoGLM沉思利用智谱自主研发的全栈大模型技术,新版基座模型GLM - 4 - Air - 0414参数量320亿,新版推理模型GLM - Z1 - Air性能与DeepSeek - R1媲美,推理速度提升8倍,成本降低至1/30 [19] - AutoGLM系列模型在多个测试环境中取得SOTA成绩,特别是在Phone Use和Browser Use基准测试中超越顶尖模型 [19] - AutoGLM沉思能回应开放式复杂问题,已在智谱清言PC客户端上线preview版本,未来两周将扩展更多智能体执行能力 [19] - AutoGLM沉思进步:叠加环境交互能力,输出内容更全面,降低AI技术使用门槛;核心模型逐步开源,推动生态扩展和应用场景催化;比Manus更灵活、高效、易于访问,无明确任务限制,自主研发具备更高灵活性、控制力和成本效益 [20] Genspark:整合多AI模型提供准确响应 - 美国时间4月2日,景鲲发布Genspark超级智能体,宣称是综合性AI助手,可协调多个AI工具高效执行任务,在GAIA Benchmark测试中表现超越多个产品 [28] - Genspark采用整合多AI模型的混合代理(MoA)系统,包含80多个工具集和10多个高级数据集,背后有9个模型,能汇总和优化多个高级模型的响应 [28] - Genspark 3月上线iOS应用程序,定位超级AI应用,集多种功能于一体,新注册用户有免费体验积分,PLUS会员需付费,价格为239.88美元/年或24.99美元/月,每月可获10000使用积分 [31] - Genspark特点:调用不同模型完成任务,内部构建可靠工具集和数据集,信息来自可靠来源,无广告和商业偏见,可提高效率 [31] 投资建议 - Agent时代到来,海外垂直Agent和国内通用Agent发展,相关生态有望快速发展,覆盖下游领域、实现全面自动化 [33] - C端Agent重塑流量入口,B端Agent对垂直私域数据进行智能体改造或将率先落地 [33] 相关标的梳理 - 通用企业Agent领域,用友网络、金蝶国际、泛微网络等公司有相关布局 [34] - 金融领域,中科金财、顶点软件、天阳科技等公司有相关产品和服务 [34] - 政务领域,博思软件、久其软件在相关领域开展应用和预研工作 [34] - 法律领域,华宇软件、金桥信息利用大模型和Agent技术助力业务 [34] - 医疗领域,嘉和美康、国脉科技推出相关智能体产品 [34] - 工业领域,赛意信息、鼎捷数智构建相关平台和智能体 [34] - 虚拟机领域,深信服提供安全和管理相关Agent [34] - 营销领域,新大陆发布AI营销助手 [34]
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 20:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]
Agents和Workflows孰好孰坏,LangChain创始人和OpenAI杠上了
Founder Park· 2025-04-21 20:23
行业观点分歧 - OpenAI发布构建AI Agents的实用指南,主张通过LLMs主导Agent设计[2] - LangChain创始人反对严格区分Agent类型,认为理想框架应允许结构化工作流向模型驱动灵活过渡[2] - Anthropic提出"Agentic系统"概念,将Workflows和Agents视为同一系统的不同表现形式[2][12] - 大模型派(Big Model)强调通用型智能体系统,工作流派(Big Workflow)主张模块化工作流构建[2] Agent定义差异 - OpenAI定义Agent为"能代表用户独立完成任务"的宏观系统[10] - Anthropic将Agent明确区分为预设规则的Workflows和动态决策的Agents[12][13] - 实际生产环境中大多数系统采用Workflows和Agents混合模式[16][20] - 建议采用"Agentic程度"的连续光谱概念替代二元分类[21] 技术实现挑战 - 构建可靠Agent的核心难点在于确保LLM每步获取精准上下文[26][27] - 上下文传递问题常源于系统提示不完整、工具描述不当或响应格式错误[28] - 声明式框架可视化清晰但动态性不足,代码优先方案更灵活但控制复杂[6][41] - 多Agent系统需解决通信机制问题,可采用交接或工作流混合模式[45][46] 框架设计维度 - 成熟框架需同时支持Workflows和Agents两种模式[32] - 需平衡可预测性与自主性,不同应用场景需求各异[33] - 理想框架应兼具低门槛(易用性)与高上限(扩展性)[37][40] - LangGraph采用声明式与命令式混合API,支持持久化与流式传输[30][31] 生产环境考量 - Agentic系统通常需牺牲延迟和成本换取任务表现[20][63] - 企业级应用需特殊功能如人工监督、容错机制和长期记忆存储[53][57] - 垂直领域需定制化方案,通用模型难以满足独特业务需求[67] - 框架价值体现在标准化构建方式、调试工具和生产级功能集成[49]
扣子空间一手实测:字节的第一个Agent,比Manus如何?
Founder Park· 2025-04-21 20:23
产品发布与内测 - 4 月 17 日,豆包·深度思考模型发布,同步升级文生图模型 3.0、视觉理解模型,推出 OS Agent 解决方案及 AI 云原生推理套件[29] - 4 月 18 日晚间,字节跳动扣子空间开启内测,定位通用 Agent,采用邀请码制[3] 产品功能与体验 - 扣子空间用户可选择「通用实习生」或「领域专家」完成工作任务,有探索和规划两种模式,支持添加 MCP 扩展[4][7][13] - 实测中,制定旅游攻略和一周穿搭任务部分完成,专家助手任务出现 Python 脚本调用失败、API 权限异常等 Bug[6] - 接入语音合成工具可将文字攻略转成语音,查天气推荐穿搭可输出图片[15] 专家 Agent 情况 - 扣子空间内置「用户研究专家」和「华泰 A 股观察助手」两个专家 Agent,限时免费,前者单任务平均耗时 4 分钟,后者 23 分钟[24][25] - 「华泰 A 股观察助手」执行任务不稳定,出现数据未获取、Python 脚本调用失败等问题[26][27] 行业趋势与战略 - 2025 年之前被称为 Agent 之年,manus 加速大厂在该领域推进[29] - 做好 Agent 技术上需更强多模态模型、更好架构和工具、降低模型推理成本和延迟,字节或已做好准备[30][31] - 火山引擎通过多种方式全面推进 Agent 生态建设,未来 Agent 定义和应用场景将更清晰[32] - 字节的 Agent 战略以技术突破、生态协同和成本优势为核心[33]
复盘字节扣子空间开发历程:瞄准工作场景,做一个 Agent 系统
晚点LatePost· 2025-04-21 17:36
字节AI产品扣子空间内测表现 - 字节Agent产品"扣子空间"4月18日内测开启后因用户涌入导致服务器崩溃,验证市场对实用型AI产品的强烈需求[3] - 产品定位为"与Agent一起开始你的工作",聚焦解决工作场景复杂问题,由豆包大模型驱动并支持MCP协议调用飞书等工具[4] - 通用Agent提供探索模式(自动执行)和规划模式(需用户确认),后者在测试中表现更优,能完成收集行业动态等任务[5][7] 产品功能与测试案例 - 通用Agent可开发提醒喝水App:分析竞品→收集需求→输出交互式网页方案[8] - 处理关税查询等复杂任务时存在信息过时问题,但会主动生成可视化网页文件[10] - 专家Agent体系包含用户研究专家(提炼访谈记录为产品建议)和华泰A股观察助手(分析上市公司数据)[12][14][16] - 中美关税对宁德时代影响分析案例:拆解6步骤耗时40分钟,输出包含市场拓展建议的报告[22][24] 技术架构与竞争优势 - 采用豆包1.5 Pro为主模型,因其工具调用和多模态处理能力突出且推理成本低[28] - 背靠字节生态优势:整合扣子平台200万+AI应用数据、飞书文档工具链及火山引擎部署能力[28] - 通过MCP协议实现飞书文档双向读写,解决私有数据访问关键问题[28] - 行业竞争壁垒在于数据/工具调用能力而非基础模型差异[31] 产品战略与行业动态 - 当前版本定位为"打样",目标构建通用+专家Agent协同的开放系统[4][33] - 快速上线策略旨在获取用户反馈优化产品层,弥补基础模型局限[32] - 国内大厂均在加速布局Agent赛道,扣子空间属于先行者之一[33]
火山总裁谭待:很多Agent的能力还停留在类似自动驾驶的L1阶段
快讯· 2025-04-17 19:17
行业发展方向 - 目前很多Agent的能力仍停留在初级水平,真正实现具备更强反思、规划与自主决策能力的Agent是行业发展的方向 [1] - 深度思考模型是构建Agent的基础,模型需要具备思考、计划和反思能力,并且支持多模态,才能更好地处理复杂任务 [1] 公司动态 - 字节跳动旗下火山总裁谭待在火山引擎2025FORCE LINK AI创新巡展上表示,豆包1.5深度思考模型正式发布 [1] - 豆包1.5深度思考模型在数学、编程、科学推理、创意写作等通用任务表现突出,并上线了具备视觉推理能力的视觉版 [1] - 视觉版模型能像人类一样对看到的事物进行联想和思考 [1]