AI Agent

搜索文档
喝点VC|a16z对话千万美金ARR的AI Agent 11x:倾听客户的痛点并以此指导产品路线图,让客户“参与”并建立信任感
Z Potentials· 2025-04-07 11:48
Prabhav Jain 目前担任 11x 的 CTO 。他曾是 Brex 的 Web3 总经理, Compose Labs 的 Co-founder 兼 CEO ,以及 EagerPanda 的 Co-founder 人兼 CTO 。 11x 致力于开发自主数字工作者,帮助组织优化流程。本文为 Prabhav Jain 和 a16z 的合伙人 Joe Schmidt 在 a16z YouTube 节目上的座谈实录。 Joe Schmidt : Prabhav ,感谢你的到来。 图片来源: a16z Prabhav Jain : 谢谢邀请。 Z Highlights Prabhav Jain : 这个问题很好。现在 Agent 这个词被频繁提及,似乎只要使用 LLM 就是一家 Agent 公司,也就是说,每家公司都可以被归到这一类。 但 对我们来说,真正的 Agent 必须具备规划、推理、反思、思考,并随着时间推移不断优化的能力。 对我而言,这才是真正的 Agency 。而真正让我感兴趣 的问题是那些没有明确答案的问题 —— 甚至连人类都无法给出唯一正确答案的问题。比如,什么样的文章算是好文章?这个标准很难量 ...
TMT行业周报(4月第1周):国产大模型加速迭代
世纪证券· 2025-04-07 09:45
报告行业投资评级 未提及 报告的核心观点 - TMT板块上周各一级行业均下跌,通信、传媒、计算机、电子跌幅分别为-0.79%、-1.28%、-1.87%、-2.71%;涨幅靠前的三级子行业为教育出版、半导体设备、其他通信设备,跌幅靠前的为消费电子零部件及组装、印制电路板、品牌消费电子 [3] - 国产大模型加速迭代,3月27日豆包上线推理模型,输出结果准确率及完整度优于DeepSeek;3月31日智谱发布AutoGLM沉思版等,推理效果好、速度快、价格低且信息来源丰富;看好国产大模型后续迭代,应用端向AI Agent转变,算力消耗将显著增加,建议关注国内算力产业链 [3] 根据相关目录分别进行总结 市场周度回顾 - TMT板块内一级行业上周(3/31 - 4/03)涨跌情况为通信-0.79%、传媒-1.28%、计算机-1.87%、电子-2.71% [3] - TMT板块内涨幅靠前的三级子行业为教育出版3.38%、半导体设备2.79%、其他通信设备1.71%,跌幅靠前的为消费电子零部件及组装-8.10%、印制电路板-6.50%、品牌消费电子-5.33% [3] - 电子周涨幅前三标的为ST宇顺21.54%、旭光电子16.17%、长阳科技14.51%;计算机周涨幅前三为信雅达21.95%、宏景科技16.95%、开普云10.52%;传媒周涨幅前三为川网传媒8.26%、中南传媒7.45%、横店影视7.11%;通信周涨幅前三为恒宝股份12.35%、东土科技9.31%、ST高鸿8.23% [3] 行业要闻及重点公司公告 行业重要事件 - **AI模型侧**:4月有多场行业大会;美国加州大学研究称GPT - 4.5通过三方图灵测试比例达73%;OpenAI推出评估基准PaperBench;deepseek关联公司申请专利;阿里将发布新模型Qwen3;OpenAI有多项动态;国家天文台联合阿里云发布太阳模型“金乌”;软银寻求贷款;智谱发布产品并将开源模型;百度发布语音语言大模型 [16][17] - **AI应用侧**:人工智能算法可提前两周预测严重心律失常风险,准确率超70%;2025年全球生成式人工智能支出将达6440亿美元,较2024年增长76.4%,80%用于硬件;微软CTO预言AI智能体记忆能力将突破;Meta研发高端AI智能眼镜;宇树科技发布灵巧手;中国银行北京分行提供金融支持;广东拟实施机器人专项;加州大学在脑机接口领域有突破;南京大学与阿里云合作培养AI人才;游戏发行商认为AI难创爆款 [18][19] - **AI算力侧**:Rapidus公司启动2纳米制程工艺半导体试验生产线,日本政府支援约1.8万亿日元;杭州与阿里巴巴加强算力合作;猜测苹果购英伟达产品,郭明錤认为规模小;重庆发布项目涉及金额超478亿元;IDC预测2029年中国加速服务器市场规模超千亿美元,非GPU服务器接近50% [20][21] 公司公告 - 2025年2月国内市场手机出货量1966.2万部,同比增长37.9%,5G手机1798.2万部,同比增长43.5%;华为2024年销售收入8621亿元,同比增长22.4%,净利润626亿元,同比减少28%,研发投入1797亿元,约占收入20.8% [22] - 多家公司有收购、减持、投资、业绩等相关公告,如泰晶科技完成收购,凯德石英拟减持,锐捷网络2024年净利润同比增长43.09%等 [22][23] - 润建股份拟开展不超50亿元资产池业务;移远通信拟定增募资不超23亿元 [24]
刚刚!AI,传出重磅消息!
券商中国· 2025-04-01 20:45
OpenAI最新融资与估值 - OpenAI完成400亿美元新一轮融资,投后估值达3000亿美元,较2023年10月的1570亿美元估值增长91% [1][2][3] - 本轮融资由软银集团主导,微软、Coatue等早期投资者参与,软银计划投资不超过300亿美元,首笔100亿美元将于4月中旬支付 [2][4] - 3000亿美元估值使OpenAI成为全球估值第二高的非上市企业,仅次于SpaceX(3500亿美元) [4] 资金用途与战略规划 - 约180亿美元将用于Stargate基础设施项目,与软银、甲骨文合作建设数据中心网络 [3] - 公司计划年底前完成营利性部门重组,若未完成软银有权将投资额从300亿美元减至200亿美元 [4] - 资金将用于推进AI研究、扩展计算基础设施、服务5亿周活用户 [2] 财务表现与增长预期 - 预计2024年收入达127亿美元,较2023年37亿美元增长243% [6] - 2025年收入目标294亿美元,显示持续高速增长预期 [6] 技术发展与竞争策略 - 将发布自GPT-2以来首个开源语言模型,计划举办全球开发者活动收集反馈 [5][7] - 新开源模型将具备类似o3-mini的推理能力,采用准备框架进行评估 [8] - 更新Agent SDK支持MCP服务,实现第三方工具无限接入 [8] 行业影响与竞争格局 - 估值飙升可能提升市场对AI企业整体估值,吸引更多资金进入AI领域 [1] - 面临Meta等开源竞争对手压力,Llama系列下载量已超10亿次 [8] - 科技巨头将AI Agent视为2025年重点发展方向 [9] 合作伙伴关系 - 软银董事长孙正义称AI是"塑造人类未来的决定性力量" [4] - 与软银合作将加速AGI发展,推动科学发现、个性化教育等领域 [2]
速递|前OpenAI团队操刀,Nova Act浏览器AI助手,测试得分超竞品OpenAI
Z Potentials· 2025-04-01 11:49
亚马逊Nova Act AI Agent发布 - 亚马逊发布通用AI Agent技术Nova Act 旨在与OpenAI Operator和Anthropic Computer Use竞争 通过控制网页浏览器执行简单操作提升AI聊天机器人实用性 [1] - Nova Act由亚马逊AGI实验室开发 将集成至Alexa+升级版本 目前提供研究预览版 开发者可通过nova.amazon.com访问SDK工具包构建原型 [2] - 功能覆盖自动订餐、网页浏览、表单填写等基础操作 亚马逊称其内部测试表现优于OpenAI CUA(88%)和Anthropic Claude 3.7 Sonnet(90%) 在ScreenSpot Web Text测试中得分94% [3][4] 技术细节与团队背景 - Nova Act未采用WebVoyager等常见AI Agent评估标准 但通过SDK允许开发者定义工作流中的人类干预节点 以提高应用可靠性 [5][6] - 开发团队由前OpenAI研究员David Luan和Pieter Abbeel领导 二人曾创立Adept与Covariant 被亚马逊挖角后主导AI Agent项目 目标为实现"计算机上人类可完成的任何任务" [6] 市场竞争与行业意义 - 亚马逊凭借Alexa+的广泛用户基础 可能实现AI Agent技术最大覆盖范围 但需解决早期竞品(如OpenAI/谷歌/Anthropic)存在的响应延迟、操作失误等问题 [7] - Nova Act作为AGI实验室首款公开产品 被视为亚马逊AI战略关键 其表现将影响长期延迟的Alexa+市场反响 [7] (注:文档id 8-13为无关招聘信息 已跳过)
深度|Agent 2025 趋势,编排工具向左,自主智能向右,智谱AutoGLM沉思如何押注?
Z Potentials· 2025-03-31 14:34
AI Agent技术演进与现状 - 智谱AI发布的AutoGLM沉思系统标志着AI Agent技术进入第三代演进周期,展现出垂直领域落地实践的适应性和创新潜力[2] - 2025年Q1行业突破:OpenAI的DeepResearch实现无提示词自主搜索,Anthropic的Claude 3.7代码生成超越人类工程师团队,智谱AutoGLM具备"边思考边行动"能力[4] - 技术发展三阶段:1.0时代(2022-2023)简单工具调用,2.0时代(2023-2024)基础任务规划,3.0时代(2025至今)自主思考决策[8] AI Agent核心挑战 - 执行可靠性问题:WebArena基准显示顶级系统成功率仅35.8%(SteP),GPT-4低至14.9%,存在推理不连贯、记忆有限、决策黑盒化缺陷[4] - 泛化能力短板:跨领域迁移表现不佳,模块优化可能引发整体性能下降的悖论[5] - 效率与成本压力:大模型API调用成本高,多轮交互延迟制约规模化应用,多Agent协作场景问题加剧[5] OpenAI技术路径 - DeepResearch采用强化学习自对弈训练,实现从搜索策略到页面交互的全自主操作,含动态自适应工作流、链式思维评分器、沙箱化Python环境三大突破[11] - 技术理念:主张端到端训练优于模块化设计,强化学习是下一代Agent关键技术,让AI自主寻找解决方案[12] - 终极形态构想:All-in-one Agent整合网络搜索、计算机操作、多模态功能(图像/图表生成)[12] Anthropic技术突破 - Claude 3.7 Sonnet三大进展:SWE-bench得分提升20%支持千行代码生成,混合推理模型整合LLM与强化学习,多模态CUA模型实现跨软件操作[15] - MCP协议成为战略重点:开源标准化接口获2000+服务支持,构建"MCP+Claude Code+Computer Agent"智能操作系统架构[16][17] - 战略转型:从单一模型优化转向开放生态系统建设,平衡技术领先与生态推进[17] 智谱AI创新实践 - AutoGLM沉思系统基于GLM-Z1-Air模型,推理速度提升8倍,成本降至1/30,支持20+思考步骤的深度反思能力[22] - 技术差异化:融合深度思考与环境互动,实现"边想边干"模式,可操作浏览器访问未开放API信息源(知网/小红书等)[22] - 自主研发路径:GLM-Z1-Rumination模型通过强化学习优化,性能对标DeepSeek-R1但具成本优势[23] 行业发展趋势 - 消费端"模型即应用"与产业端Agentic平台生态并行发展,智谱同时布局消费级产品和商业生态[25] - 技术范式转变:从预设流程转向动态自主,强化学习成为关键技术共识(OpenAI端到端训练 vs Anthropic混合方案)[19] - 中国厂商崛起:智谱通过AutoGLM重新定义人机协作可能性,技术路径兼具创新性与性价比[22][23]
国产AI起号两周就开始自己赚钱了,全球首个“边想边干”的Agent | 免费无限次
量子位· 2025-03-31 12:35
核心观点 - AI Agent(智谱沉思及AutoGLM沉思)通过自主搜索、分析、执行任务,实现高效内容生成与商业变现,14天内为小红书账号吸粉5000并盈利[1][2][11] - 该技术突破体现在成本(免费无限次使用)、速度(比竞品快8倍)、功能(深度研究+操作执行一体化)及拟人化交互能力[6][8][9][33] - 行业意义:推动AI从工具向自主智能助手进化,开启L3级"自主智能体"探索,可能重塑人机交互模式[42][44][46] 产品功能与技术 智谱沉思 - 基于自研推理模型GLM-Z1-Air,处理开放式问题时自动搜索上百信源并生成完整报告[3][5] - 性能对标DeepSeek-R1但速度提升8倍,价格仅为1/30,支持消费级显卡运行[6][40] - 零成本无限次使用,打破ChatGPT同类功能200美元/月且限120次查询的限制[8] AutoGLM沉思 - 全球首个深度研究+操作执行一体化Agent,可自动完成网页浏览、邮件发送、征稿写作等任务[9][10] - 实测6分钟内完成行业分析报告,包含市场需求分析、竞品研究及6个月产品路线图(含时间节点与资源分配)[16][17][20] - 支持多场景应用:实时推荐社交活动(如北京中关村论坛)、星座营销策划(结合周易五行生成12星座咖啡方案)[24][27][28] 技术实现 - 基座模型GLM-4-Air-0414通过推理类数据预训练及智能体任务优化,强化代码编写与工具调用能力[41] - GLM-Z1-Rumination模型通过强化学习提升长程推理能力,4月14日起陆续开源相关模型与技术[41] - 四大特性:自主性(独立决策执行)、适应性(动态学习优化)、交互性(自然语言沟通)、功能性(垂直领域任务处理)[34][35][36][37] 行业影响 - 降低AI Agent应用门槛:低成本+高性能特性推动大规模商业化落地[46] - 重新定义人机协作:AI从被动工具升级为具备感知、工具使用能力的类人助手[43][45] - 竞争格局变化:智谱通过技术突破(如操作执行一体化)建立行业先发优势[9][46]
智谱发布AutoGLM沉思版,背后推理模型媲美DeepSeek-R1:推动AI Agent进入「边想边干」阶段
IPO早知道· 2025-03-31 12:07
核心观点 - 智谱正式发布全球首个集深度研究与实际操作能力于一体的AI Agent AutoGLM沉思,推动AI进入"边想边干"阶段 [3][5][6] - AutoGLM沉思融合深度思考、感知世界和工具使用三大能力,突破传统AI局限,实现长程推理和任务执行 [7][8][9] - 智谱在AI Agent领域持续创新,从Function Call到智能体编排再到设备操控智能体,保持技术领先 [6] - 公司自主研发全栈大模型技术,包括基座模型、推理模型和沉思模型,将于4月14日开源 [13][14][28] 技术演进 - 技术路径:GLM-4基座模型→GLM-Z1推理模型→GLM-Z1-Rumination沉思模型→AutoGLM模型 [3] - 新版基座模型GLM-4-Air-0414:320亿参数,优化智能体任务能力,32B参数量比肩更大模型 [15] - 新版推理模型GLM-Z1-Air:深度优化通用能力,推理速度提升8倍,成本降低至1/30,可在消费级显卡运行 [17][19][21] - 沉思模型GLM-Z1-Rumination:通过强化学习提升长程推理能力,结合实时搜索、工具调用和深度分析 [24][26] 性能表现 - AutoGLM系列在AgentBench评测中取得SOTA成绩,Phone Use任务成功率提升超20%,Browser Use超越GPT-4o和Claude-3.5-Sonnet [10] - 自研模型GLM-PC(CogAgent)仅9B参数即超越GPT-4o + UGround等更大规模模型 [12] - GLM-Z1-Air在AIME 24/25、LiveCodeBench等基准测试展现强大数理推理能力 [17] 生态布局 - 战略聚焦Agentic GLM研发,推动智能体技术发展,搭建Agentic LLM平台助力生态合作伙伴 [31] - 已携手金融、教育、医疗、政务等领域合作伙伴推进Agentic LLM落地应用 [33][34] - 与多个城市达成合作,推动当地大模型应用生态建设 [34] - 推动中国AI解决方案出海,帮助"一带一路"国家构建自主大模型,发起"自主大模型国际共建联盟" [35]
喝点VC|a16z华裔合伙人:MCP正重塑AI Agent生态,有望成为AI与工具交互的默认接口
Z Potentials· 2025-03-29 11:57
MCP协议概述 - MCP是2024年11月推出的开放协议 旨在为AI模型与外部工具交互提供统一标准接口 解决当前工具调用碎片化问题[2][3] - 借鉴LSP协议设计思路但创新性地采用以Agent为核心的执行模型 支持自主AI工作流和人类参与环节[5] - 定义AI模型调用外部工具、获取数据及服务交互的通用方式 例如Resend MCP server可同时协同多个客户端[3][5] MCP技术特点 - 推动工具从API向"Agent友好型"高阶抽象演进 例如封装多个API为draft_email_and_send()等符合任务逻辑的调用方式[6] - 支持动态工具选择机制 AI Agent可根据速度、成本、相关性实时选择最优MCP server[6][31] - 正在形成类似npm的生态体系 Mintlify、Smithery等工具市场加速MCP server的发现与共享[6][19] 当前应用场景 - Cursor作为典型MCP client展示"全能应用"潜力 通过接入Slack/Resend/Replicate等server实现代码编辑/通讯/邮件/图像生成多功能集成[8] - 开发者工作流优化:在IDE内直接执行Postgres SQL命令、管理Upstash缓存 减少上下文切换[10] - 非技术用户可通过Claude Desktop等平台使用MCP工具 未来将拓展至客服、营销、设计等业务场景[13] 生态发展现状 - 客户端以编程开发为核心 但预计将出现更多商业场景专用client[18] - server多为本地优先架构 未来将向远程连接和Streamable HTTP协议发展[18] - 基础设施工具加速完善 Mintlify、Cloudflare等平台解决部署、扩展和密钥管理问题[19] 未来技术挑战 - 需解决多租户架构支持 企业用户要求数据层与控制层分离的托管方案[21][22] - 缺乏统一身份验证机制 需构建涵盖客户端认证、工具认证、多用户验证的完整体系[23] - 权限控制需从session级细化 避免OAuth 2.1授权导致的"蜘蛛网式"权限结构[24] - Gateway组件将成为关键中间层 统一管理认证、路由、负载均衡等功能[25] 行业影响预测 - 开发者工具公司竞争维度改变 需设计可被agent自主发现的高质量工具[31] - 可能催生基于性能指标的动态定价模式 取代传统固定订阅制[31] - API设计范式转向任务场景导向 例如draft_email_and_send()复合函数将取代单一send_email()[32] - 文档机器可读性成为基础设施关键 支持基于文档自动生成MCP server[32]
Z Research|AI Agent会孕育下一代腾讯字节吗?(AI Agent 系列一)
Z Potentials· 2025-03-28 10:37
AI Agent 101 - AI Agent 是 AI 进程中的重要阶段,对应 L4 等级,从"成本中心"转向"价值引擎",但仍处于早期阶段,距离 AGI 尚有巨大工作量 [6] - AI 应用形态从 Chatbot 到 AI Copilot 再到 AI Agent,背后是 AI 能力的进化,实现更高任务难度和自动化程度,人机交互范式从"主从式"转向"伙伴式" [11] - AI 进程划分为 L1-L6,其中 Copilot 和 Agent 分别对应 L3-L4,反映 AI 应用从 GTM 阶段进入 PMF 阶段 [6] 入口之争 3.0 - 互联网入口演变史是技术满足需求的历史,从门户网站到搜索引擎再到超级 APP,每次入口革命都缩短意图与满足之间的路径 [22] - AI 时代入口形态依赖技术栈特点,LLM 的算力密集、人才密集、数据密集特性可能导向中心化,但 Deepseek 的出现带来悬念 [22] - 中美市场差异显著:美国市场硬件入口集中,AI Agent 与硬件强绑定胜率高;中国市场硬件入口分散,超级 APP 更可能掌握 AI Agent 话语权 [26] AI Agent 商业模式与挑战 - AI Agent 商业模式可能从已有 APP 盘子夺食,围绕数据权限引发剧烈反击,变现路径中平台分成和消费贷较为可行 [30] - AI Agent 面临高昂推理成本(单任务约 2$/次,能耗达纯 LLM 的 8 倍)、复杂环境适应能力不足、开放域任务失败率高达 30% 等技术卡点 [32] - 商业模型难以跑通,ROI 问题突出,当人类员工时薪低于 Agent 耗能成本时,效率革命故事将破灭 [32] AI Agent 市场竞争格局 - 大厂和大模型厂商在短期更具优势,资金、用户基础和数据积累提供巨大容错率;创业公司致胜之道在于抢先做出 Agent 领域 SOTA [3][39] - AI Agent 赛道可能被现有巨头主导,创业公司可通过聚焦细分领域实现高增长,如 Midjourney 在生图赛道的成功案例 [39] - 市场呈现三类玩家:大厂、大模型厂商和 Agent 创业公司,竞争烈度大于模型层,价格战和数据权限之争不可避免 [3] AI 时代创业新范式 - AI Copilot 阶段海外交出不错 PMF 答卷,代表性公司以小规模+高增长+易盈利为特征,如 AI 图像生成公司 2 年达到 2 亿美元 ARR [12] - AI 时代创业者需具备深厚学术或技术背景,强调 AI Native 特质,与移动互联网时代产品经理或商业背景为主的创业者画像不同 [13] - 创新聚焦底层技术突破与垂直场景深度整合,模式复制与场景渗透为主的移动互联网时代玩法不再适用 [14]
ERP厂商要被集体颠覆了?
虎嗅APP· 2025-03-27 18:21
核心观点 - 传统ERP和工具型SaaS将被以AI Agent为载体的新一代SaaS淘汰 [3] - DeepSeek的强推理、低成本、开源特性正在颠覆SaaS行业 [4] - AI Agent将率先在B端场景落地并颠覆传统SaaS [6] - 智能体可实现人"做不到、做不精"的事情,将大量进入工作场景 [16] - 应用层将涌现大量小微创新团队,软件开发门槛大幅降低 [19] - 用友、金蝶等SaaS企业股价上涨反映市场对智能体带动业绩增长的预期 [21] 行业变革 - 传统SaaS厂商面临被AI Agent替代的风险,需抓住变革机会实现二次增长 [4] - 强推理模型成本较高,短期内更可能在专业B端场景落地 [7] - 企业服务生态将重构:底层大模型厂商、中层垂直服务商、上层场景化应用 [19] - DeepSeek开源使服务商可本地化部署,行业know-how能力成为关键竞争优势 [19] 用友案例 - 用友内部已广泛使用数智员工,IT零基础员工10分钟即可构建智能体 [9] - 智能体在费控场景实现20分钟完成交通补贴支付全流程 [9] - 采购合同智能体可自动审核标记不合规条款并生成修改建议 [10] - 流水认领场景中智能体通过自我学习将准确率从50%提升至80% [14][16] - 用友计划在第二季度密集发布一系列AI智能体 [11] 技术特性 - DeepSeek-R1幻觉率达14.3%,高于Deepseek-V3的3.9% [18] - 智能体存在生成内容与事实不符的风险,关键决策仍需人工复核 [17][18] - 智能体可适应业务变化无需二次开发,显著提升人效 [16] 市场影响 - 资本市场看好智能体对SaaS企业业绩和人效的提升潜力 [21] - 能否实现智能体落地带来的实质性增长将决定企业价值重估 [21] - 跟不上AI变革的SaaS企业将被淘汰 [21]