Workflow
Project Mariner
icon
搜索文档
2025上半年,AI Agent领域有什么变化和机会?
虎嗅· 2025-07-11 08:11
核心观点 - 2025年上半年AI Agent迅猛发展,行业进入"万物皆可Agent"的热潮,模型侧与应用侧均迎来关键变化 [1][2][7] - AI Agent是继提示词、工作流之后AI应用的第三阶段,核心价值在于感知环境、自主决策及工具使用能力 [2][19] - 强化学习驱动的持续迭代被视为Agent发展的关键路径,编程领域率先验证PMF [20][23][25] - 垂直领域Agent因具备行业先验知识更受关注,ToC长链条任务规划和工具类内容生成存在机会 [43][44][45] 技术突破与行业动态 - 模型侧:DeepSeek打破OpenAI垄断,推动推理模型赛道"军备竞赛",OpenAI、Anthropic、Google相继发布o3 Pro、Claude 4系列、Gemini 2.5 Pro等重磅模型 [5][6] - 应用侧:OpenAI发布Operator与Deep Research两款Agent产品,2025年被业界视为"AI Agent元年" [7][14] - 中国团队表现活跃:Manus、Genspark等产品引发关注,Minimax、月之暗面等大模型厂商加入战局 [8] - AI编程赛道验证PMF:Cursor、Windsurf被OpenAI收购,Lovable、Replit、Bolt快速发展 [9] AI Agent的演进与特征 - 三阶段演进:从Prompt(对话交互)到Workflow(预设流程)再到Agent(自主决策) [17][18][19] - 核心能力:感知环境(理解用户需求与上下文)、自主决策(突破Workflow固定流程限制)、工具使用(浏览器/计算机操作) [19][20] - 技术驱动:Tool Use能力突破(MCP通用接口普及)与强化学习提升推理能力是关键 [20][23][24] 落地挑战与创新机会 - 技术瓶颈:上下文长度管理、记忆机制、物理环境交互能力不足 [39] - 商业模式:订阅制、按token付费、按结果付费等模式尚待验证 [40] - 投资方向:垂直领域Agent(行业knowhow优势)、ToC长链条任务(如Deep Research类产品) [43][44] - 竞争格局:模型厂商与创业公司边界模糊,端到端Agent与模块化Agent路径分化 [27][28] 行业共识与争议 - 强化学习vsWorkflow:前者性能上限高但可控性差,后者更适合短期商业化 [30][31] - 《苦涩的教训》启示:Agent应减少人类先验干预,依赖算力与数据自主迭代 [30][31] - 环境构建争议:需平衡先验能力与反馈闭环,多模态交互或成关键 [33][34][35]
微软和Google都找到了自己的AI重心
36氪· 2025-05-27 07:39
微软Build 2025大会 - 核心战略聚焦开放代理网络(Open Agentic Web),构建AI智能体在个人、组织及业务流程中的协同体系[1][3] - 推出四类关键工具:开发环境(Windows/Azure AI Foundry)、效率提升(GitHub Copilot支持1500万开发者)、载体(Teams升级)、网络连接(MCP协议与NLWeb概念)[4][5][6][7] - 类比AI发展阶段为1991年Win32级别,强调B端布局而非C端爆发[3] Google I/O开发者大会 - 以Gemini为核心打造AI操作系统雏形,CEO提出"Gemini时代"概念[1][8] - 模型能力显著升级:Gemini 2.5 Pro、视频模型Veo 3、生图模型Imagen 4获正面评价[8] - C端产品深度整合:AI搜索覆盖全美用户,Gemini App月活超4亿,扩展至Android XR/手表/汽车等硬件[9][10] 中美科技公司AI战略对比 - 国内巨头(阿里/腾讯/字节)尚未形成统一战略旗帜,布局分散[2][12] - 阿里侧重to B生态构建(大模型+云服务),但C端依赖夸克转型[12] - 腾讯模仿Google路径改造C端产品(如QQ浏览器),但模型能力弱于Gemini[13] - 字节积极布局多模态与硬件,缺乏to B生态基础[13] 行业趋势 - AI进入应用落地阶段:微软通过基础设施赋能开发者,Google通过系统化改造直接服务C端[12] - 协议标准化成为关键:微软MCP协议定位为"AI时代的HTTP",NLWeb类比HTML[6][7] - 开发者生态竞争加剧:GitHub Copilot用户达1500万(占GitHub总用户10%)[5]
行业周报:周观点:AI有望持续精彩-20250525
开源证券· 2025-05-25 21:18
报告行业投资评级 - 看好(维持) [1] 报告的核心观点 - AI有望持续精彩,谷歌开发者大会展示AI技术与生态体系全面融合,字节、腾讯等大厂推动AI与业务体系融合,国内外科技厂商将AI能力与自身业务体系融合成重心,AI有望成生产力工具 [5][6][13] 一周市场回顾 - 本周(2025.5.19 - 2025.5.23),沪深300指数下跌0.18%,计算机指数下跌3.02% [4][14] 公司动态 对外投资与中标 - 高伟达以自有资金1000万元增资蓝芯算力,11.15万元计入注册资本,剩余计入资本公积,完成后将持有0.67%股权 [15] - 宏景科技与Y公司签署《智算项目服务合同》,提供服务器等服务及算力服务,合同总金额59699.20万元含税,期限五年 [15] 股权激励 - 格灵深瞳拟授予660万股限制性股票,占股本总额2.55%,首次授予11人,授予价8.05元/股,业绩考核目标2025 - 2026年营收增长率不低于113.68%、156.41%,触发值不低于80.34%、113.68% [16] - 焦点科技拟授予1532.40万份股票期权,占股本总额4.83%,首次授予1153人,行权价29.04元/份,业绩考核目标2025 - 2027年净利润增长率分别不低于20%、40%、60% [16] 其他公告 - 京北方董事赵龙虎拟减持不超52.92万股,占总股本0.061%;副总经理曹景广拟减持不超4.34万股,占总股本0.005% [17] - 青云科技嘉兴蓝驰、天津蓝驰拟减持不超1194992股,占总股本2.50%;横琴昭盛拟减持不超955992股,占总股本2% [17] - 金财互联股东徐正军拟减持不超1538.43万股,占总股本1.97% [18] - 拉卡拉股东孙浩然拟减持不超1927.09万股,占剔除回购股份后总股本2.45% [19] - 并行科技805.76万股股票解除限售,占总股本13.8375%,5月26日可交易 [19] - 纳思达拟出售美国利盟100%股权,预估交易对价0.75 - 1.5亿美元 [19] - 大豪科技控股子公司兴汉网际进入创新层 [19] 行业动态 国内要闻 - 阿里巴巴投资美图2.5亿美元,持股6.85%,双方将进行AI等业务合作 [20] - 小米自研3nm芯片玄戒O1大规模量产,小米15周年发布会发布搭载该芯片的两款旗舰 [21] - 华为发布首款鸿蒙折叠屏电脑MateBook Fold非凡大师,售价23999元起 [22] 国外要闻 - Meta推出激励计划助力初创企业采用Llama AI模型,入选成员每月最高获6000美元补贴,最长六个月 [23][24] - 苹果智能眼镜芯片计划2026年或2027年量产,能耗低于iPhone芯片 [25] - 苹果公布WWDC25日程,6月10 - 14日线上大会免费开放 [26] - 英伟达推出人形机器人基础模型N1.5,开发周期从三个月缩至36小时 [27] - OpenAI推出云端AI编程智能体Codex,提升开发效率 [28] 投资建议 AI应用端 - 推荐金山办公、鼎捷数智等,受益标的包括汉邦高科、海天瑞声等 [7][13] AI算力端 - 推荐海光信息、中科曙光等,受益标的包括优刻得、青云科技等 [7][13]
【每日收评】北证50指数重挫6%!全市场超4400股下跌,银行股逆势再走强
新浪财经· 2025-05-22 16:53
市场整体表现 - 市场全天震荡调整,创业板指领跌0.96%,北证50指数跌超6%,沪指跌0.22%,深成指跌0.72% [1] - 沪深两市成交额1.1万亿元,较上个交易日缩量708亿元 [1] - 全市场超4400只个股下跌,个股跌多涨少 [1] 银行板块 - 银行股逆势走强,浦发银行、江苏银行、成都银行盘中再创历史新高,青岛银行、中信银行等跟涨 [1][2] - 央行宣布LPR对称下调10BP,1年期、5年期LPR分别降至3%、3.5%,六家国有大行和招商银行同步下调存款挂牌利率,活期存款利率下调5BP至0.05%,定期存款利率下调15BP [2] - 存贷款非对称降息落地支撑银行息差企稳,一季度银行业绩虽有波动,但金融政策出台和结构性工具加力推动基本面积极因素积累 [2] - 中长期资金入市持续,公募基金长周期考核驱动增配银行股,降息背景下高股息性价比凸显 [2] 军工板块 - 军工股一度拉升,银河电子、四创电子、烽火电子涨停,国睿科技、航天南湖等跟涨 [2] - 浙商证券认为信息化、智能化、无人化装备将在"十四五"、"十五五"期间具备高景气,投资逻辑从国产化替代转向新型号增量空间弹性,预计三季度军工电子板块拐点显现 [2] - 早盘脉冲式拉升后因买盘不足震荡回落,存量博弈环境下板块内部分歧明显,后续或呈现局部个股轮动活跃 [3] AI智能体方向 - 昆仑万维、盛视科技涨停,创意信息、世纪瑞尔等涨幅居前 [3] - 昆仑万维发布天工超级智能体,采用AI agent架构和deep research技术,支持多模态内容生成 [3] - 谷歌公布Project Mariner网络AI智能体项目,计划年内推出 [3] 个股表现 - 高位人气股亏钱效应放大,中毅达、红墙股份、保龄宝等跌停,北交所个股重挫,锦波生物、宁新新材等热门题材高标下跌 [5] - 短线活口包括三生国健(20CM4连板)、南京港(连续两日地天板),反核博弈下部分高标或获资金回流 [5] 市场要闻 - 金融监管总局将批复第三批保险资金长期投资改革试点600亿元,前两批试点规模分别为500亿元和1120亿元,合计2220亿元 [9] - 国家开发银行三期金融债招标结束,10年期品种中标利率1.6681%(全场倍数2.7),5年期1.5305%(全场倍数3.36),1年期1.4019%(全场倍数2.8) [10]
2025谷歌开发者大会有哪些值得关注的内容?
金十数据· 2025-05-21 12:06
Gemini系列产品更新 - Gemini Ultra订阅服务在美国推出 月费249 99美元 包含Veo 3视频生成器 Flow视频剪辑工具及Gemini 2 5 Pro的Deep Think模式等高级AI功能 [1][2] - Gemini 2 5 Pro新增Deep Think模式 通过综合多个答案提升推理能力 目前仅向受信测试者开放API [3] - Gemini应用月活跃用户突破4亿 Gemini Live新增摄像头与屏幕共享功能 支持近实时语音互动及手机画面共享 [6][7] - Gemini将整合进Chrome浏览器 作为AI浏览助手 Gemma 3n模型支持多模态处理 周二起开启预览 [14] AI视频与图像生成技术 - Veo 3视频生成AI可生成音效 背景噪音及配音对白 画质优于前代 仅限Gemini Ultra用户使用 [4] - Imagen 4图像生成AI速度提升 支持2K分辨率及精细细节渲染 未来版本速度将比Imagen 3快十倍 [5] - Veo 3与Imagen 4共同支撑视频创作工具Flow的核心功能 [5] 开发者工具与平台 - Stitch AI工具可通过自然语言或图片生成UI元素及前端代码 提供较高自定义空间 [8] - Project Mariner AI代理支持同时处理近十项任务 可代用户完成在线购物等操作 [9] - 安卓Studio集成Gemini 2 5 Pro 新增Journeys开发流程与Agent Mode自动化功能 [17] 硬件与操作系统 - Wear OS 6引入统一字体设计 Pixel Watch支持主题色同步 提供开发者设计指南与Figma模板 [15] - Beam 3D视频会议系统实现毫米级头部追踪与60帧/秒传输 结合Google Meet支持AI实时语音翻译 [12] 搜索与办公应用 - AI Mode实验性搜索功能支持复杂多段式提问 提供服饰试穿功能 夏季将推出基于视觉的Search Live [11] - Gmail Docs和Vids获AI办公更新 Gmail新增智能回复与收件箱清理 NotebookLM新增视频概览功能 [14] 谷歌生态整合 - Project Astra多模态AI项目将支持搜索 Gemini应用及第三方产品 正与三星等合作开发智能眼镜 [10] - Google Play为开发者新增订阅管理 内容预览等工具 美国用户可访问影视主题应用浏览页面 [16]
四点速读2025谷歌开发者大会
第一财经· 2025-05-21 11:22
谷歌AI技术进展 - 核心观点:谷歌在开发者大会上展示了AI技术的最新进展,包括基础模型升级、生成式内容工具推出和硬件更新,标志着其AI生态系统建设迈出重要一步 [1] Gemini模型升级 - Gemini 2 5 Pro和Flash模型全面支持视听输入和原生音频输出对话,开发者可通过Live API预览版微调对话体验的音调、口音和说话风格 [2] - Gemini可作为Chatbot登录Chrome浏览器,帮助用户快速理解页面上下文并完成任务 [2] - Deep Think模式引入增强型推理机制,显著提升模型在数学、编程和多模态任务中的推理能力 [2] 生成式内容工具升级 - Veo 3视频生成模型支持原生音频生成,可为视频添加背景音乐、音效甚至对白,解决AI视频"有影无声"问题 [3] - Imagen 4图像生成模型在细节和文本输出质量上有质的飞跃,支持渲染织物、水滴和动物皮毛等精细细节,可创建2K分辨率图像 [3] AI代理工具更新 - Project Mariner优化工作方式,可一次承担近十几项任务,如购买门票或杂货,无需访问第三方网站 [4] - 推出视频通话平台Google Beam,硬件包括六摄像头阵列和光场显示器,软件通过AI模型实现3D渲染,支持毫米级头部跟踪和60fps视频流 [4] XR智能眼镜 - 与Xreal、Samsung合作推出集成AI助手功能的Android XR智能眼镜,支持实时翻译、导航和信息提示 [5] AI订阅计划 - 推出每月249 99美元的AI Ultra订阅计划,提供Gemini 2 5 Pro的Deep Think模式、Veo 3视频生成工具等高级功能访问权限 [6]
四点速读2025谷歌开发者大会
第一财经· 2025-05-21 11:06
Gemini模型升级 - 核心亮点是Gemini 2 5 Pro和Flash模型全面支持视听输入和原生音频输出对话开发者可通过Live API预览版构建和微调对话体验的音调口音和说话风格等 [2] - Gemini可作为Chatbot登录Chrome浏览器帮助用户快速理解页面上下文并完成任务 [2] - Deep Think模式引入增强型推理机制在处理数学编程和多模态任务时显著提升模型的推理能力 [2] 生成式内容工具升级 - Veo 3视频生成模型支持原生音频生成能够生成高清视频并添加背景音乐音效甚至对白极大提升AI视频质量和真实感 [3] - Imagen 4图像生成模型在图像细节和文本输出质量上有质的飞跃能够渲染织物水滴和动物皮毛等精细细节支持照片级写实和抽象等多种风格 [3] - Imagen 4可创建各种纵横比高达2K分辨率的图像为创作者提供更强大的图像生成工具 [3] AI代理与视频通话平台 - 实验性AI代理工具Project Mariner可一次承担近十几项任务例如购买棒球比赛门票或在线购买杂货极大便利用户日常生活 [4] - 全新视频通话平台Google Beam硬件包括六摄像头阵列和定制的光场显示器软件上AI模型将不同角度摄像头视频转换为3D渲染 [4] - Beam可实现毫米级头部跟踪和60fps视频流与Google Meet一起使用时提供实时语音翻译功能保留说话者的声音语调和表情 [4] XR智能眼镜与订阅计划 - 集成AI助手功能的Android XR智能眼镜支持实时翻译导航和信息提示等功能是公司在可穿戴设备领域的新尝试 [5] - 推出每月249 99美元的AI Ultra订阅计划提供Gemini 2 5 Pro的Deep Think模式Veo 3视频生成工具等高级AI功能的访问权限 [5] - AI Ultra订阅计划还提供更高的使用限制和额外存储空间 [5]
Alphabet (GOOG) 2025 Update / Briefing Transcript
2025-05-21 02:00
纪要涉及的公司和行业 - **公司**:Alphabet(旗下Google)、HP、Automation Anywhere、UiPath、Zillow、Aira、Gentle Monster、Warby Parker、Walmart、Red Cross、Waymo - **行业**:人工智能、视频通信、搜索、软件开发、机器人、科学研究、影视制作、时尚购物、卫星监测、无人机配送、自动驾驶 纪要提到的核心观点和论据 人工智能模型进展 - **模型性能提升**:自第一代Gemini Pro以来,Elo分数提升超300点,Gemini 2.5 Pro在多个基准测试中表现出色,在WebDevArena上超越前版本42 Elo点,在LM Arena排行榜上占据前三 [3]。 - **应用广泛且受欢迎**:在顶级编码平台受青睐,在Cursor上是年度增长最快的模型,每分钟生成数十万行被接受的代码;Gemini应用月活用户超4亿,2.5 Pro版本使用量增长45% [4][8]。 - **基础设施强大**:第七代TPU Ironwood性能是上一代的10倍,每个端口计算能力达42.5 hexaflops,将为Google Cloud客户提供服务,助力模型输出更快且价格下降 [5][6]。 - **处理能力飞跃**:过去一年,每月处理的令牌数量从9.7万亿增长到480万亿,增长约50倍 [7]。 - **开发者采用率高**:超700万开发者使用Gemini API进行开发,自上次IO以来增长超5倍,Vertex AI上的Gemini使用量增长超40倍 [8]。 产品创新与应用 - **视频通信平台Google Beam**:基于Project Starline技术,将二维视频流转化为逼真的三维体验,与HP合作,今年晚些时候为早期客户提供设备 [12][13]。 - **实时语音翻译**:在Google Meet中引入,英语和西班牙语翻译已面向订阅用户开放,未来几周将推出更多语言,企业版将于今年晚些时候推出 [20]。 - **Project Astra融入产品**:Gemini Live具备其相机和屏幕共享功能,可用于多种场景,如工作面试练习、马拉松训练等,今日起在Android和iOS上向所有人推出 [21][31]。 - **Project Mariner进展**:引入多任务处理,可同时处理10个任务,具备“教与重复”功能,其计算机使用能力将通过Gemini API提供给开发者,今年夏天更广泛可用 [33]。 - **Gemini应用新功能**:推出实验性的代理模式,可帮助用户查找公寓、安排参观等;个性化智能回复功能将在今年夏天在Gmail中面向订阅用户推出 [35][41]。 模型更新与优化 - **Gemini 2.5 Flash更新**:在推理、代码和长上下文等关键基准测试中表现更好,仅次于2.5 Pro,6月初全面可用,专业版随后推出,可在AI Studio、Vertex AI和Gemini应用中试用预览版 [46]。 - **文本转语音改进**:引入新的预览版,支持多语音,可在24种以上语言间切换,今日起可在Gemini API中使用 [50][53]。 - **安全与透明度增强**:加强对间接提示注入等安全威胁的防护,通过Gemini API和Vertex AI提供思想摘要,提高模型透明度 [57]。 - **效率提升**:2.5 Flash效率提高22%,并将思维预算功能引入2.5 Pro,用户可控制成本、延迟和质量 [58][59]。 前沿研究与探索 - **DeepThink模式**:为2.5 Pro引入新的DeepThink模式,在数学和编码基准测试中表现出色,目前正在进行前沿安全评估,将先提供给可信测试人员 [72][73]。 - **世界模型探索**:努力将Gemini扩展为世界模型,使其能够模拟世界、制定计划和想象新体验,相关能力已在一些方面显现,如Genie 2模型可生成三维模拟环境 [76]。 - **机器人应用**:微调专门的Gemini Robotics模型,教机器人执行有用任务,可在AI沙箱中体验 [78]。 搜索产品升级 - **AI概述成功**:自去年IO推出以来,每月用户规模扩大到超15亿,在200多个国家和地区使用,推动视觉搜索增长65%,在主要市场推动相关查询增长超10% [103][104]。 - **AI模式推出**:全新的AI搜索体验,具备更高级的推理能力,可处理更长、更复杂的查询,今日起在美国面向所有人推出,本周将引入Gemini 2.5模型 [105][107]。 - **个性化与深度研究**:今年夏天将引入个人上下文功能,提供个性化建议;还将引入深度搜索功能,可生成专家级、全面引用的报告 [115][118]。 - **复杂分析与可视化**:今年夏天将为体育和金融问题提供复杂分析和数据可视化功能 [123]。 - **代理能力集成**:将Project Mariner的代理能力集成到AI模式中,可帮助用户完成任务,如查找活动门票、预订餐厅等 [124]。 - **多模态搜索升级**:将Project Astra的实时功能引入AI模式,实现搜索实时功能,用户可通过相机与搜索进行实时交互 [129][130]。 - **购物体验创新**:提供视觉购物灵感,推荐个性化产品;引入虚拟试穿功能和代理结账功能,提升购物体验 [146][156]。 创意工具与媒体生成 - **Gemini应用新特性**:推出五项新功能,包括免费的Gemini Live,具备相机和屏幕共享功能;深度研究可上传文件;Canvas可进行协同创作;Gemini in Chrome可在浏览网页时提供帮助;引入Imagine 4图像生成模型和VO 3视频生成模型 [167][187]。 - **音乐创作工具**:与音乐家合作开发Music AI Sandbox,推出Lyria 2音乐生成模型,可生成高保真音乐和专业级音频 [188][191]。 - **合成内容检测**:继续创新合成内容检测技术,扩展Synth ID水印嵌入和检测功能,新的Synth ID检测器开始向早期测试人员推出 [192][193]。 - **影视制作工具**:与导演合作探索VIO作为影视制作工具,推出新的AI影视制作工具Flow,结合Vio、Imagine和Gemini的优势 [194][211]。 订阅计划升级 - **Google AI Pro**:全球可用,提供全套AI产品,具有更高的速率限制和特殊功能 [221]。 - **Google AI Ultra**:面向开拓者和先锋用户,提供最高速率限制、最早访问新功能和产品,今日在美国推出,即将全球推广 [222]。 Android平台与AI融合 - **Android更新**:上周在Android展上推出Android 16和Wear OS 6的全新设计和重大更新 [224]。 - **Gemini集成**:Gemini将很快集成到Android设备中,包括手表、汽车仪表盘和电视,还将通过Android XR平台支持多种新兴设备 [225][226]。 - **Android XR体验**:与三星合作开发,支持头戴式设备和眼镜,Gemini可在这些设备上提供更丰富的上下文理解和帮助,三星的Project Moohan头戴式设备今年晚些时候上市,眼镜原型已供可信测试人员使用,今年晚些时候可开始开发 [228][230][265]。 其他重要但是可能被忽略的内容 - **AI助力社会公益**:与合作伙伴构建Firesat卫星星座,利用多光谱卫星图像和AI提供近实时火灾洞察,首颗卫星已在轨;在飓风Helene期间,Wing与Walmart和Red Cross合作,通过无人机提供救灾物资 [269][270]。 - **用户体验与反馈**:分享了盲人用户对Project Astra的期待和使用体验,展示了AI在无障碍领域的潜力 [93][100]。 - **AI排行榜**:Gemini在AI计数器排行榜上领先,得分95 [267]。
速递|谷歌换帅Gemini:NotebookLM之父接棒,能否扭转流量仅为ChatGPT十分之一的困局?
Z Potentials· 2025-04-03 11:48
谷歌Gemini团队人事变动 - 谷歌于4月2日更换Gemini聊天机器人负责人 由实验室产品孵化器负责人乔希·伍德沃德接替原负责人萧茜茜 [1] - 萧茜茜长期任职于谷歌 此次调任新职 具体职责未披露 [1] - Gemini团队内部代号为Bard 此次调整旨在争夺OpenAI的ChatGPT市场份额 [1] Gemini与ChatGPT竞争态势 - Similarweb数据显示 Gemini网络流量仅为ChatGPT的十分之一 [1] - ChatGPT近期使用量激增 对谷歌形成明显竞争压力 [1] 伍德沃德领导的产品创新 - 其团队已开发AI Studio软件 帮助开发者基于Gemini大语言模型构建应用 [1] - 正在开发Project Mariner智能体产品 可在浏览器中执行操作 尚未发布 [1] - NotebookLM去年秋季引发关注 该产品能根据用户上传文档生成AI播客 [1]