Agent
搜索文档
用完这个Agent,你会觉得ChatGPT Agent真的是个傻子。
数字生命卡兹克· 2025-07-21 04:04
ChatGPT Agent模式评测 - ChatGPT Agent mode上线后表现不佳 被评价为"真的拉" [3] - 测试过程中消耗近1000元 但未达到预期效果 [3] MiniMax Agent核心优势 - 开发能力领先同类型产品一个代际 特别是后端集成能力 [3][8] - 支持前后端完整开发 包括数据库、用户认证等复杂功能 [10][20] - 集成Supabase后端服务 实现数据实时同步 [20][21] - 任务完成度高 细节处理出色 [8] 实际应用案例 - 开发AI围棋对弈平台 实现完整人机交互功能 [3][6] - 创建西风博物馆网页 展示强大审美能力 [7] - 构建AI活动信息平台 包含用户注册、活动发布和审核全流程 [10][17][35] - 开发简历优化系统 提供职位匹配分析和模拟面试功能 [37][40] 技术实现特点 - 采用MCP Builder模式 支持自定义功能模块开发 [9] - 提供自动化测试功能 确保交付质量 [9] - 已完成MCP可添加到Agent市场重复使用 [9] - 支持Cron作业功能 实现任务灵活安排 [9] 商业化现状 - 采用积分制收费模式 目前价格较高 [52] - 新用户赠送1000积分 大额套餐需69美元/2万积分 [53] - 复杂任务消耗积分较多 但相比外包仍具成本优势 [53]
Z Event|00 后创业者、大厂同学下班一起聊 AI ?北京线下 Gen Z 创翻 AI 行业报名中
Z Potentials· 2025-07-20 10:48
生成式AI应用与硬件创业活动 - 活动时间定于2025年7月25日周五晚7点在北京举行 具体地点报名后通知 [1] - 活动面向00后大厂员工 AI创业者及潜在创业者 人数限制6-8人 [1] - 主题聚焦生成式AI在应用与硬件领域的创业机会 涵盖AIGC落地方案和机器人迭代等硬核话题 [1] - 讨论重点包括AI多模态生成 Agent技术 AI社交娱乐和AI效率工具四大方向 [1] - 报名采用"过往背景+潜在创业方向+个人风格"三维匹配机制 确保话题针对性 [1] 公司动态 - 正在开展新一期实习生招募工作 [3]
走进麦当劳:把AI转化成真正可用的生产力
虎嗅APP· 2025-07-18 22:12
麦当劳AI落地实践 - 核心观点:麦当劳中国将AI深度融入顾客、门店、企业三大核心业务场景,通过数字化技术提升效率与用户体验,形成可复制的标准化能力 [2][3] - 顾客场景:推出车载语音点餐智能体(与蔚来合作)、对话式P.AI(3月"派DAY"期间上线)、私域社群互动角色"麦麦种草官"等,以技术优化用户体验驱动增长 [3] - 门店场景:RGM BOSS系统实现自动排班与库存管理,企微客诉15分钟响应;PMT开店管理系统支持每年约1000家新店选址与施工标准化 [3] - 供应链场景:2021年启动智慧供应链,2024年推出"一箱一码"数字化追踪系统,强化物流与库存精细化管理 [3] 组织与文化支撑 - 数据驱动:总部实时监控全国汉堡销量大屏,智能选址与销量预测等环节全面数字化 [5] - 人才培养:汉堡大学每年培养超万名实战人才,融合"服务基因"与"数字思维" [6] - 技术理念:CIO陈世宏强调技术团队需深入门店,技术是业务组成部分而非支持部门 [7] 外部合作与行业方法论 - 阿里系赋能:瓴羊副总裁甄日新分享企业级Agent应用实践,包括数据调度、角色协同等场景;阿里云解析大模型落地判断标准与系统打通方案 [8] - 圆桌讨论:探讨Agent对企业业务流程的颠覆潜力,聚焦不同业务场景的能力模型适配与未来组织协作变革 [10] 活动形式与价值 - 互动设计:主题演讲后设QA环节,闭门晚宴提供与决策者深度交流机会 [11] - 复合形式:结合企业参访(如"巨无霸魔方"数据屏)、案例分享与圆桌对话,定向邀约30人规模 [12][13]
为什么2025成了Agent落地元年?
虎嗅APP· 2025-07-18 18:20
行业趋势与格局演变 - 2023年生成式AI领域呈现"百模大战"格局,融资和刷榜是主要特征,但2024年市场迅速收敛至少数玩家的资本与技术持久战 [2] - 行业关注点从模型性能转向落地价值,核心命题转变为如何将大模型能力转化为业务生产力 [2] - Agent成为大模型落地的关键解决方案,AWS将其作为推动千行百业业务重构的核心技术 [3][4] Agent技术崛起驱动因素 - 大模型发布会普遍强调工具调用能力指标,如Kimi K2、Grok 4、Minimax M2和OpenAI最新ChatGPT Agent均聚焦多工具集成 [6] - Agentic AI爆发两大原因:Agent编排框架成熟(CrewAI/LangGraph/LlamaIndex)和标准化协议出现(MCP/A2A) [10] - LangChain调查显示超50%公司已部署Agent,80%正在研发;Gartner预测2028年33%企业软件将采用Agentic AI [10] AWS Agent解决方案架构 - Amazon Bedrock AgentCore提供七大模块降低构建门槛:Runtime(无服务器环境)、Memory(记忆系统)、Observability(可观测性)、Identity(身份管理)、Gateway(网关服务)、Browser(浏览器功能)、Code Interpreter(代码解释器) [15][16][17][18] - 解决方案支持按需组合使用,兼容主流AI框架与协议(MCP/A2A),内置企业级安全管控 [19] - 针对企业级需求推出S3 Vectors向量数据库(成本降低90%)、Amazon Nova模型定制功能、AI IDE产品Kiro(规范驱动开发/智能代理钩子) [22][25][26] 技术落地与商业化进展 - AWS Marketplace已上架上百种AI Agents & Tools,支持自然语言搜索直接部署 [11] - 当前Agent供需存在缺口,通用性Agent难以解决行业独特问题,需解决六大核心挑战:安全扩展、记忆系统、权限细化、复杂工作流工具、资源发现、交互追溯 [12] - S3 Vectors创新性实现冷热数据分层存储(低频存S3/高频存OpenSearch),支持10,000索引/数千万向量规模 [23][24] 行业变革特征 - 本轮AI浪潮区别于历史的关键在于:模型通用能力+基础设施成熟度(框架/数据库/接口/工具链)推动Agent从概念验证走向规模化落地 [29] - 技术革命本质体现为通过AWS等平台降低定制化门槛,使Agent成为各行业企业的专属解决方案 [30]
Kimi 员工复盘 K2:为什么聚焦 Agent、为什么开源,为什么选择 DSV3 架构?
Founder Park· 2025-07-18 17:39
核心观点 - Kimi K2 作为月之暗面首个开源旗舰模型,凭借万亿参数 MoE 架构、Agent Tool Use 和 Coding 能力创新,成为 LMArena 竞技场排名第一的开源模型 [1][2] - 模型通过 RLVR 和自合成工具调用数据实现 Agent 能力突破,并首创「前端编程」交互范式,超越传统 ChatBot 体验 [7][10][11] - 开源策略推动技术生态共建,同时倒逼模型通用性提升,避免闭源服务的「workflow 粉饰」陷阱 [13][14][15] 模型性能与市场表现 - LMArena 竞技场排名显示 K2 以 1420 分位列开源模型第一,超越 DeepSeek-R1(1415 分)和 Claude Opus 4(1420 分)[2] - Cursor、Cline、VS Code 等主流开发工具快速接入,验证其 Coding 能力获行业认可 [1][3] - 采用 384 专家 MoE 架构,在保持激活参数量 32B 不变前提下,总参数量达 DSv3 的 1.5 倍,实现更低训练 loss [22][23] 技术创新 Agent 能力 - 通过 RLVR 训练和 MultiAgent 合成工具调用数据,激发预训练模型潜藏的 API 使用能力 [7][8] - 定义 Agentic Model 标准流程:动态生成 toolset、环境反馈、错误重试等交互轨迹 [9] - 首创「artifact-first」交互范式,将 AI 输出从 Markdown 升级为可交互前端应用 [10][11] 架构优化 - 继承 DSv3 结构基础,调整 attention head 数至 64,减少 QKVO projection 50% 访存量(5GB→2.5GB)[24][26] - 首层保留 dense 结构,后续全用 MoE,解决 router 负载均衡问题 [28] - 取消 expert 分组,采用动态重排方案提升路由自由度,组合空间扩大 1.5 倍 [29][30] 开源战略 - 开源 24 小时内涌现 MLX 实现、4bit 量化等社区贡献,加速技术生态建设 [13] - 倒逼模型通用性,避免闭源服务依赖「数十模型+数百 workflow」的取巧方案 [15] - 通过第三方复现验证模型真实能力,推动 AGI 技术标准统一 [14][15] 行业竞争 - 在 DeepSeek-R1 爆火后明确「硬实力优先」路线,停止市场投流仍保持自然增长 [17][18] - 指出当前 Agent 产品过度依赖 Claude 3.5 的局限性,强调基础模型决定智能上限 [19] - 模型结构设计兼顾成本控制,训练推理成本与 DSv3 持平但性能显著提升 [20][30]
走进麦当劳:把AI转化成真正可用的生产力
虎嗅· 2025-07-18 15:01
麦当劳AI落地实践 - 公司以实际业务为出发点 将AI深度融入用户 门店 总部等各个环节 切实提升效率和顾客体验 [2] - AI应用聚焦三大核心场景:顾客体验优化 门店运营管理 供应链协同 [4] - 在顾客端推出车载语音点餐智能体 对话式P AI 私域社群互动工具等数字化解决方案 [4] - 门店端部署RGM BOSS系统实现自动排班和库存管理 企微客诉15分钟响应机制 [4] - 供应链端2024年推出"一箱一码"数字化追踪系统 显著提升物流和库存精细化管理水平 [4] 组织支撑体系 - 数据驱动思维体现在全国汉堡销量实时大屏 智能选址 销量预测等核心环节 [5] - "汉堡大学"每年培养超万名实战型人才 将服务基因与数字思维深度结合 [6] - 技术团队深入门店一线 确保技术能力扎实嵌入日常运营 [8] - 组织文化同步进化被视为AI落地的关键挑战 技术部门被定位为业务组成部分 [8] 行业方法论输出 - 活动提供企业级Agent应用实践案例 聚焦数据调度 角色协同等典型场景 [9] - 分享AI大模型技术趋势 产业落地窗口判断标准 以及系统对接方法 [10] - 圆桌讨论探讨Agent对不同业务场景的适配性 使用主体特征及未来组织协作影响 [11] 活动特色 - 包含总部参访 主题分享 QA互动 圆桌对话 晚宴交流等多元形式 [12] - 定向邀约与公开招募结合 规模控制在30人左右 强调深度互动 [12] - 设置闭门交流晚宴 创造项目合作机会 延展对话价值 [12]
一年破千万美金,一款海外AI创意引擎爆发了
量子位· 2025-07-18 14:16
公司概况 - Creati是一家专注于AI创意引擎的公司,成立仅1年已累计千万用户规模,实现千万美金年收入[5] - 公司通过网红创意交易市场和AI模板化技术,革新广告创意生产流程[6][8] - 已吸引Shein、Cider、Fundango等大品牌客户[10] 商业模式创新 - 聚焦广告创意"道"层面而非视频生成"术"层面,构建差异化竞争壁垒[8] - 首创"病毒创意Canva"平台,连接网红创意与商家需求形成闭环[8][9] - 商家可10分钟生成100个网红创意视频,效率提升显著[12] - 网红通过模板分成获得持续收入,平台获客成本降低[17] 技术优势 - 自有AI模型能100%保留产品细节实现个性化重塑[9] - 内部模型解决电商商品展示一致性问题[20] - 创意大模型实现千人千面内容生成,商家切换会导致点击率下降20%[21][22] - 正在开发能自主生成创意的Agent系统,构建广告世界模型模拟营销效果[24][25] 市场定位 - 专注电商垂类,解决商家对Prompt输入和内容优化的痛点[18][19] - 与通用视频生成器形成差异化,类比Shopify与Wordpress的区别[20] - 通过Street Vogue案例验证商业价值,6个月帮助客户收入增长12倍[28] 增长策略 - 网红既是内容生产者又是增长引擎,形成内容驱动增长飞轮[14][17] - 聚焦创意入口定位,未来计划扩展至脑机接口等更广领域[29] - 通过数据闭环构建壁垒,累计千万用户形成网络效应[5][22] 行业影响 - 颠覆传统网红营销撮合模式,简化沟通流程提升产出效率[13] - 开创RaaS(Result as a Service)新模式,从SaaS升级为结果交付[25] - 解决90%视频生成内容未被利用的行业痛点[26]
OpenAI 发布 ChatGPT Agent:已向付费用户开放,与 Manus 相似
Founder Park· 2025-07-18 11:19
文章核心观点 - AI 2025年的核心主题是Agent模式,标志着从"动嘴"到"动手"的转变,AI将直接完成复杂任务[1][35] - OpenAI推出的Agent模式整合了Operator和Deep Research工具,实现虚拟机内自主操作浏览器、终端等工具完成实际工作[2][15][18] - 该模式完成复杂任务(如婚礼策划、商品设计下单)仅需10-25分钟,效率显著高于人工[12][13][14] - 使用工具后模型在Humanities Last Exam测试得分提升至42%,接近Grok 4 Heavy的45%[22][23] - Agent时代将重塑人机关系,带来隐私安全、工作替代等社会挑战[33][36][37] Agent模式功能 - 可调用文本浏览器、可视化浏览器和终端三种工具,自主切换完成信息检索、图像处理、代码运行等[6][7] - 演示案例包括:婚礼策划(10分钟生成服装/酒店/礼物全套方案)、宠物周边设计下单(调用Image Gen API)、旅行攻略制作(25分钟生成电子表格+地图)[10][12][13][14] - 支持任务中途插入新需求,允许用户实时交互和手动接管[5] 技术实现路径 - 由Operator(图形界面操作工具)和Deep Research(深度调研工具)融合而成,解决单一工具局限性[15][17] - 通过强化学习训练工具使用策略,初期笨拙尝试所有工具,后期学会最优工具组合(如创意作品先搜索→终端编码→浏览器验证)[20][21] - 在WebArena和SpreadsheetBench测试中接近人类水平,网页操作能力尤其突出[30] 商业化进展 - 开放范围扩大至Plus/Team用户,每月提供40次使用额度,相比此前Pro用户优先策略更具普惠性[3] - 执行效率显著提升:复杂报告生成时间从小时级压缩至10分钟级,预订类任务7分钟可完成[12][17] 行业影响 - 可能催生Agent应用生态,但也对Manus等第三方开发者形成竞争压力[32] - 将重新定义白领工作效率标准,可能加速某些岗位的自动化替代[37] - 需要建立新的安全规范应对虚拟机操作带来的隐私风险(如信用卡信息泄露)[33][34]
ChatGPT智能体正式发布,多个创业赛道昨夜无眠
量子位· 2025-07-18 08:30
ChatGPT Agent核心功能 - 整合"思考"和"执行"能力,实现深度研究与操作执行的统一[2][8] - 可接管用户电脑操作,接近操作系统级别的控制[3] - 工作场景支持会议安排、PPT生成、报销提交等高管助理级功能[4] - 生活场景覆盖旅游规划、活动安排等CEO秘书级服务[4] 技术实现与性能 - 采用专用模型实现SOTA,网页浏览和现实任务执行能力显著提升[5][30] - 动态学习机制优化速度、准确性和效率,配备可视化/文本浏览器及API访问路径[27][28] - 在DSBench测试中超越人类水平,SpreadsheetBench得分比GPT-4o提升超一倍[33][34][38] - "人类最后考试"得分41.6分,远超早期模型不足10分的表现[31] 商业化部署 - Pro版支持无限次任务,其他付费版每月50次任务,企业/教育版7月开放[22][23][24] - 通过积分制扩展使用量,免费用户暂未开放[23][25] 行业影响与竞争格局 - 将创业赛道功能整合为大厂标准化产品,冲击Agent领域创业者[5][7] - 落后于Anthropic等竞品的"Computer Use"功能,但在通用Agent领域加速追赶[48] - 手机厂商华为/小米等已试水Agent应用,如自动订咖啡、接听电话等[49] 长期趋势展望 - 可能重塑互联网形态,从PC时代"网站"、移动时代"APP"转向AI时代"Agent"[52] - 企业级应用如AI客服已快速渗透,垂直领域AI编程/绘图同步推进[46][47] - 预示由AI驱动的操作系统级产品形态正在形成[50][51]
刚刚,OpenAI发布了自己的Agent模式,能干什么?
虎嗅APP· 2025-07-18 08:20
OpenAI发布Agent模式 - OpenAI在2025年下半年推出Agent模式,标志着AI从"动嘴"进入"动手"时代,能够直接完成用户指令[3][4] - Agent模式可执行复杂任务如购物、设计、信息整理等,平均耗时10-25分钟,完成度高[4][9][10] - 该模式整合了Operator和Deep Research两款工具,实现浏览器操作与深度研究能力融合[11][12][13] Agent模式技术特点 - 调用三种工具:文本浏览器(信息检索)、可视化浏览器(图形交互)、终端(代码执行/API调用)[8][9] - 采用强化学习训练模型工具选择能力,任务完成效率比纯人工高[14] - 在Humanities Last Exam基准测试中达到42%准确率,较基础模型提升1倍[15][16] 商业化应用进展 - 开放给Plus/Team用户,每月提供40次使用额度,覆盖更广泛用户群体[5] - 演示案例包括婚礼策划(10分钟生成服装/酒店/礼物方案)、贴纸设计下单(7分钟)、旅行攻略制作(25分钟)[9][10] - 网页操作能力接近人类水平(WebArena基准),电子表格处理能力仍有差距[19][20] 行业影响与挑战 - 直接对标Manus模式,可能重塑第三方Agent开发生态格局[7][22] - 引发隐私安全担忧,涉及虚拟环境中的个人信息与支付操作风险[23][24] - 将重新定义人机关系,引发对白领工作岗位替代效应的讨论[25][26]