Workflow
Agent
icon
搜索文档
为什么2025成了Agent落地元年?
虎嗅APP· 2025-07-18 18:20
行业趋势与格局演变 - 2023年生成式AI领域呈现"百模大战"格局,融资和刷榜是主要特征,但2024年市场迅速收敛至少数玩家的资本与技术持久战 [2] - 行业关注点从模型性能转向落地价值,核心命题转变为如何将大模型能力转化为业务生产力 [2] - Agent成为大模型落地的关键解决方案,AWS将其作为推动千行百业业务重构的核心技术 [3][4] Agent技术崛起驱动因素 - 大模型发布会普遍强调工具调用能力指标,如Kimi K2、Grok 4、Minimax M2和OpenAI最新ChatGPT Agent均聚焦多工具集成 [6] - Agentic AI爆发两大原因:Agent编排框架成熟(CrewAI/LangGraph/LlamaIndex)和标准化协议出现(MCP/A2A) [10] - LangChain调查显示超50%公司已部署Agent,80%正在研发;Gartner预测2028年33%企业软件将采用Agentic AI [10] AWS Agent解决方案架构 - Amazon Bedrock AgentCore提供七大模块降低构建门槛:Runtime(无服务器环境)、Memory(记忆系统)、Observability(可观测性)、Identity(身份管理)、Gateway(网关服务)、Browser(浏览器功能)、Code Interpreter(代码解释器) [15][16][17][18] - 解决方案支持按需组合使用,兼容主流AI框架与协议(MCP/A2A),内置企业级安全管控 [19] - 针对企业级需求推出S3 Vectors向量数据库(成本降低90%)、Amazon Nova模型定制功能、AI IDE产品Kiro(规范驱动开发/智能代理钩子) [22][25][26] 技术落地与商业化进展 - AWS Marketplace已上架上百种AI Agents & Tools,支持自然语言搜索直接部署 [11] - 当前Agent供需存在缺口,通用性Agent难以解决行业独特问题,需解决六大核心挑战:安全扩展、记忆系统、权限细化、复杂工作流工具、资源发现、交互追溯 [12] - S3 Vectors创新性实现冷热数据分层存储(低频存S3/高频存OpenSearch),支持10,000索引/数千万向量规模 [23][24] 行业变革特征 - 本轮AI浪潮区别于历史的关键在于:模型通用能力+基础设施成熟度(框架/数据库/接口/工具链)推动Agent从概念验证走向规模化落地 [29] - 技术革命本质体现为通过AWS等平台降低定制化门槛,使Agent成为各行业企业的专属解决方案 [30]
Kimi 员工复盘 K2:为什么聚焦 Agent、为什么开源,为什么选择 DSV3 架构?
Founder Park· 2025-07-18 17:39
核心观点 - Kimi K2 作为月之暗面首个开源旗舰模型,凭借万亿参数 MoE 架构、Agent Tool Use 和 Coding 能力创新,成为 LMArena 竞技场排名第一的开源模型 [1][2] - 模型通过 RLVR 和自合成工具调用数据实现 Agent 能力突破,并首创「前端编程」交互范式,超越传统 ChatBot 体验 [7][10][11] - 开源策略推动技术生态共建,同时倒逼模型通用性提升,避免闭源服务的「workflow 粉饰」陷阱 [13][14][15] 模型性能与市场表现 - LMArena 竞技场排名显示 K2 以 1420 分位列开源模型第一,超越 DeepSeek-R1(1415 分)和 Claude Opus 4(1420 分)[2] - Cursor、Cline、VS Code 等主流开发工具快速接入,验证其 Coding 能力获行业认可 [1][3] - 采用 384 专家 MoE 架构,在保持激活参数量 32B 不变前提下,总参数量达 DSv3 的 1.5 倍,实现更低训练 loss [22][23] 技术创新 Agent 能力 - 通过 RLVR 训练和 MultiAgent 合成工具调用数据,激发预训练模型潜藏的 API 使用能力 [7][8] - 定义 Agentic Model 标准流程:动态生成 toolset、环境反馈、错误重试等交互轨迹 [9] - 首创「artifact-first」交互范式,将 AI 输出从 Markdown 升级为可交互前端应用 [10][11] 架构优化 - 继承 DSv3 结构基础,调整 attention head 数至 64,减少 QKVO projection 50% 访存量(5GB→2.5GB)[24][26] - 首层保留 dense 结构,后续全用 MoE,解决 router 负载均衡问题 [28] - 取消 expert 分组,采用动态重排方案提升路由自由度,组合空间扩大 1.5 倍 [29][30] 开源战略 - 开源 24 小时内涌现 MLX 实现、4bit 量化等社区贡献,加速技术生态建设 [13] - 倒逼模型通用性,避免闭源服务依赖「数十模型+数百 workflow」的取巧方案 [15] - 通过第三方复现验证模型真实能力,推动 AGI 技术标准统一 [14][15] 行业竞争 - 在 DeepSeek-R1 爆火后明确「硬实力优先」路线,停止市场投流仍保持自然增长 [17][18] - 指出当前 Agent 产品过度依赖 Claude 3.5 的局限性,强调基础模型决定智能上限 [19] - 模型结构设计兼顾成本控制,训练推理成本与 DSv3 持平但性能显著提升 [20][30]
走进麦当劳:把AI转化成真正可用的生产力
虎嗅· 2025-07-18 15:01
麦当劳AI落地实践 - 公司以实际业务为出发点 将AI深度融入用户 门店 总部等各个环节 切实提升效率和顾客体验 [2] - AI应用聚焦三大核心场景:顾客体验优化 门店运营管理 供应链协同 [4] - 在顾客端推出车载语音点餐智能体 对话式P AI 私域社群互动工具等数字化解决方案 [4] - 门店端部署RGM BOSS系统实现自动排班和库存管理 企微客诉15分钟响应机制 [4] - 供应链端2024年推出"一箱一码"数字化追踪系统 显著提升物流和库存精细化管理水平 [4] 组织支撑体系 - 数据驱动思维体现在全国汉堡销量实时大屏 智能选址 销量预测等核心环节 [5] - "汉堡大学"每年培养超万名实战型人才 将服务基因与数字思维深度结合 [6] - 技术团队深入门店一线 确保技术能力扎实嵌入日常运营 [8] - 组织文化同步进化被视为AI落地的关键挑战 技术部门被定位为业务组成部分 [8] 行业方法论输出 - 活动提供企业级Agent应用实践案例 聚焦数据调度 角色协同等典型场景 [9] - 分享AI大模型技术趋势 产业落地窗口判断标准 以及系统对接方法 [10] - 圆桌讨论探讨Agent对不同业务场景的适配性 使用主体特征及未来组织协作影响 [11] 活动特色 - 包含总部参访 主题分享 QA互动 圆桌对话 晚宴交流等多元形式 [12] - 定向邀约与公开招募结合 规模控制在30人左右 强调深度互动 [12] - 设置闭门交流晚宴 创造项目合作机会 延展对话价值 [12]
一年破千万美金,一款海外AI创意引擎爆发了
量子位· 2025-07-18 14:16
公司概况 - Creati是一家专注于AI创意引擎的公司,成立仅1年已累计千万用户规模,实现千万美金年收入[5] - 公司通过网红创意交易市场和AI模板化技术,革新广告创意生产流程[6][8] - 已吸引Shein、Cider、Fundango等大品牌客户[10] 商业模式创新 - 聚焦广告创意"道"层面而非视频生成"术"层面,构建差异化竞争壁垒[8] - 首创"病毒创意Canva"平台,连接网红创意与商家需求形成闭环[8][9] - 商家可10分钟生成100个网红创意视频,效率提升显著[12] - 网红通过模板分成获得持续收入,平台获客成本降低[17] 技术优势 - 自有AI模型能100%保留产品细节实现个性化重塑[9] - 内部模型解决电商商品展示一致性问题[20] - 创意大模型实现千人千面内容生成,商家切换会导致点击率下降20%[21][22] - 正在开发能自主生成创意的Agent系统,构建广告世界模型模拟营销效果[24][25] 市场定位 - 专注电商垂类,解决商家对Prompt输入和内容优化的痛点[18][19] - 与通用视频生成器形成差异化,类比Shopify与Wordpress的区别[20] - 通过Street Vogue案例验证商业价值,6个月帮助客户收入增长12倍[28] 增长策略 - 网红既是内容生产者又是增长引擎,形成内容驱动增长飞轮[14][17] - 聚焦创意入口定位,未来计划扩展至脑机接口等更广领域[29] - 通过数据闭环构建壁垒,累计千万用户形成网络效应[5][22] 行业影响 - 颠覆传统网红营销撮合模式,简化沟通流程提升产出效率[13] - 开创RaaS(Result as a Service)新模式,从SaaS升级为结果交付[25] - 解决90%视频生成内容未被利用的行业痛点[26]
OpenAI 发布 ChatGPT Agent:已向付费用户开放,与 Manus 相似
Founder Park· 2025-07-18 11:19
文章核心观点 - AI 2025年的核心主题是Agent模式,标志着从"动嘴"到"动手"的转变,AI将直接完成复杂任务[1][35] - OpenAI推出的Agent模式整合了Operator和Deep Research工具,实现虚拟机内自主操作浏览器、终端等工具完成实际工作[2][15][18] - 该模式完成复杂任务(如婚礼策划、商品设计下单)仅需10-25分钟,效率显著高于人工[12][13][14] - 使用工具后模型在Humanities Last Exam测试得分提升至42%,接近Grok 4 Heavy的45%[22][23] - Agent时代将重塑人机关系,带来隐私安全、工作替代等社会挑战[33][36][37] Agent模式功能 - 可调用文本浏览器、可视化浏览器和终端三种工具,自主切换完成信息检索、图像处理、代码运行等[6][7] - 演示案例包括:婚礼策划(10分钟生成服装/酒店/礼物全套方案)、宠物周边设计下单(调用Image Gen API)、旅行攻略制作(25分钟生成电子表格+地图)[10][12][13][14] - 支持任务中途插入新需求,允许用户实时交互和手动接管[5] 技术实现路径 - 由Operator(图形界面操作工具)和Deep Research(深度调研工具)融合而成,解决单一工具局限性[15][17] - 通过强化学习训练工具使用策略,初期笨拙尝试所有工具,后期学会最优工具组合(如创意作品先搜索→终端编码→浏览器验证)[20][21] - 在WebArena和SpreadsheetBench测试中接近人类水平,网页操作能力尤其突出[30] 商业化进展 - 开放范围扩大至Plus/Team用户,每月提供40次使用额度,相比此前Pro用户优先策略更具普惠性[3] - 执行效率显著提升:复杂报告生成时间从小时级压缩至10分钟级,预订类任务7分钟可完成[12][17] 行业影响 - 可能催生Agent应用生态,但也对Manus等第三方开发者形成竞争压力[32] - 将重新定义白领工作效率标准,可能加速某些岗位的自动化替代[37] - 需要建立新的安全规范应对虚拟机操作带来的隐私风险(如信用卡信息泄露)[33][34]
ChatGPT智能体正式发布,多个创业赛道昨夜无眠
量子位· 2025-07-18 08:30
ChatGPT Agent核心功能 - 整合"思考"和"执行"能力,实现深度研究与操作执行的统一[2][8] - 可接管用户电脑操作,接近操作系统级别的控制[3] - 工作场景支持会议安排、PPT生成、报销提交等高管助理级功能[4] - 生活场景覆盖旅游规划、活动安排等CEO秘书级服务[4] 技术实现与性能 - 采用专用模型实现SOTA,网页浏览和现实任务执行能力显著提升[5][30] - 动态学习机制优化速度、准确性和效率,配备可视化/文本浏览器及API访问路径[27][28] - 在DSBench测试中超越人类水平,SpreadsheetBench得分比GPT-4o提升超一倍[33][34][38] - "人类最后考试"得分41.6分,远超早期模型不足10分的表现[31] 商业化部署 - Pro版支持无限次任务,其他付费版每月50次任务,企业/教育版7月开放[22][23][24] - 通过积分制扩展使用量,免费用户暂未开放[23][25] 行业影响与竞争格局 - 将创业赛道功能整合为大厂标准化产品,冲击Agent领域创业者[5][7] - 落后于Anthropic等竞品的"Computer Use"功能,但在通用Agent领域加速追赶[48] - 手机厂商华为/小米等已试水Agent应用,如自动订咖啡、接听电话等[49] 长期趋势展望 - 可能重塑互联网形态,从PC时代"网站"、移动时代"APP"转向AI时代"Agent"[52] - 企业级应用如AI客服已快速渗透,垂直领域AI编程/绘图同步推进[46][47] - 预示由AI驱动的操作系统级产品形态正在形成[50][51]
刚刚,OpenAI发布了自己的Agent模式,能干什么?
虎嗅APP· 2025-07-18 08:20
OpenAI发布Agent模式 - OpenAI在2025年下半年推出Agent模式,标志着AI从"动嘴"进入"动手"时代,能够直接完成用户指令[3][4] - Agent模式可执行复杂任务如购物、设计、信息整理等,平均耗时10-25分钟,完成度高[4][9][10] - 该模式整合了Operator和Deep Research两款工具,实现浏览器操作与深度研究能力融合[11][12][13] Agent模式技术特点 - 调用三种工具:文本浏览器(信息检索)、可视化浏览器(图形交互)、终端(代码执行/API调用)[8][9] - 采用强化学习训练模型工具选择能力,任务完成效率比纯人工高[14] - 在Humanities Last Exam基准测试中达到42%准确率,较基础模型提升1倍[15][16] 商业化应用进展 - 开放给Plus/Team用户,每月提供40次使用额度,覆盖更广泛用户群体[5] - 演示案例包括婚礼策划(10分钟生成服装/酒店/礼物方案)、贴纸设计下单(7分钟)、旅行攻略制作(25分钟)[9][10] - 网页操作能力接近人类水平(WebArena基准),电子表格处理能力仍有差距[19][20] 行业影响与挑战 - 直接对标Manus模式,可能重塑第三方Agent开发生态格局[7][22] - 引发隐私安全担忧,涉及虚拟环境中的个人信息与支付操作风险[23][24] - 将重新定义人机关系,引发对白领工作岗位替代效应的讨论[25][26]
MiniMax再融22亿元?新智能体可开发演唱会选座系统
南方都市报· 2025-07-17 12:58
融资与估值 - MiniMax即将完成近3亿美元(约合人民币22亿元)新融资 本轮融资后公司估值将超过40亿美元(约合人民币288亿元) [1] - 公司正寻求A股上市 但未获官方回应 [1] 产品与技术 - MiniMax发布MiniMax Agent全栈开发功能 能交付复杂全栈应用 无需编程 仅需输入自然语言即可输出网站应用 [1] - 该产品可能是全球首个在复杂全栈网站应用上高交付率的Agent 支持API、实时数据、下单支付、LLM调用等功能 [1] - 案例显示MiniMax Agent可在30分钟内开发演唱会选座系统 实现实时锁座、注册、支付等完整流程 [1] - 公司发布首个开源大规模混合架构推理模型MiniMax-M1 采用闪电注意力机制 在长上下文输入和深度推理时效率显著 [4] - MiniMax-M1在训练和推理时具有算力效率优势 混合架构被视为未来模型设计主流 [4] 行业动态 - Agent成为继大模型后全球科技圈新风口 代码能力和信息检索能力是布局重点 [3] - OpenAI、谷歌等厂商已推出智能体产品 并在编程能力领域展开竞争 [3] - 全球厂商竞争重点转向混合推理模型 Anthropic发布Claude 3.7 Sonnet 称其为市场首个混合推理模型 [3] - 混合推理模型架构代表下一代前沿技术 可实现快速反应与深度思考的平衡 [3]
Kimi K2发布两天即“封神”?80%成本优势追平Claude 4、打趴“全球最强AI”,架构与DeepSeek相似!
AI前线· 2025-07-14 15:42
模型性能与市场表现 - Kimi K2在OpenRouter平台的token使用量两天内超越xAI的Grok 4 [1] - 总参数量达1万亿(1T),激活参数32B,支持非英伟达硬件流畅运行 [3] - 在代码、Agent、工具调用基准测试中取得开源模型SOTA成绩 [3] - 开发者实测显示其编码能力与Claude 4相当但成本仅20% [7][8] 技术架构创新 - 采用MuonClip优化器实现万亿参数模型高效训练,Token利用率显著提升 [16][19] - 架构与DeepSeek-V3相似但减少注意力头数量并增加MoE稀疏性 [17][19] - 引入qk-clip技术解决训练不稳定性问题 [19] - 通过大规模Agentic Tool Use数据合成和通用强化学习增强智能体能力 [20] 实际应用表现 - 前端开发中可生成兼具设计感的代码并自主完成组件库开发 [13] - Python数据分析任务可一次性完成且成本仅几分钱 [11] - 在创意写作和角色扮演评测中超越o3和R1模型 [14][15] - 工具调用能力获前Anthropic工程师认可,支持并行可靠调用多工具 [14] 行业竞争动态 - 与DeepSeek在技术路线三次"撞车",包括注意力机制改进和数学证明模型 [20] - 公司战略重心转向基础模型研发,暂停广告投放并布局AI医疗产品 [21] - 联合创始人公开表态将Kimi K2视为应对DeepSeek竞争的关键成果 [21] 开发者反馈 - API兼容OpenAI和Anthropic格式,可驱动Claude Code实现85%原版能力 [7][8] - 用户实测显示其生成网站和前端代码效果超预期且提示词简单 [11][13] - 被评价为"Claude 3.5 Sonnet后首个可在生产环境放心使用的非Anthropic模型" [14]
飞书试水“人机协同”
钛媒体APP· 2025-07-14 12:09
行业竞争态势 - 协同办公领域竞争加剧,飞书与钉钉互相挖角客户,飞书宣布多维表格将上架钉钉平台[2] - 产品边界模糊化,AI技术加速落地推动行业竞争格局变化[2] - 飞书通过AI功能迭代构建初具雏形的产品版图,完成2023年AI落地的首阶段成果[2] 飞书AI产品更新 多维表格升级 - 多维表格数据库承载量从100万行提升至1000万行,仪表盘BI能力媲美专业软件[5] - 新增应用模式支持一键切换,产品功能向纵深发展[5] 知识管理与会议系统 - 知识问答功能实现不依赖知识库的企业级AI搜索与创作,基于"AI知识引擎"[7] - AI会议与飞书项目落地更多AI能力,强化场景化应用[7] 开发套件创新 - 推出多智能体架构"飞书妙搭",支持自然语言输入开发需求并自动生成系统原型[8] - aPaaS平台构建人机协同开发环境,AI辅助完成页面搭建/数据建模/代码编写等全流程[8] - 开发套件已在绫致时装等客户落地,共创"AI练货系统"等定制化解决方案[8] 企业级Agent战略 - 推出通用Agent"aily工作助手",具备智能文档理解/数据分析/任务规划等能力[9] - 通过MCP协议对接企业业务系统,支持定制化知识库关联与员工培训场景[9] - 采用模块化Agent设计,专注单环节专业性,结合平台化安全管控实现高效协同[10] 行业趋势与战略定位 - 飞书开发套件逻辑与微软智能体网络战略一致,均强调多智能体协作范式[11] - 当前产品成熟度处于M3级(可大规模使用),距离终极形态M4级仍有差距[11] - AI Agent可能重构SaaS商业模式,办公软件边界模糊化将挑战第三方服务商[12] - 飞书需超越钉钉竞争框架,通过AI Agent定义新一代明星产品战略方向[12]