Workflow
ServingKit推理套件
icon
搜索文档
火山引擎总裁谭待:AI Agent元年竞逐,模型能力与云原生基建是关键
21世纪经济报道· 2025-04-18 20:27
行业趋势与定义 - 2025年被视为AI Agent(智能体)的爆发元年,AI正从“工具”升级为“助手”甚至“代理人”[1] - 真正的AI Agent需具备深度思考、多模态交互和操作数字/物理世界的工具链三项核心能力[1][5] - AI技术发展短期被高估,长期被低估,只有当AI能像人一样思考、感知、行动时才算真正改变世界[6] 公司战略与定位 - 火山引擎的定位是成为“AI时代最好的云”,其核心任务是通过AI云原生架构支持多元模型生态[4] - 公司专注于模型能力的竞争,包括深度思考和多模态支持,认为模型竞争的实质是能力竞争,与开源闭源关系不大[1][2] - 在AI Agent的竞逐中,公司重点关注模型能力,并认为这场“马拉松”的胜负远未分晓[1] 技术能力与产品进展 - 豆包大模型的日均token调用量在过去一年内从4万亿飙升至12.7万亿,增长超过106倍[3] - 豆包深度思考模型在数学推理(AIME 2024)、编程竞赛(Codeforces)等专业测试中已接近全球第一梯队水平[4] - 公司推出OS Agent解决方案,整合了豆包UI-Tars模型、Sandbox沙箱环境和veFaaS无服务架构三大核心组件,以支持复杂Agent开发[5] - 火山引擎的ServingKit推理套件可将KV缓存命中率提高10倍,并通过PD分离、KV缓存、异构硬件适配等技术,让GPU推理效率提升5倍以上[5] 商业化应用与客户案例 - 深度思考功能上线后,企业客户开始用大模型处理财报分析、研究报告等长链条任务[4] - 多模态视觉推理能力使得智能座舱、工业巡检等应用成为可能[4] - 杭州银行基于火山引擎AI云原生搭建的“百业云”,为中小商家提供7*24小时智能客服,服务成本仅为传统方案的1/3[5] - 在第三方使用DeepSeek的云服务中,火山引擎的占比最高,公司称其适配DeepSeek的速度和效果是行业最优的[4] 基础设施与架构创新 - 公司提出“AI云原生”作为智能时代的“新基建”,这是一套涵盖算力调度、开发工具、安全组件的全新基础设施[4] - AI云原生架构旨在应对AI应用向Agent演进带来的挑战,如支撑百倍增长的token调用量、降低推理成本以及确保Agent安全操作现实世界[4] - 该架构支持弹性计算资源分配,例如在延迟不敏感的场景中,旧型号GPU仍可高效运行,从而拉长硬件生命周期[5] 未来展望与预测 - 未来2-3年,若模型能力在视觉推理、Agent协作等领域取得突破,token调用量可能再现百倍增长[6] - 实现token百倍增长的前提是AI云原生基础设施的成熟,它不仅是算力池,更是智能时代的“水电煤”[6] - 每一次模型能力的突破(如深度思考、多模态)都会解锁新的应用场景[4]