Workflow
AI云原生推理套件
icon
搜索文档
携手火山引擎,顺丰科技用AI重塑供应链
财富在线· 2025-07-04 14:35
大模型在物流供应链的应用 - 大模型在长链路、复杂协作的供应链场景中提效显著,顺丰科技与火山引擎合作推出物流垂直领域大模型「丰语」[1] - 「丰语」系列包含语言、语音、多模态三大模型,覆盖市场营销、客服、收派、国际关务等20+业务场景[2] - 通过火山引擎AI云原生推理套件ServingKit实现模型部署到推理全链路提效,支持千万级订单的高并发处理[1][4] 丰语大模型的技术优化 - 火山引擎训练框架veTuner使模型训练性能较开源框架提升超30%,强化学习库veRL最高实现64.9% MFU,降低训练成本[4] - xLLM推理框架通过PD分离部署与动态流量调度,将模型吞吐能力提升最高达5倍[4] - 算子融合和镜像优化技术使DeepSeek V3/R1满血版部署效率达到"即日达"标准,相同SLO下吞吐显著提升[4] 多模态大模型的具体应用场景 - 语言模型应用:国际地址拆分、HS编码查询、定制化推荐、智能调度AI等[3] - 多模态模型应用:图像质检、数字人、视频分析、文图生成(如丰源绘画)、人车货识别等[3] - 语音模型应用:声纹受理、语音质检、智能报表生成等[3] 未来发展方向 - 2025年计划加速智能体落地,深化物流场景的AI生产力探索[4] - 持续优化训推一体架构,覆盖更多业务板块场景[2][4]
传统云还在「卖铁」,下一代云已在「炼钢」:火山引擎xLLM如何一张卡榨出两张的性能!
机器之心· 2025-05-27 12:11
大模型推理效率挑战 - 大模型性能提升但企业面临推理成本高、算力投入大、效果不成正比的问题 [2] - 推理效率成为大模型落地的新门槛,企业需堆叠GPU以满足TPOT和TPS指标 [2] - 行业普遍通过增加GPU数量解决问题,但核心问题在于算力利用率不足 [2][24] xLLM框架性能优势 - 在输入3500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.05倍 [12] - 在输入2500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.28倍 [12] - 极限情况下xLLM单机总吞吐达6233 TPS,是开源框架的十倍 [13] - 相同吞吐水平下xLLM平均TPOT为30ms,比开源框架低64% [13] - Hopper 96G机型使用xLLM成本比141G机型开源方案低89% [12] xLLM技术架构创新 - 采用P/D角色分离架构,实现Prefill和Decode阶段算力独立优化 [17] - 配备高性能KV Cache传输能力,支持跨节点跨GPU数据高效移动 [17] - 支持异构计算组合,可部署不同角色到不同GPU卡型 [18] - 具备池化部署能力,根据流量特征动态扩缩角色资源 [18] - 多级KV Cache存储方案平衡缓存效率与计算开销 [19] AI云原生战略布局 - xLLM集成至ServingKit推理套件,13秒完成模型显存加载 [21][22] - ServingKit在开源引擎基础上优化,TPS提升2.4倍 [22] - 提出以AI负载为中心的基础架构新范式 [20] - 强调"巧炼钢"理念,通过全栈优化提升单卡利用率 [24][25] 行业趋势与解决方案 - 企业需求从"卡多卡新"转向"算力高效利用" [24][25] - 面临推理潮汐和异构算力调度两大核心挑战 [23] - Hopper 96G+xLLM组合已验证在性价比上的优势 [25] - 云服务竞争重点转向工程优化能力而非硬件堆叠 [25]
扣子空间一手实测:字节的第一个Agent,比Manus如何?
Founder Park· 2025-04-21 20:23
产品发布与内测 - 4 月 17 日,豆包·深度思考模型发布,同步升级文生图模型 3.0、视觉理解模型,推出 OS Agent 解决方案及 AI 云原生推理套件[29] - 4 月 18 日晚间,字节跳动扣子空间开启内测,定位通用 Agent,采用邀请码制[3] 产品功能与体验 - 扣子空间用户可选择「通用实习生」或「领域专家」完成工作任务,有探索和规划两种模式,支持添加 MCP 扩展[4][7][13] - 实测中,制定旅游攻略和一周穿搭任务部分完成,专家助手任务出现 Python 脚本调用失败、API 权限异常等 Bug[6] - 接入语音合成工具可将文字攻略转成语音,查天气推荐穿搭可输出图片[15] 专家 Agent 情况 - 扣子空间内置「用户研究专家」和「华泰 A 股观察助手」两个专家 Agent,限时免费,前者单任务平均耗时 4 分钟,后者 23 分钟[24][25] - 「华泰 A 股观察助手」执行任务不稳定,出现数据未获取、Python 脚本调用失败等问题[26][27] 行业趋势与战略 - 2025 年之前被称为 Agent 之年,manus 加速大厂在该领域推进[29] - 做好 Agent 技术上需更强多模态模型、更好架构和工具、降低模型推理成本和延迟,字节或已做好准备[30][31] - 火山引擎通过多种方式全面推进 Agent 生态建设,未来 Agent 定义和应用场景将更清晰[32] - 字节的 Agent 战略以技术突破、生态协同和成本优势为核心[33]
火山引擎发布Agent全栈解决方案
快讯· 2025-04-17 12:15
产品发布与升级 - 火山引擎发布豆包1 5・深度思考模型 面向企业市场 [1] - 同步升级文生图模型3 0和视觉理解模型 [1] - 推出OS Agent解决方案及AI云原生推理套件 帮助企业快速部署Agent应用 [1] 业务数据表现 - 截至2025年3月底 豆包大模型日均tokens调用量达12 7万亿 [1] - 调用量较去年5月发布时增长上百倍 [1]