AI云原生
搜索文档
字节跳动发布新一代AI大模型 降价逾六成
智通财经网· 2025-06-11 16:40
产品发布与定价策略 - 火山引擎发布豆包大模型1.6 采用统一定价模式 最低价格为2.6元/百万tokens 较1.5版本和DeepSeek-R1的7元/百万tokens下降63% [1] - 豆包大模型1.6首创按输入长度区间定价 在0-32K区间内 输入价格为0.8元/百万tokens 输出价格为8元/百万tokens 综合成本较1.5版本和DeepSeek R1降低63% [2] - Seedance 1.0 pro视频生成模型定价为每千tokens 0.015元 生成一条5秒1080P视频仅需3.67元 为行业最低价格 [2] 产品矩阵与技术能力 - 豆包大模型家族已形成全模态、全尺寸、高性价比的领先模型体系 包括视频生成模型Seedance 1.0 pro、语音播客模型和实时语音模型 [1] - 截至2025年5月底 豆包大模型日均tokens使用量超过16.4万亿 较去年5月发布时增长137倍 [1] - 公司发布12款面向Agent开发和应用的工具产品 涵盖AI云原生全栈服务 [2] 公司战略与发展规划 - 字节跳动CEO梁汝波强调火山引擎对公司保持技术竞争力的重要性 表示将坚定长期投入 追求智能突破 服务产业应用 [1] - 公司认为AI时代需要构建"AI云原生"全新技术栈 这是企业开发Agent和实现创新的关键 [2]
让AI听懂行业,火山引擎如何拆掉大模型落地的「墙」?
36氪· 2025-06-10 21:34
大模型产业化趋势 - 2025年大模型在产业端加速渗透,正以前所未有的深度与广度融入金融、汽车、科技等核心业务领域[3][6] - 大模型应用从早期探索迈向规模化落地,2024年中国公有云大模型调用量达114.2万亿tokens,火山引擎以46.4%市场份额居首[5] - 企业从被动创新转向主动寻找落地点,基于明确业务痛点开发解决方案,云厂商角色扩展至业务陪伴与咨询[7] 行业落地案例 - **金融领域**:国信证券基于豆包大模型打造股市助手智能体,处理超百万份研报、十亿条财经短视频数据,覆盖70%系统重要性银行[13][15] - **汽车行业**:覆盖80%主流车企,上汽大众实现跨端交互,奔驰CLA车型接入情感识别功能,宝马聚焦智能营销缩短决策链路[16][17][19][20] - **教育科研**:南开大学共建AI+教育标杆,浙江大学打造全学科科研平台,同济大学开发校园智能助手覆盖多系统互通[21][22][24] - **智能终端**:联想通过Jeddak AICC平台实现全链路加密,推理效率无损且延迟接近明文模式[25][26] - **消费零售**:瑞幸利用意图识别引擎预测点单需求,高峰时段算力资源保障流畅体验[27] 云厂商核心能力 - 火山引擎提供多云多模型基础服务、Agent开发平台及全栈工具链,解决落地最后一公里问题[10] - 豆包大模型日均调用量12.7万亿tokens,千tokens输入成本降至0.0008元,推理成本进入厘时代[36][38] - AI云原生服务整合全栈推理加速与分布式优化,企业API调用延迟可控制在20ms以内[39] 未来发展方向 - 多模态模型与Agentic AI将爆发,中国B端AI Agent市场规模2025年预计达1718亿元[40][41] - 技术挑战聚焦能力与安全平衡、成本压力及系统集成难度,需持续优化算力调度与工程化能力[33][34][35] - 大模型未来3-5年或成企业基础设施,云厂商需降低技术门槛推动产业自由生长[42]
豆包概念震荡拉升 润欣科技涨超15%
快讯· 2025-06-09 10:42
行业动态 - 豆包概念股盘中表现强劲 润欣科技涨幅超过15% 光云科技、海天瑞声、引力传媒、汉仪股份等多只股票涨幅超过5% [1] - 2025火山引擎原动力大会·春将于6月11日-12日举行 聚焦大模型与AI云原生等前沿技术领域 [1] 会议内容 - 大会讨论主题包括Agent开发、多模态理解、深度思考、AI云原生等多个前沿技术话题 [1]
传统云还在「卖铁」,下一代云已在「炼钢」:火山引擎xLLM如何一张卡榨出两张的性能!
机器之心· 2025-05-27 12:11
大模型推理效率挑战 - 大模型性能提升但企业面临推理成本高、算力投入大、效果不成正比的问题 [2] - 推理效率成为大模型落地的新门槛,企业需堆叠GPU以满足TPOT和TPS指标 [2] - 行业普遍通过增加GPU数量解决问题,但核心问题在于算力利用率不足 [2][24] xLLM框架性能优势 - 在输入3500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.05倍 [12] - 在输入2500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.28倍 [12] - 极限情况下xLLM单机总吞吐达6233 TPS,是开源框架的十倍 [13] - 相同吞吐水平下xLLM平均TPOT为30ms,比开源框架低64% [13] - Hopper 96G机型使用xLLM成本比141G机型开源方案低89% [12] xLLM技术架构创新 - 采用P/D角色分离架构,实现Prefill和Decode阶段算力独立优化 [17] - 配备高性能KV Cache传输能力,支持跨节点跨GPU数据高效移动 [17] - 支持异构计算组合,可部署不同角色到不同GPU卡型 [18] - 具备池化部署能力,根据流量特征动态扩缩角色资源 [18] - 多级KV Cache存储方案平衡缓存效率与计算开销 [19] AI云原生战略布局 - xLLM集成至ServingKit推理套件,13秒完成模型显存加载 [21][22] - ServingKit在开源引擎基础上优化,TPS提升2.4倍 [22] - 提出以AI负载为中心的基础架构新范式 [20] - 强调"巧炼钢"理念,通过全栈优化提升单卡利用率 [24][25] 行业趋势与解决方案 - 企业需求从"卡多卡新"转向"算力高效利用" [24][25] - 面临推理潮汐和异构算力调度两大核心挑战 [23] - Hopper 96G+xLLM组合已验证在性价比上的优势 [25] - 云服务竞争重点转向工程优化能力而非硬件堆叠 [25]
火山引擎的野心,不止是一个“更聪明的模型”
搜狐财经· 2025-04-24 19:19
文章核心观点 - 2025年春季,AI行业正从“语言生成”的上半场进入以“任务执行”为核心的下半场,竞争重心从模型本体转向模型能力的运行方式与推理系统的调度效率 [2][43] - 字节跳动旗下火山引擎通过一系列发布,系统性地展示了其在“深度思考、多模态推理、全栈Agent”方向的技术布局,旨在构建AI时代的通用调度权与基础设施平台 [2][43] 模型能力:从语言处理到任务代理 - **豆包1.5thinking模型具备多模态推理能力**,在多项专业测试中表现突出:在AIME 2024数学测试中得分追平OpenAI o3-mini-high,在Codeforces编程挑战的pass@8分数接近o1,GPQA科学推理成绩进入国际第一梯队 [3] - **采用MoE架构实现高效推理**:模型总参数规模达200B,但每次推理仅激活20B(10%),旨在实现低能耗与高速响应,服务于高并发、低延迟场景 [6] - **“深度思考能力”包含推理链构建与策略生成**:模型不仅能给出答案,还能解释步骤,并能从“理解”到“决策”执行链式任务,标志着AI从语言处理者转向任务代理者 [6] - **推理成本大幅优化**:通过自研ServingKit推理框架与MoE架构,使得API延迟最低可达20ms,GPU使用成本下降了80%,解决了模型规模化落地的关键成本门槛 [7] 视觉生成:从创意产品到工程化接口 - **Seedream3.0文生图引擎强调结构可控性与商业适用性**:支持2K分辨率图像直出,在图像结构、文本排版、小字生成和对象属性一致性方面优于前代,1K图像可实现3秒出图 [10] - **在权威评测中跻身第一梯队**:在Artificial Analysis文生图竞技场中,Seedream 3.0以1158的ELO评分位列榜单,与GPT-4o(1157)等国际顶级模型处于同一有效竞争区间 [12][13] - **核心突破在于“结构秩序”与指令遵循**:通过多分辨率混合训练等优化,模型能精准执行复杂指令,解决多语言文本错位、多物体位置混乱等常见问题,使其更像一个“具备图文执行能力的模型接口” [14][15] - **定位转向“接口化视觉能力”**:图像生成不再是孤立动作,而是嵌入更长任务链路(如识别工厂俯视图危险区域、生成可商用双语宣传图),竞争力从“图好不好看”转向“图能不能用、能不能嵌入系统” [16][17] Agent架构:从插件到操作系统级框架 - **OS Agent定位为“面向企业的全栈Agent解决方案”**:它不仅支持调用浏览器、电脑等工具,更通过UI-TARS模型(融合屏幕视觉理解、界面元素识别与操作逻辑推理)和veFaaS函数服务+云手机/云服务器,试图让模型“看得懂界面+操作得了界面”,实现操作系统级别的交互控制 [19][21] - **提出并支持MCP协议以统一Agent交互标准**:该协议旨在像早期Web的HTML和HTTP一样,统一不同系统中Agent的交互接口与执行指令集,打破当前生态的碎片化,降低开发成本并实现跨平台复用 [22][23][24] - **模型调用进入“任务链时代”**:评估单位从单次问答转向任务链,例如完成“比价”任务需要Agent主动发起子任务、识别界面、控制行为路径并在多模态间跳转,这要求Agent具备多轮状态记忆、规划及异常恢复能力 [26] 云原生推理体系:重构AI基础设施 - **自研ServingKit推理服务系统是关键组件**:该系统优化高并发下的推理资源调度(支持异构硬件)与低延迟响应(优化PD分离、KV Cache等),使推理成本相比传统方案降低80%,并计划对第三方模型(如DeepSeek、GLM)提供统一推理能力 [30][31][32] - **“AI云原生”是对云基础设施的重构**:大模型对延迟敏感、计算量大的特点,要求云服务从传统的快速部署、弹性扩缩,转向提供低成本、高密度、高可靠性的推理服务调度系统,模型是“核心燃料”,推理系统是“发动机” [28][33] - **火山引擎定义了系统化的“AI云原生”能力分层**:包括模型层、推理层(ServingKit)、交互层(OS Agent)、控制层(MCP协议)、数据层和运维层,旨在打造一个能复用、能组合的“AI原生操作环境”,支撑自身及第三方模型生态 [34] 公司战略:产品验证与平台化并行的双轨路线 - **豆包是能力验证的产品形态,而非商业核心**:其C端应用主要承担快速试错、收集用户反馈、落地场景示范的职能,服务于整个模型平台的研发循环,是模型能力成长的“压强器”而非终点 [35][36] - **平台化底层逻辑是开放与服务一切模型**:火山引擎明确开放信号,表示对DeepSeek等第三方模型的适配速度“市场最快”,旨在通过提供高效的推理、部署与系统对接服务,扩大云服务市场份额,规避单一模型商业化的风险 [38][39] - **战略核心是“工具化”与“组件化”**:与OpenAI强调产品体验闭环不同,火山引擎提供的是“AI工程工具箱”平台,豆包、Seedream、OS Agent均为预装模块,但开发者可选用自有模型,平台提供更优的推理调度与开发环境 [40] - **公司定位是“面向模型生态的开发与运行基础设施平台”**:火山引擎试图平衡模型产品提供者、云推理平台提供者及AI中间件/标准制定者三重身份,其做法是“内外统一”,强调技术复用与生态中立,豆包是展示平台能力的“门面”,而AI云原生才是根基 [41][42]