OS Agent解决方案
搜索文档
扣子空间一手实测:字节的第一个Agent,比Manus如何?
Founder Park· 2025-04-21 20:23
产品发布与内测 - 4 月 17 日,豆包·深度思考模型发布,同步升级文生图模型 3.0、视觉理解模型,推出 OS Agent 解决方案及 AI 云原生推理套件[29] - 4 月 18 日晚间,字节跳动扣子空间开启内测,定位通用 Agent,采用邀请码制[3] 产品功能与体验 - 扣子空间用户可选择「通用实习生」或「领域专家」完成工作任务,有探索和规划两种模式,支持添加 MCP 扩展[4][7][13] - 实测中,制定旅游攻略和一周穿搭任务部分完成,专家助手任务出现 Python 脚本调用失败、API 权限异常等 Bug[6] - 接入语音合成工具可将文字攻略转成语音,查天气推荐穿搭可输出图片[15] 专家 Agent 情况 - 扣子空间内置「用户研究专家」和「华泰 A 股观察助手」两个专家 Agent,限时免费,前者单任务平均耗时 4 分钟,后者 23 分钟[24][25] - 「华泰 A 股观察助手」执行任务不稳定,出现数据未获取、Python 脚本调用失败等问题[26][27] 行业趋势与战略 - 2025 年之前被称为 Agent 之年,manus 加速大厂在该领域推进[29] - 做好 Agent 技术上需更强多模态模型、更好架构和工具、降低模型推理成本和延迟,字节或已做好准备[30][31] - 火山引擎通过多种方式全面推进 Agent 生态建设,未来 Agent 定义和应用场景将更清晰[32] - 字节的 Agent 战略以技术突破、生态协同和成本优势为核心[33]
火山引擎总裁谭待:AI Agent元年竞逐,模型能力与云原生基建是关键
21世纪经济报道· 2025-04-18 20:27
行业趋势与定义 - 2025年被视为AI Agent(智能体)的爆发元年,AI正从“工具”升级为“助手”甚至“代理人”[1] - 真正的AI Agent需具备深度思考、多模态交互和操作数字/物理世界的工具链三项核心能力[1][5] - AI技术发展短期被高估,长期被低估,只有当AI能像人一样思考、感知、行动时才算真正改变世界[6] 公司战略与定位 - 火山引擎的定位是成为“AI时代最好的云”,其核心任务是通过AI云原生架构支持多元模型生态[4] - 公司专注于模型能力的竞争,包括深度思考和多模态支持,认为模型竞争的实质是能力竞争,与开源闭源关系不大[1][2] - 在AI Agent的竞逐中,公司重点关注模型能力,并认为这场“马拉松”的胜负远未分晓[1] 技术能力与产品进展 - 豆包大模型的日均token调用量在过去一年内从4万亿飙升至12.7万亿,增长超过106倍[3] - 豆包深度思考模型在数学推理(AIME 2024)、编程竞赛(Codeforces)等专业测试中已接近全球第一梯队水平[4] - 公司推出OS Agent解决方案,整合了豆包UI-Tars模型、Sandbox沙箱环境和veFaaS无服务架构三大核心组件,以支持复杂Agent开发[5] - 火山引擎的ServingKit推理套件可将KV缓存命中率提高10倍,并通过PD分离、KV缓存、异构硬件适配等技术,让GPU推理效率提升5倍以上[5] 商业化应用与客户案例 - 深度思考功能上线后,企业客户开始用大模型处理财报分析、研究报告等长链条任务[4] - 多模态视觉推理能力使得智能座舱、工业巡检等应用成为可能[4] - 杭州银行基于火山引擎AI云原生搭建的“百业云”,为中小商家提供7*24小时智能客服,服务成本仅为传统方案的1/3[5] - 在第三方使用DeepSeek的云服务中,火山引擎的占比最高,公司称其适配DeepSeek的速度和效果是行业最优的[4] 基础设施与架构创新 - 公司提出“AI云原生”作为智能时代的“新基建”,这是一套涵盖算力调度、开发工具、安全组件的全新基础设施[4] - AI云原生架构旨在应对AI应用向Agent演进带来的挑战,如支撑百倍增长的token调用量、降低推理成本以及确保Agent安全操作现实世界[4] - 该架构支持弹性计算资源分配,例如在延迟不敏感的场景中,旧型号GPU仍可高效运行,从而拉长硬件生命周期[5] 未来展望与预测 - 未来2-3年,若模型能力在视觉推理、Agent协作等领域取得突破,token调用量可能再现百倍增长[6] - 实现token百倍增长的前提是AI云原生基础设施的成熟,它不仅是算力池,更是智能时代的“水电煤”[6] - 每一次模型能力的突破(如深度思考、多模态)都会解锁新的应用场景[4]
豆包1.5深度思考模型发布:暴砍参数量,能看图思考,数学编程超DeepSeek-R1
36氪· 2025-04-17 16:54
文章核心观点 火山引擎发布豆包1.5·深度思考模型,在性能、能力和应用场景上有显著提升,同时升级了相关模型,其新能力或成推理模型升级重要方向,同日还发布了其他解决方案和套件 [1][3][21] 分组1:豆包1.5·深度思考模型发布及基础情况 - 火山引擎发布豆包1.5·深度思考模型,采用MoE架构,总参数量200B,激活参数20B,在多项基准测试达或接近全球第一梯队水平 [1] - 截至2025年3月底,豆包大模型日均tokens调用量超12.7万亿,是2024年12月的3倍,是一年前的106倍,2024年火山引擎以46.4%市场份额居中国公有云大模型调用量市场第一 [3] 分组2:豆包1.5·深度思考模型能力特点 - 较小参数量和激活参数量使其训练和推理成本低,高并发场景延迟仅20毫秒 [4] - 具备“边想边搜”能力,豆包App基于此模型定向训练,如推荐露营装备时可拆解需求、规划信息并补充搜索 [4] - 具备视觉理解能力,能基于文字、图像信息思考,如给出预算内点餐推荐 [6] - 模型团队优化数据处理策略,融合可验证与创意性数据,采用创新双轨奖励机制优化算法 [7] 分组3:豆包1.5·深度思考模型测试表现 - 在AIME 2024、2025数学测试中得分与OpenAI o3 - mini - high基本打平,Beyond AIME测试有明显差距 [8] - 在GPQA Diamond测试集得分为77.3,与OpenAI o1、o3 - mini - high仅有微小差距 [10] - 在Code Forces和SWE - bench编程基准测试接近或超越DeepSeek - R1 [10] - 在ARC - AGI测试得分39.9分,大幅超过OpenAI o1和o3 - mini - high [10] - 在创意写作等非推理任务展示泛化能力,能胜任更广泛复杂场景 [10] 分组4:相关模型升级情况 - 豆包·文生图模型3.0能实现更好文字排版、实拍级图像生成和2K高清图片生成,应用于多场景,在Artificial Analysis竞技场排名全球第一梯队 [11][13][15] - 豆包·视觉理解模型新版本视觉定位能力强,支持多种定位方式,应用于多场景,视频理解能力大幅提升,结合向量搜索可对视频语义搜索 [17][20] 分组5:其他发布内容及行业趋势 - 推理模型成国内厂商角逐重要方向,豆包1.5·深度思考模型新能力或成下一轮升级重要方向 [21] - 火山引擎同日发布OS Agent解决方案、GUI Agent大模型(豆包1.5·UI - TARS)和AI云原生·ServingKit推理套件 [21]
火山引擎发布Agent全栈解决方案
快讯· 2025-04-17 12:15
产品发布与升级 - 火山引擎发布豆包1 5・深度思考模型 面向企业市场 [1] - 同步升级文生图模型3 0和视觉理解模型 [1] - 推出OS Agent解决方案及AI云原生推理套件 帮助企业快速部署Agent应用 [1] 业务数据表现 - 截至2025年3月底 豆包大模型日均tokens调用量达12 7万亿 [1] - 调用量较去年5月发布时增长上百倍 [1]