字节Seed - 财报，业绩电话会，研报，新闻

字节Seed

搜索文档

自动驾驶之心· 2025-09-18 11:40

中国AI大模型领域领导者战略布局与技术成果 DeepSeek（梁文锋） - 团队在3年核心技术积累后产品上线 20天内连续更新50多个版本 [5] - 产品上线20天内获得全球3000万日活用户成为现象级产品 [5] - 展现中国AI创业公司技术实力和市场爆发力加剧全球AI大模型领域竞争 [5] 通义千问（林俊旸） - 团队以周级迭代速度推进优化半年内完成30余次版本升级 [9] - 成功适配制造、金融、政务、医疗、教育等20多个重点行业场景 [9] - 累计服务超10万家企业客户成为国内产业级AI大模型标杆产品 [9] - 打破大模型只聚焦C端体验认知局限大幅降低中小企业引入AI技术门槛 [10] 字节Seed（吴永辉） - 团队以快速响应用户反馈为导向短期内密集迭代数十个版本 [14] - 产品短时间内突破千万日活成为用户高频依赖的智能助手 [14] - 广泛应用于办公文档处理、学习答疑、生活服务咨询、创意内容辅助等日常场景 [14] - 推动AI技术从专业领域走向大众日常加速AI在普通生活场景中的普及 [14] 腾讯混元大模型（薄列峰） - 团队半年内完成8次重大版本更新实现代码生成精度提升等能力突破 [17] - 服务超20万家企业客户赋能百度搜索、小度智能设备、自动驾驶等核心业务 [17] - 推动大模型技术从技术探索迈向产业实用加速传统行业智能化转型 [17] 日日新大模型（徐立） - 构建国内领先AI大装置SenseCore 为模型研发提供算力算法数据协同底座 [22] - 持续迭代多模态能力技术测评多次刷新通用AI能力榜单 [22] - 服务超1000家大型企业客户覆盖全球超40个国家和地区 [22] - 打破AI技术单点应用局限推动AI向全链条渗透升级 [23] Minimax（闫俊杰） - 推出国内首个商用万亿参数MoE架构大模型abab 6.5 [26] - 服务数万家企业客户覆盖金融、教育、医疗等多个行业 [27] - 积累千万级C端用户形成企业服务加C端应用双驱动产品矩阵 [27] - 为行业提供高效低成本大模型产业化路径加速AI普惠进程 [27] 月之暗面Kimi（杨植麟） - 产品凭借超长文本处理差异化优势早期支持20万字上下文后续升级至百万字级 [32] - 攻克传统大模型处理长篇文档痛点快速覆盖科研辅助、法律文书分析等专业场景 [32] - 上线不久收获千万级用户关注成为聚焦专业场景价值的现象级产品 [32] - 带动行业从通用对话向专业领域落地聚焦推动AI技术在专业场景实用化进程 [32] 文心一言（王海峰） - 打造中国首个自主研发开源开放的产业级深度学习平台百度飞桨 [35] - 全面负责百度人工智能技术研发和商业化落地包括百度大脑、文心大模型等核心体系构建 [35] - 推动百度AI在搜索、云计算、自动驾驶、智能硬件等众多业务领域应用 [35] - 飞桨平台降低中国AI开发者门槛文心大模型推动生成式AI在国内普及发展 [35] 行业整体影响 - 这些领导者推动AI技术从实验室突破走向产业规模化落地 [2][37] - 中国AI企业展现技术深度与场景落地能力提升全球AI产业应用领域竞争力 [10][23] - 带动AI产业链上下游协同发展为全球AI产业提供技术产业双向驱动的中国样本 [17][23]

大模型技术

人工智能

Artificial Intelligence

Artificial Intelligence

通义千问

字节Seed

腾讯混元大模型

字节Seed最新版原生智能体来了！一个模型搞定手机/电脑/浏览器自主操作

量子位· 2025-09-05 12:28

核心观点 - 字节Seed团队发布UI-TARS-2智能体通过多轮强化学习训练实现跨平台自主操作GUI 在电脑、手机、浏览器及游戏场景中表现优于Claude和OpenAI等竞争对手 [2][4][23][25] 技术架构与设计思路 - 采用统一Agent架构以大语言模型为核心决策器支持自然语言指令到GUI/终端/工具操作的通用执行循环 [7] - 整合多模态感知与环境交互输入端包含屏幕截图、文本上下文及历史操作轨迹输出端支持点击坐标、拖拽动作、命令行及API请求 [7] - 构建混合操作流智能体可无缝组合GUI点击、终端命令和API调用例如网页找资料后调用搜索API处理数据 [7] - 核心目标为构建原生通用跨平台GUI智能体覆盖电脑、手机、网页、终端及游戏复杂任务 [6] 性能表现与基准测试 - 在OSWorld测试中得分47.5 超过Claude-4-Sonnet的43.9和OpenAI CUA-o3的42.9 [23][25] - 在WindowsAgentArena测试中得分50.6 超过UI-TARS-1.5的42.1 [23][25] - 在TerminalBench命令行任务中得分45.31 超过Claude-4-Opus的43.2和OpenAI o3的30.2 [23][25] - 在15款小游戏中平均得分达人类水平的59.77% 显著高于OpenAI CUA的24.73%和Claude Computer Use的21.61% [25][27] - 在Shapes游戏中得分5.9 超过人类水平的5.42 在2048游戏中得分932.4 接近人类水平的1024.31 [27] 多轮强化学习与数据飞轮 - 通过多轮强化学习解决GUI操作四大难题：数据稀缺、环境割裂、能力单一及训练不稳定 [4][5][10] - 采用冷启动策略通过合成数据和人工标注构建高质量监督微调数据集 [11] - 通过拒绝采样生成新轨迹按质量筛选后高质量数据进微调集低质量数据进预训练集形成模型与数据相互增强的循环 [12] - 针对奖励稀疏问题对可验证任务采用明确信号奖励对模糊任务训练智能体自身作为奖励模型输出成功分数 [16] - 采用异步rollout模式将模型推理与执行过程分离并优化PPO算法包括解耦GAE和不对称裁剪 [17] 工程实现与平台支撑 - 构建统一沙盒平台支持百万级交互训练解决传统环境难复现、易崩溃及吞吐量低的问题 [20][21] - 沙盒平台兼容多载体包含云虚拟机文件系统、远程VS Code及Jupyter等工具覆盖桌面-移动-游戏全场景 [18][22] - 基于Seed-thinking-1.6模型训练总参数230B 含532M视觉编码器和23B激活参数 [23]