字节Seed

搜索文档
中国大模型的技术一号位们
自动驾驶之心· 2025-09-18 11:40
中国AI大模型领域领导者战略布局与技术成果 DeepSeek(梁文锋) - 团队在3年核心技术积累后产品上线 20天内连续更新50多个版本 [5] - 产品上线20天内获得全球3000万日活用户成为现象级产品 [5] - 展现中国AI创业公司技术实力和市场爆发力 加剧全球AI大模型领域竞争 [5] 通义千问(林俊旸) - 团队以周级迭代速度推进优化 半年内完成30余次版本升级 [9] - 成功适配制造、金融、政务、医疗、教育等20多个重点行业场景 [9] - 累计服务超10万家企业客户 成为国内产业级AI大模型标杆产品 [9] - 打破大模型只聚焦C端体验认知局限 大幅降低中小企业引入AI技术门槛 [10] 字节Seed(吴永辉) - 团队以快速响应用户反馈为导向 短期内密集迭代数十个版本 [14] - 产品短时间内突破千万日活 成为用户高频依赖的智能助手 [14] - 广泛应用于办公文档处理、学习答疑、生活服务咨询、创意内容辅助等日常场景 [14] - 推动AI技术从专业领域走向大众日常 加速AI在普通生活场景中的普及 [14] 腾讯混元大模型(薄列峰) - 团队半年内完成8次重大版本更新 实现代码生成精度提升等能力突破 [17] - 服务超20万家企业客户 赋能百度搜索、小度智能设备、自动驾驶等核心业务 [17] - 推动大模型技术从技术探索迈向产业实用 加速传统行业智能化转型 [17] 日日新大模型(徐立) - 构建国内领先AI大装置SenseCore 为模型研发提供算力算法数据协同底座 [22] - 持续迭代多模态能力 技术测评多次刷新通用AI能力榜单 [22] - 服务超1000家大型企业客户 覆盖全球超40个国家和地区 [22] - 打破AI技术单点应用局限 推动AI向全链条渗透升级 [23] Minimax(闫俊杰) - 推出国内首个商用万亿参数MoE架构大模型abab 6.5 [26] - 服务数万家企业客户 覆盖金融、教育、医疗等多个行业 [27] - 积累千万级C端用户 形成企业服务加C端应用双驱动产品矩阵 [27] - 为行业提供高效低成本大模型产业化路径 加速AI普惠进程 [27] 月之暗面Kimi(杨植麟) - 产品凭借超长文本处理差异化优势 早期支持20万字上下文后续升级至百万字级 [32] - 攻克传统大模型处理长篇文档痛点 快速覆盖科研辅助、法律文书分析等专业场景 [32] - 上线不久收获千万级用户关注 成为聚焦专业场景价值的现象级产品 [32] - 带动行业从通用对话向专业领域落地聚焦 推动AI技术在专业场景实用化进程 [32] 文心一言(王海峰) - 打造中国首个自主研发开源开放的产业级深度学习平台百度飞桨 [35] - 全面负责百度人工智能技术研发和商业化落地 包括百度大脑、文心大模型等核心体系构建 [35] - 推动百度AI在搜索、云计算、自动驾驶、智能硬件等众多业务领域应用 [35] - 飞桨平台降低中国AI开发者门槛 文心大模型推动生成式AI在国内普及发展 [35] 行业整体影响 - 这些领导者推动AI技术从实验室突破走向产业规模化落地 [2][37] - 中国AI企业展现技术深度与场景落地能力 提升全球AI产业应用领域竞争力 [10][23] - 带动AI产业链上下游协同发展 为全球AI产业提供技术产业双向驱动的中国样本 [17][23]
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
量子位· 2025-09-05 12:28
核心观点 - 字节Seed团队发布UI-TARS-2智能体 通过多轮强化学习训练实现跨平台自主操作GUI 在电脑、手机、浏览器及游戏场景中表现优于Claude和OpenAI等竞争对手 [2][4][23][25] 技术架构与设计思路 - 采用统一Agent架构 以大语言模型为核心决策器 支持自然语言指令到GUI/终端/工具操作的通用执行循环 [7] - 整合多模态感知与环境交互 输入端包含屏幕截图、文本上下文及历史操作轨迹 输出端支持点击坐标、拖拽动作、命令行及API请求 [7] - 构建混合操作流 智能体可无缝组合GUI点击、终端命令和API调用 例如网页找资料后调用搜索API处理数据 [7] - 核心目标为构建原生通用跨平台GUI智能体 覆盖电脑、手机、网页、终端及游戏复杂任务 [6] 性能表现与基准测试 - 在OSWorld测试中得分47.5 超过Claude-4-Sonnet的43.9和OpenAI CUA-o3的42.9 [23][25] - 在WindowsAgentArena测试中得分50.6 超过UI-TARS-1.5的42.1 [23][25] - 在TerminalBench命令行任务中得分45.31 超过Claude-4-Opus的43.2和OpenAI o3的30.2 [23][25] - 在15款小游戏中平均得分达人类水平的59.77% 显著高于OpenAI CUA的24.73%和Claude Computer Use的21.61% [25][27] - 在Shapes游戏中得分5.9 超过人类水平的5.42 在2048游戏中得分932.4 接近人类水平的1024.31 [27] 多轮强化学习与数据飞轮 - 通过多轮强化学习解决GUI操作四大难题:数据稀缺、环境割裂、能力单一及训练不稳定 [4][5][10] - 采用冷启动策略 通过合成数据和人工标注构建高质量监督微调数据集 [11] - 通过拒绝采样生成新轨迹 按质量筛选后高质量数据进微调集 低质量数据进预训练集 形成模型与数据相互增强的循环 [12] - 针对奖励稀疏问题 对可验证任务采用明确信号奖励 对模糊任务训练智能体自身作为奖励模型输出成功分数 [16] - 采用异步rollout模式 将模型推理与执行过程分离 并优化PPO算法包括解耦GAE和不对称裁剪 [17] 工程实现与平台支撑 - 构建统一沙盒平台 支持百万级交互训练 解决传统环境难复现、易崩溃及吞吐量低的问题 [20][21] - 沙盒平台兼容多载体 包含云虚拟机文件系统、远程VS Code及Jupyter等工具 覆盖桌面-移动-游戏全场景 [18][22] - 基于Seed-thinking-1.6模型训练 总参数230B 含532M视觉编码器和23B激活参数 [23]