原生智能体 - 财报，业绩电话会，研报，新闻

原生智能体

搜索文档

杨植麟带 Kimi 团队深夜回应：关于 K2 Thinking 爆火后的一切争议

AI前线· 2025-11-11 14:42

文章核心观点 - 月之暗面公司发布并开源了Kimi K2 Thinking模型，该模型被定位为“模型即Agent”，在多项关键基准测试中表现优异，甚至超越了GPT-5、Claude 4.5等顶级闭源模型[2][10] - 该模型的核心创新在于其“原生智能体”设计，通过KDA注意力机制、原生INT4量化等系统性工程优化，实现了在推理、编码、搜索和写作等任务上的能力跃迁，标志着开源模型首次具备正面对抗闭源巨头的实力[27][28][30][41] 模型性能与基准测试 - 在HLE基准测试中，Kimi K2 Thinking得分44.9，高于GPT-5的41.7和Claude 4.5的32[12] - 在BrowseComp测试中，Kimi K2 Thinking得分60.2，显著高于GPT-5的54.9和Claude 4.5的24.1[12] - 在AIME25数学推理测试中，Kimi K2 Thinking达到99.1%，与GPT-5的99.6%和Claude 4.5的100%几乎持平[12] - 模型支持256k上下文窗口，输入定价为每百万tokens 0.60美元，输出定价为每百万tokens 2.50美元，具备成本优势[12] - 模型可稳定完成200-300次连续工具调用，远超竞争对手的数十次水平[12][29] 技术创新与架构 - 模型引入了关键的KDA注意力机制，采用“增量更新+门控”方式，解决了MoE模型长上下文一致性差和KV缓存大的问题，相关设计思想将延续到下一代K3模型[15][38] - 通过采用原生INT4量化感知训练，模型在几乎不损失精度的前提下，推理速度提升约两倍，显存占用显著下降[35][36] - KDA机制通过增量式计算将KV缓存与显存开销减少约75%，结合MoE架构，共同保障了模型在长推理任务中的稳定表现[38][39] 团队回应与未来规划 - 公司联合创始人杨植麟确认团队正在开发视觉语言模型[18] - 对于网传的460万美元训练成本，公司澄清并非官方数据，强调训练成本难以量化[20] - 团队承认模型在响应速度上相比GPT-5有5-10倍差距，但解释这是为追求思维深度所做的权衡，并正在积极提升token效率[20][21] - 团队认可用户关于模型输出存在“slop问题”的反馈，表示已在减少语言啰嗦重复方面取得进展，并计划在未来版本中提升情绪表达的真实性和开放性[23][25] 应用能力与市场定位 - 模型在SWE-bench Verified编码基准测试中达到71.3%，展现出“智能体级”开发能力，能够完成从需求理解到调试验证的完整闭环[32] - 在智能搜索任务中，模型具备“边搜索边推理”的能力，能够通过多轮“思考-工具调用”循环处理复杂问题[34] - 模型在创意写作和学术研究场景中表现出色，能将零散灵感组织成结构清晰的长篇文本，并保证逻辑一致性[35] - 此次发布被视为公司在行业空窗期的一次“翻身仗”，为开源阵营提供了对抗闭源巨头的底气[27]

字节Seed最新版原生智能体来了！一个模型搞定手机/电脑/浏览器自主操作

量子位· 2025-09-05 12:28

核心观点 - 字节Seed团队发布UI-TARS-2智能体通过多轮强化学习训练实现跨平台自主操作GUI 在电脑、手机、浏览器及游戏场景中表现优于Claude和OpenAI等竞争对手 [2][4][23][25] 技术架构与设计思路 - 采用统一Agent架构以大语言模型为核心决策器支持自然语言指令到GUI/终端/工具操作的通用执行循环 [7] - 整合多模态感知与环境交互输入端包含屏幕截图、文本上下文及历史操作轨迹输出端支持点击坐标、拖拽动作、命令行及API请求 [7] - 构建混合操作流智能体可无缝组合GUI点击、终端命令和API调用例如网页找资料后调用搜索API处理数据 [7] - 核心目标为构建原生通用跨平台GUI智能体覆盖电脑、手机、网页、终端及游戏复杂任务 [6] 性能表现与基准测试 - 在OSWorld测试中得分47.5 超过Claude-4-Sonnet的43.9和OpenAI CUA-o3的42.9 [23][25] - 在WindowsAgentArena测试中得分50.6 超过UI-TARS-1.5的42.1 [23][25] - 在TerminalBench命令行任务中得分45.31 超过Claude-4-Opus的43.2和OpenAI o3的30.2 [23][25] - 在15款小游戏中平均得分达人类水平的59.77% 显著高于OpenAI CUA的24.73%和Claude Computer Use的21.61% [25][27] - 在Shapes游戏中得分5.9 超过人类水平的5.42 在2048游戏中得分932.4 接近人类水平的1024.31 [27] 多轮强化学习与数据飞轮 - 通过多轮强化学习解决GUI操作四大难题：数据稀缺、环境割裂、能力单一及训练不稳定 [4][5][10] - 采用冷启动策略通过合成数据和人工标注构建高质量监督微调数据集 [11] - 通过拒绝采样生成新轨迹按质量筛选后高质量数据进微调集低质量数据进预训练集形成模型与数据相互增强的循环 [12] - 针对奖励稀疏问题对可验证任务采用明确信号奖励对模糊任务训练智能体自身作为奖励模型输出成功分数 [16] - 采用异步rollout模式将模型推理与执行过程分离并优化PPO算法包括解耦GAE和不对称裁剪 [17] 工程实现与平台支撑 - 构建统一沙盒平台支持百万级交互训练解决传统环境难复现、易崩溃及吞吐量低的问题 [20][21] - 沙盒平台兼容多载体包含云虚拟机文件系统、远程VS Code及Jupyter等工具覆盖桌面-移动-游戏全场景 [18][22] - 基于Seed-thinking-1.6模型训练总参数230B 含532M视觉编码器和23B激活参数 [23]