量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-09-27 09:30

产品发布 - Kimi发布全新Agent模型OK Computer 依托Kimi K2技术平台 [1][4] - 模型具备网页制作、PPT生成、数据处理等多项功能可处理100万行数据并生成交互式仪表板 [4][30] 功能特性 - 设计类任务支持网页自动生成与Python编程根据单句提示词自主完成模块设计与实现 [9][10][14] - 生成类任务整合文本、图像及音频生成能力支持儿童故事绘本创作与文艺风格PPT制作 [19][20][22] - 分析类任务实现长文档检索与大数据处理自动完成数据搜集、分析及可视化呈现 [28][29][30] 技术实现 - 采用像素风界面设计提供简洁直观的用户交互体验 [7] - 任务执行过程自主生成Todo清单实时标记进度状态（x表示完成 -表示进行中） [16] - 支持静态部署与动态资源调用自动完成网页搜索和素材生成等预处理操作 [17] 性能表现 - 网页生成功能实现按钮跳转、等级分类、对比可视化等复杂交互设计 [12] - PPT输出文件支持后期人工编辑具备完整可修改性 [24][26] - 数据分析模块自动构建评估维度无需人工设定分析框架 [31]

Agent模型

Artificial Intelligence

OK Computer

Kimi K2

Agent模型

Artificial Intelligence

OK Computer

Kimi K2

首个开源实现100%可复现的稳定RL训练框架来了！2次结果完全重合

量子位· 2025-09-27 09:30

核心技术突破 - SGLang团队联合slime团队通过定制注意力算子和采样逻辑，实现了完全确定性推理，解决了LLM推理中的不确定性问题[2][5][6] - 该实现基于Thinking Machines Lab提出的批次不变性算子，核心创新是解决了因动态批处理导致批次大小变化而引起的浮点运算非结合性问题[4][7] - 确定性推理功能与分块预填充、CUDA Graph、Radix Cache等关键性能优化技术完全兼容，在启用确定性模式时仍支持这些功能[5][9] 性能表现 - 使用CUDA Graph可实现2.8倍加速，与Thinking Machines Lab报告的61.5%性能下降相比，SGLang在FlashInfer和FlashAttention 3后端平均仅有34.35%的性能下降[5] - 在256个请求的RL推理工作负载测试中，确定性推理在FlashInfer后端的性能下降为24.4%-46%，FlashAttention 3后端为27.2%-35.7%，Triton后端为44.64%-55.1%[12][13] - 确定性测试显示，在三种不同测试场景下，常规模式会产生2-18个独特输出，而确定性模式在所有后端均稳定输出1个独特结果，实现了完美确定性[10][11] 技术验证与应用 - 基于Qwen3-8B的重复实验显示两次运行曲线完美重合，为需要高精度复现的实验场景提供了可靠保障[1] - 支持按请求设置采样种子，即使在temperature>0的非贪婪采样模式下也能实现确定性推理[9] - 当前主要推荐用于调试和复现性场景，未来目标是将性能差距缩小到20%以内或与正常模式持平[13] 未来发展路径 - 将优化批次不变算子作为性能提升重点，这对提高RL推理速度至关重要[18] - 计划将确定性推理支持从Dense模型扩展到Qwen3-30B-A3B或DeepSeek-V3等混合专家模型[18] - 将增强基数缓存功能使其兼容更广泛的注意力算子，并计划集成FlexAttention等新后端[18]

确定性推理

可复现的稳定RL训练

Artificial Intelligence

Artificial Intelligence

量子位· 2025-09-26 17:12

文章核心观点 - 在2025骁龙峰会·中国上，行业核心玩家共同探讨了AI与Agent技术为终端设备（特别是具身智能机器人）带来的新想象，并剖析了当前行业面临的技术路线分歧、部署挑战及开放协作的必要性 [1][2][3] 具身智能机器人的发展路径与挑战 - 宇树科技CEO王兴兴提出了通用AI机器人发展的四阶段路线图：固定动作演示（已实现）、实时生成任意动作（预计最快2025年底/2026年初实现）、在陌生场景执行任务（预计2026年底左右实现）、高成功率与精细操作（目标成功率接近99.9%，需再数年） [11][12] - 机器人面临部署大规模算力的难题，包括空间限制导致高算力芯片难以安装、电池容量及散热问题难以解决 [20][21] - 机器人峰值功耗理想目标需控制在100W以内，平均正常功耗为20-30W，相当于几个手机的功耗，手机芯片应用于机器人领域具有想象空间 [23][24] - 工业机器人最常见的故障是线缆问题，可能占到故障总数的60%-70%，减少线缆数量对提升可靠性至关重要，目标是将每个手臂的线缆减少至仅一根 [16][17][19] 端侧AI与Agent系统的关键作用 - 端云协同已成为行业共识，端侧模型具备"永远在线"的优势，可持续感知世界、保障用户隐私，并作为核心编排者协同云端Agent完成复杂任务 [35][38] - 端侧模型需不断提升知识密度，面壁智能提出知识密度每三个月提升一倍的观点，以更好地适应各种硬件设备和用户场景 [39] - 在汽车座舱等具体终端场景，端侧模型能基于本地感知（如感知到后座小朋友哭闹）快速响应并协同云端模型提供服务，避免隐私暴露 [36] 行业协作与开放生态建设 - 当前行业处于黎明前夜，各家技术路线差异大导致整体进展缓慢，建议在模型尚无法直接部署的阶段保持开放态度，通过开源促进共同进步 [25][28][29] - 宇树科技已开源其基于视频生成的世界模型，包括模型、数据集、训练及部署源代码，旨在推动领域共同发展，类似OpenAI早期开源GPT-1/2的策略 [26][28] - 行业需共建基础设施以应对碎片化挑战，例如中科创达与高通、火山引擎等合作共建创新中心与联合实验室，推动混合AI方案优化 [48][51] Agent的服务本质与未来操作系统 - Agent的核心竞争力在于其能提供的服务能力，用户选择Agent的逻辑将类似于选择操作系统，关键在于其接入服务的广度与深度 [44][47] - 理想汽车的"理想同学"Agent已从车内服务扩展至生活场景，如点咖啡、交水电费、叫代驾等 [47] - 未来有望形成跨终端的操作系统，由Cloud OS与各终端Agent协同工作，AI将作为一种全新的UI催生新的AI OS [50]

Gemini灵魂人物加盟xAI，马斯克亲自夹道欢迎！

量子位· 2025-09-26 17:12

核心观点 - 前谷歌DeepMind资深研究员Dustin Tran加入xAI 其作为Gemini系列核心开发者将助力xAI技术发展马斯克亲自欢迎体现其重要性[1][4][6][8] - Tran在谷歌期间主导多项突破性AI项目包括Gemini系列开发及早期TensorFlow等框架构建其学术论文引用超2.4万次[11][15][18][25] - Tran加入xAI主要因算力资源（数十万张GB200芯片）、数据策略及马斯克企业理念三大优势预计将加速Grok系列模型迭代[29][30][31][33][35] 人才流动与行业影响 - 顶级AI研究员从谷歌流向xAI 反映头部科技公司人才竞争加剧核心人才对技术路线具有决定性影响[4][27] - Tran在谷歌8年期间主导关键项目转型包括100天内基于LaMDA开发Bard（Gemini前身）并最终推动Gemini系列实现技术反超[12][13][15][16] - 其早期参与OpenAI Dota 2 AI项目具备多平台经验跨公司技术积累可能促进xAI技术融合创新[19][21] 技术成就与里程碑 - Tran团队开发的Gemini 1.5 Pro在LMArena霸榜超一年帮助谷歌重新确立AI领域竞争力[15] - 其2016年发表的校准度量论文开创深度学习评估基准论文引用671次直接影响LLM可信度评估标准[23][24] - 参与构建TensorFlow、Vision Transformer（参数量达220亿）等基础框架相关论文引用超700次[18] 公司战略与资源对比 - xAI算力优势显著 Tran称人均芯片数量远超谷歌且数十万张GB200芯片尚未完全部署[29][30] - xAI数据策略聚焦RL与后训练规模化结合专业数据标注团队扩张预示训练方法升级[31][32] - 马斯克强调"一阶导数和二阶导数"理念公司发展加速度被视作核心竞争优势[35] 行业竞争动态 - OpenAI被指曾通过提前发布囤积点子抢占头条但当前创新储备可能见底[37] - 谷歌在GPT-3.5发布后启动"红色警报" 反映头部企业对技术迭代速度的危机响应机制[12] - Gemini系列成功扭转谷歌市场预期股价曾因Bard发布单日蒸发近千亿美元[14][15][16]