Workflow
量子位
icon
搜索文档
实测Kimi全新Agent模型「OK Computer」,很OK
量子位· 2025-09-27 09:30
产品发布 - Kimi发布全新Agent模型OK Computer 依托Kimi K2技术平台 [1][4] - 模型具备网页制作、PPT生成、数据处理等多项功能 可处理100万行数据并生成交互式仪表板 [4][30] 功能特性 - 设计类任务支持网页自动生成与Python编程 根据单句提示词自主完成模块设计与实现 [9][10][14] - 生成类任务整合文本、图像及音频生成能力 支持儿童故事绘本创作与文艺风格PPT制作 [19][20][22] - 分析类任务实现长文档检索与大数据处理 自动完成数据搜集、分析及可视化呈现 [28][29][30] 技术实现 - 采用像素风界面设计 提供简洁直观的用户交互体验 [7] - 任务执行过程自主生成Todo清单 实时标记进度状态(x表示完成 -表示进行中) [16] - 支持静态部署与动态资源调用 自动完成网页搜索和素材生成等预处理操作 [17] 性能表现 - 网页生成功能实现按钮跳转、等级分类、对比可视化等复杂交互设计 [12] - PPT输出文件支持后期人工编辑 具备完整可修改性 [24][26] - 数据分析模块自动构建评估维度 无需人工设定分析框架 [31]
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合
量子位· 2025-09-27 09:30
核心技术突破 - SGLang团队联合slime团队通过定制注意力算子和采样逻辑,实现了完全确定性推理,解决了LLM推理中的不确定性问题[2][5][6] - 该实现基于Thinking Machines Lab提出的批次不变性算子,核心创新是解决了因动态批处理导致批次大小变化而引起的浮点运算非结合性问题[4][7] - 确定性推理功能与分块预填充、CUDA Graph、Radix Cache等关键性能优化技术完全兼容,在启用确定性模式时仍支持这些功能[5][9] 性能表现 - 使用CUDA Graph可实现2.8倍加速,与Thinking Machines Lab报告的61.5%性能下降相比,SGLang在FlashInfer和FlashAttention 3后端平均仅有34.35%的性能下降[5] - 在256个请求的RL推理工作负载测试中,确定性推理在FlashInfer后端的性能下降为24.4%-46%,FlashAttention 3后端为27.2%-35.7%,Triton后端为44.64%-55.1%[12][13] - 确定性测试显示,在三种不同测试场景下,常规模式会产生2-18个独特输出,而确定性模式在所有后端均稳定输出1个独特结果,实现了完美确定性[10][11] 技术验证与应用 - 基于Qwen3-8B的重复实验显示两次运行曲线完美重合,为需要高精度复现的实验场景提供了可靠保障[1] - 支持按请求设置采样种子,即使在temperature>0的非贪婪采样模式下也能实现确定性推理[9] - 当前主要推荐用于调试和复现性场景,未来目标是将性能差距缩小到20%以内或与正常模式持平[13] 未来发展路径 - 将优化批次不变算子作为性能提升重点,这对提高RL推理速度至关重要[18] - 计划将确定性推理支持从Dense模型扩展到Qwen3-30B-A3B或DeepSeek-V3等混合专家模型[18] - 将增强基数缓存功能使其兼容更广泛的注意力算子,并计划集成FlexAttention等新后端[18]
高通组局,宇树王兴兴说了一堆大实话
量子位· 2025-09-26 17:12
文章核心观点 - 在2025骁龙峰会·中国上,行业核心玩家共同探讨了AI与Agent技术为终端设备(特别是具身智能机器人)带来的新想象,并剖析了当前行业面临的技术路线分歧、部署挑战及开放协作的必要性 [1][2][3] 具身智能机器人的发展路径与挑战 - 宇树科技CEO王兴兴提出了通用AI机器人发展的四阶段路线图:固定动作演示(已实现)、实时生成任意动作(预计最快2025年底/2026年初实现)、在陌生场景执行任务(预计2026年底左右实现)、高成功率与精细操作(目标成功率接近99.9%,需再数年) [11][12] - 机器人面临部署大规模算力的难题,包括空间限制导致高算力芯片难以安装、电池容量及散热问题难以解决 [20][21] - 机器人峰值功耗理想目标需控制在100W以内,平均正常功耗为20-30W,相当于几个手机的功耗,手机芯片应用于机器人领域具有想象空间 [23][24] - 工业机器人最常见的故障是线缆问题,可能占到故障总数的60%-70%,减少线缆数量对提升可靠性至关重要,目标是将每个手臂的线缆减少至仅一根 [16][17][19] 端侧AI与Agent系统的关键作用 - 端云协同已成为行业共识,端侧模型具备"永远在线"的优势,可持续感知世界、保障用户隐私,并作为核心编排者协同云端Agent完成复杂任务 [35][38] - 端侧模型需不断提升知识密度,面壁智能提出知识密度每三个月提升一倍的观点,以更好地适应各种硬件设备和用户场景 [39] - 在汽车座舱等具体终端场景,端侧模型能基于本地感知(如感知到后座小朋友哭闹)快速响应并协同云端模型提供服务,避免隐私暴露 [36] 行业协作与开放生态建设 - 当前行业处于黎明前夜,各家技术路线差异大导致整体进展缓慢,建议在模型尚无法直接部署的阶段保持开放态度,通过开源促进共同进步 [25][28][29] - 宇树科技已开源其基于视频生成的世界模型,包括模型、数据集、训练及部署源代码,旨在推动领域共同发展,类似OpenAI早期开源GPT-1/2的策略 [26][28] - 行业需共建基础设施以应对碎片化挑战,例如中科创达与高通、火山引擎等合作共建创新中心与联合实验室,推动混合AI方案优化 [48][51] Agent的服务本质与未来操作系统 - Agent的核心竞争力在于其能提供的服务能力,用户选择Agent的逻辑将类似于选择操作系统,关键在于其接入服务的广度与深度 [44][47] - 理想汽车的"理想同学"Agent已从车内服务扩展至生活场景,如点咖啡、交水电费、叫代驾等 [47] - 未来有望形成跨终端的操作系统,由Cloud OS与各终端Agent协同工作,AI将作为一种全新的UI催生新的AI OS [50]
Gemini灵魂人物加盟xAI,马斯克亲自夹道欢迎!
量子位· 2025-09-26 17:12
核心观点 - 前谷歌DeepMind资深研究员Dustin Tran加入xAI 其作为Gemini系列核心开发者将助力xAI技术发展 马斯克亲自欢迎体现其重要性[1][4][6][8] - Tran在谷歌期间主导多项突破性AI项目 包括Gemini系列开发及早期TensorFlow等框架构建 其学术论文引用超2.4万次[11][15][18][25] - Tran加入xAI主要因算力资源(数十万张GB200芯片)、数据策略及马斯克企业理念三大优势 预计将加速Grok系列模型迭代[29][30][31][33][35] 人才流动与行业影响 - 顶级AI研究员从谷歌流向xAI 反映头部科技公司人才竞争加剧 核心人才对技术路线具有决定性影响[4][27] - Tran在谷歌8年期间主导关键项目转型 包括100天内基于LaMDA开发Bard(Gemini前身) 并最终推动Gemini系列实现技术反超[12][13][15][16] - 其早期参与OpenAI Dota 2 AI项目 具备多平台经验 跨公司技术积累可能促进xAI技术融合创新[19][21] 技术成就与里程碑 - Tran团队开发的Gemini 1.5 Pro在LMArena霸榜超一年 帮助谷歌重新确立AI领域竞争力[15] - 其2016年发表的校准度量论文开创深度学习评估基准 论文引用671次 直接影响LLM可信度评估标准[23][24] - 参与构建TensorFlow、Vision Transformer(参数量达220亿)等基础框架 相关论文引用超700次[18] 公司战略与资源对比 - xAI算力优势显著 Tran称人均芯片数量远超谷歌 且数十万张GB200芯片尚未完全部署[29][30] - xAI数据策略聚焦RL与后训练规模化 结合专业数据标注团队扩张 预示训练方法升级[31][32] - 马斯克强调"一阶导数和二阶导数"理念 公司发展加速度被视作核心竞争优势[35] 行业竞争动态 - OpenAI被指曾通过提前发布囤积点子抢占头条 但当前创新储备可能见底[37] - 谷歌在GPT-3.5发布后启动"红色警报" 反映头部企业对技术迭代速度的危机响应机制[12] - Gemini系列成功扭转谷歌市场预期 股价曾因Bard发布单日蒸发近千亿美元[14][15][16]
谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己
量子位· 2025-09-26 12:56
新基准GDPval的提出与设计 - 提出GDPval基准用于衡量AI模型在真实世界具有经济价值任务上的表现[1] - 基准覆盖对美国GDP贡献最大的9个行业中的44种职业 这些职业年均创收合计达3万亿美元[2] - 任务基于平均拥有14年经验的行业专家的代表性工作设计而成[2][18] 测试方法与数据构建 - 筛选对美国GDP贡献超5%的9个行业 再挑选各行业贡献工资总额最多且以数字任务为主的职业[14] - 通过GPT-4o对任务按数字/非数字分类 若60%以上为数字任务则纳入[14] - 最终筛选44个职业 年创收合计3万亿美元[15] - 每个GDPval任务包含需求和交付成果两部分 行业专家对照O*NET任务分类设计[20] - 通过平均完成时间×时薪计算每个任务的经济价值[23] - 最终包含1320项任务 每个任务获得至少3次平均5次的人工审核[23] 模型性能评估结果 - Claude Opus 4.1成为表现最佳模型 47.6%产出被评定媲美人类专家成果[4] - GPT-5以38.8%的成绩位居第二[6] - GPT-4o与人类相比只有12.4%获胜或平局[6] - OpenAI各代模型在GDPval上的表现大致呈线性提升[32] - GPT-5在准确性方面优势显著 Claude在文件处理上表现更佳[33] 性能提升方法与经济价值 - 增加推理努力 提供更多任务背景 优化提示词与智能体辅助框架能显著提升模型性能[38] - 将AI模型与人类监督结合 在完成任务时有望比单独人类专家更经济高效[35] - 多种使用模式都能帮人类节省成本和时间[36] 开源与自动评分 - 开源包含220项任务的优质子集[9] - 开发实验性自动评分器 与人类专家评分的一致性达66% 仅比人类间评分一致性低5%[27] 局限性与发展计划 - 数据集规模有限仅44种职业 聚焦计算机上完成的知识工作[40] - 任务为精准指定的一次性任务 缺乏交互性 自动评分器存在不足 评估成本高[40] - 计划在未来迭代版本中拓展覆盖范围 增强真实性与交互性 纳入更多场景细节[41]
OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
量子位· 2025-09-26 12:56
GPT-5的战略定位与能力演进 - 公司试图将推理能力带入主流,GPT-5是朝着默认提供推理和更多Agentic行为迈出的一步[7][8][9] - 公司策略重心是让用户无需在即时响应模型和推理模型之间选择,未来将聚焦于增加推理和Agents能力[8] - 相比o3等先前模型,GPT-5在多方面有改进,但其主要意义在于将推理模式带给更多用户[10] 模型评估体系的演变与未来方向 - 过去依赖大规模预训练的评估方法已非常接近饱和,早期通过评估测试模型泛化能力,如今针对严肃推理的强化学习使模型能在特定领域成为专家,但泛化性可能不足[12] - 未来将重点关注模型是否能够发现新事物,并在具有经济相关性的领域取得实际进展[13] - 对衡量模型自主运行时间长度的评估很感兴趣,当前推理水平达1~5小时,未来将专注于延长该时间跨度,提升长期规划与记忆能力[23][24][25] 强化学习(RL)的发展现状与前景 - 强化学习是一种通用且强大的方法,建立在深度学习的通用学习方法之上,其发展远未达到瓶颈[27][28] - 奖励模型的发展速度预计会非常快,未来会变得更简单,公司正逐步向更接近人类学习的方向迈进[29][30] - 理解强化学习的关键思维模式是不要将当下状态视为终局,需保持灵活,因工具和方法论将持续快速迭代[31] AI编程的进展与影响 - 新一代编程模型投入大量精力调整预设,以匹配程序员对解决方案等待时长的预期,解决了上一代模型在困难问题上耗时过少、简单问题上耗时过多的问题[33][34] - 编程竞赛提供了封装的测试环境,可衡量模型在受限环境和时间内提出新想法的能力[36] - 模型进步已改变编码默认方式,新一代认为“凭感觉编码”是常态,公司首要任务是使编码工具摆脱“恐怖谷”体验,达到如同事般好用的水平[37][41][42] 自动化研究员的长远目标与衡量标准 - 公司的一个宏大目标是培养自动化研究员,使其能自动发现新想法,计划先自动化内部研究工作,再扩展至其他科学领域[20][21] - 衡量该进展的“好方法”是观察模型可进行推理和取得进展的时间跨度[22] - 模型已能推动非常困难的前沿科学研究,自动化解决可能需要学生花费数月时间的工作,这被视为灵光一闪的时刻[15][16][17] 公司人才战略与研究文化 - 招聘并非寻找“最出圈”或社交媒体上最引人注目的人,而是青睐曾解决过难题、具备扎实技术功底并愿意迎难而上者,即使其原领域非深度学习[46][47] - 关键研究特质包括坚持不懈、对进展保持极度诚实、有清晰假设并知道何时调整方向,研究无捷径,需经验学会选择合适问题[44][45] - 团队文化强调保护基础研究,避免被短期产品竞争带偏,研究员需空间思考未来一两年的重大问题,公司优势在于专注基础研究而非模仿竞争对手[46][48] 资源分配与未来技术焦点 - 若有10%额外资源,将优先投入计算资源,因研究人员始终感觉算力不足,计算仍是决定性因素[49][50][51] - 研究路线基于长期信念而非短期市场反馈,需明确优先级以避免在所有方向都做第二名[51] - 除计算外,未来需考虑能源等物理约束,预测机器人技术将在不久的将来成为主要焦点[52]
超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙
量子位· 2025-09-26 10:08
公司数据资源 - 拥有超过10万亿tokens的通用大模型语料数据及覆盖14个关键行业的专业数据集 总存储量达350TB [1] - 数据经过精心标注和优化 包含多模态内容 可直接用于行业应用 [3] - 高质量数据集通过采集 加工等处理流程 能直接用于AI模型开发训练 提升模型性能 [4] 技术平台架构 - 星辰MaaS平台作为核心 构建"数据-模型-服务"完整闭环 包含四大核心组件 [7] - 数据工具链覆盖"采-存-算-管"链路 支持文本 图片 音视频等多类型数据统一接入与处理 [18] - 模型工具链覆盖"标-训-推-评"链路 支持40多种标注任务 通过AI预标注使效率提升5倍以上 [18] - 智能体作为执行中枢 灵活调度资源并自主完成复杂任务 实现决策智能化与行为自动化 [7] 模型体系与能力 - 建立"三全"星辰大模型体系:全模态 全尺寸 全国产 [8] - 成功研发万亿参数大模型 采用全国产万卡集群和国产深度学习框架训练 [9] - 语音大模型精准识别60种方言 语义大模型参数规模庞大 视觉模型鉴伪技术达国际领先水平 [39] - 完成中央网信办"境内深度合成服务算法备案"和"生成式人工智能服务"双备案 [39] 行业应用案例 - 在纺织行业实现AI验布 瑕疵检测准确率从50%提升至95%以上 生产效率提升50% [9] - 服务物流集团 纳管超500P国产化算力卡 构建多个物流行业高质量数据集 [29] - 在医疗领域与北京三甲医院合作构建医疗质量管理数据集 推动医院运行管理智能化升级 [36] - 在农业领域为雄安新区打造"雄小农"应用 帮助当地农民实现超过15%的增收 [37] - 在政务服务领域基于1200万条工单记录建成520万条高质量语料 支撑25个智能应用场景 [38] 生态建设与产业赋能 - 支撑成都 沈阳等多个国家级数据标注基地建设 扮演产业生态规划者 产能运营者和新职业培育者角色 [34] - 在成都联合打造"蓉数公园・新津数据要素服务站" 引入数十家标注企业及教研机构 [34] - 建立培训认证体系 规模化培养数据标注师 AI训练师等数字化人才 [35] - 形成"政府引导+央企主导+生态协同"可复制模式 构建完整生态链 [35] 战略定位与发展愿景 - 基于国家战略 市场需求 运营商优势禀赋和使命责任四个层面重仓投入数据基础设施建设 [14] - 承载成为国家战略科技力量和领先的通用人工智能服务提供商的愿景 [42] - 持续发力技术领先 应用普惠 生态开放和人才培养四大方向 [43] - 日增数据量达1.6PB 基础数据集超10万亿tokens 服务超10亿公众客户和上千万政企客户 [16]
“零人”搞医学研究:清华AI智能体从灵感到论文全程自主
量子位· 2025-09-26 10:08
清华大学自动化系索津莉课题组 投稿 量子位 | 公众号 QbitAI 医学研究迎来"零人工"时代了?! 清华大学自动化系索津莉课题组,发布首个专为医疗信息学设计的全自主AI研究框架—— OpenLens AI 。 首次实现从文献挖掘→实验设计→数据分析→代码生成→可投稿论文的全链条自动化闭环。 为什么要推出该系统?主要是医疗信息学研究正陷入效率困局——多中心数据融合、知识爆炸、跨学科协作需求,使传统科研模式日益捉襟见 肘。 而OpenLens AI引入医学专属质量控制方法,生成出版级别的高质量科研论文,将科研周期从"月级"压缩至"小时级",宣告医学研究迎来"零人 工"时代。 下面详细来看—— 五大核心模块:AI科研的梦之队 OpenLens AI不仅实现全流程自动化,也在质量控制方面设立新标杆,集成四大保障机制: OpenLens AI采用模块化架构,由五个专门化的智能体协同工作,构建起完整的科研自动化流水线: 主管模块 作为全局协调者,将用户查询分解为结构化子任务,确保整个研究流程的透明度和可解释性。 文献综述者 构建自主知识探索管道,利用基于ReAct的推理框架,检索并综合相关文献,为研究提供坚实的理论基 ...
多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025
量子位· 2025-09-26 10:08
多模态大模型推理加速技术突破 - 华为诺亚方舟实验室提出视觉感知投机推理框架ViSpec 实现多模态大模型最高3.22倍无损加速[3][8][23] - 现有投机推理技术在VLM领域加速效果有限 普遍低于1.5倍[2][4] - 该研究已入选NeurIPS 2025 是业界首次在VLM投机推理领域取得显著加速成果[1][8] 技术原理与创新设计 - 引入轻量级视觉适配器 将成百上千个图像嵌入压缩为1个信息高度浓缩的紧凑视觉表征[9][11] - 设计全局视觉特征注入机制 解决草稿模型"中间遗忘"问题 确保视觉上下文持续影响[13][15][17] - 创新数据生成方法通过修改指令引导目标VLM生成千字长回复 降低训练集构建成本[18][19] 性能表现与实验验证 - 在LLaVA-1.6 7B/13B和Qwen2.5-VL 3B/7B等多个主流VLM上验证有效性[22][24] - 温度系数为0时GQA测试集加速比达1.85-3.22倍 平均加速比超2.5倍[23] - 消融实验显示图像嵌入压缩单项贡献30%性能提升 全局特征注入再提升7%[27][28] 行业应用前景 - 突破VLM在实时交互和边缘部署场景的计算成本与时间延迟限制[4] - 推动多模态大模型在手机 汽车 智能家居等边缘设备上的落地应用[29] - 从"能看懂"向"看得快 看得好"演进 引领VLM进入高效实用新阶段[30]
ChatGPT新功能,抢占你早上第一个打开的App
量子位· 2025-09-26 10:08
核心观点 - ChatGPT推出名为Pulse的新功能,旨在从被动问答模式转变为主动提供个性化更新的智能助手 [1][5][6] - 该功能通过学习用户对话记录和手机活动数据,每日生成个性化简报,无需用户主动提问 [8][9] - 目前新功能仅面向Pro用户开放 [15] 功能特性 - Pulse功能无需提示即可主动关注对用户重要的事务,提供相关信息、创意灵感和行动指南 [6] - 功能通过关联用户日历、邮箱、Google通讯录等应用数据来协助规划日程,需用户授权才能启用 [8] - 每日为用户呈现一组“主题视觉卡片”形式的个性化“核心动态”简报,内容可能包括赛事更新、词汇课程、晚餐建议等 [8][9] - 功能设计有终点,旨在高效解决问题而非让用户无限刷屏 [10] 个性化体验 - 用户反馈仅用于优化其个人专属的Pulse体验,不会用于优化其他用户 [11] - 个性化提示基于用户日历、过往提问和聊天记录生成,涵盖待办事项、饮食禁忌和个人兴趣点 [11] - 功能能提供具体行动方案,例如规划45-50分钟跑步路线,终点在指定餐厅附近,并考虑时间缓冲和备选方案 [11] - 能根据用户习惯(如无乳糖饮食)推荐合适菜品,并邀请用户分享想法以优化未来建议 [13]