量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

OpenAI内部大重组！模型行为团队并入Post Training，负责人另起炉灶

量子位· 2025-09-08 13:04

克雷西发自凹非寺量子位 | 公众号 QbitAI OpenAI又要成立新团队了！ TechCrunch消息，OpenAI正在对其模型行为（Model behavior）团队进行重组。模型行为团队，就是OpenAI内部专门塑造模型"个性"的核心研究小组。迄今已参与GPT-4、GPT-4o、GPT-4.5与GPT-5等版本的后训练工作。随着重组的进行，其创始负责人 Joanne Jang ，也正在组建一个名为 OAI Labs 的新研究团队。作为模型行为团队改组行动的一部分，OpenAI将会成立新的OAI Labs。其使命是"发明并原型化人类与AI协作的全新交互方式"，重点不再局限于聊天或Agent模式，而是把AI视作"具备思考、创作、学习、连接能力的工具"。目前实验室仍处于组建早期，但已明确的研究方向包括两条主线。其一是交互层面的探索，团队将围绕"互动工具"这一概念，设计可直接操控、可复用且能在迭代中实时反馈的多模态原型，帮助用户更直观地塑造模型意图、在创作流程中随时调转方向，并以可视化方式呈现AI的多种推理路径与中间结果。其二是行为层面的延续研究，OAI Labs吸收了原 ...

光刻机巨头ASML，108亿控股了一家大模型公司

量子位· 2025-09-08 11:05

梦晨发自凹非寺量子位 | 公众号 QbitAI 光刻机巨头 ASML ，也来投大模型了。就在刚刚，荷兰半导体设备巨头ASML正式成为法国AI明星公司 Mistral AI 的第一大股东，一口气砸下13亿欧元（约108亿元人民币）真金白银。这次ASML领投Mistral AI 的C轮融资总额17亿欧元（约142亿元人民币），直接把这家成立时长两年半的公司估值推高到100亿欧元（约835 亿元人民币），一举成为欧洲最值钱的AI公司。更有意思的是，ASML不仅要掏钱，还要求进董事会占一个席位。全球唯一能造EUV光刻机的半导体巨头，正式和"欧洲的OpenAI"深度绑定了。 Mistral的开挂之路根据知情人士透露，这笔交易的谈判过程相当低调，双方都签了保密协议。美国银行作为ASML的财务顾问，在整个过程中发挥了重要作用。就在几周前，彭博社报道就透露Mistral AI的估值可能达到140亿美元（约119亿欧元或1000亿元人民币）的投前估值，最后来看ASML还是拿到了一个相对合理的价格。回顾Mistral AI的融资历程，速度可谓坐火箭。从成立到百亿美元估值，Mistral AI只用了 ...

幸好图灵不是一位好棋手

量子位· 2025-09-07 15:00

图灵与国际象棋对AI发展的影响 - 图灵的国际象棋水平平庸这使其与水平相当的唐纳德·米奇成为固定棋友并展开合作 [7][8][19] - 二人每周下棋时的闲聊话题围绕"学习型机器"和"机器下棋" 这些讨论对后来AI发展产生深远影响 [4][20] 博弈树算法与启发式搜索的起源 - 图灵与米奇合作开发博弈树算法该算法成为后来AlphaGo的核心技术 [3] - 米奇基于破译密码的思路开发MACHIAVELLI算法采用"走一步看一步"的受限搜索策略 [24][25] - 该策略后来被命名为启发式搜索突破暴力计算方式解决复杂问题的计算可行性 [33][34] 启发式搜索的应用与扩展 - 启发式搜索已应用于导航物流游戏规则制定 AI诊断等日常生活各个方面 [35] - 米奇与詹姆斯·多兰开发图遍历程序解决从起点到终点的最佳路径问题奠定AI中路径规划博弈搜索图像识别基础 [35][36] 国际象棋作为AI研究载体的价值 - 米奇强调国际象棋是AI研究的"果蝇" 适合研究机器中知识的表示和测量 [43] - 国际象棋提供定义明确且规范化的领域挑战最高智力水平可分解为子游戏进行单独分析 [42] - 米奇对国际象棋残局的研究在70 80年代许多项目中起关键作用其博士生开发出ID3决策树学习算法 [44][45] 国际象棋与AI能力的关联性反思 - 国际象棋高手可能逻辑能力差擅长国际象棋并不意味着在其他领域特别出色 [50][52] - 当前追求的AGI既不擅长下棋也不善于伪装成人类引发对AGI本质的思考 [53]

3999让机器人家务全包，抱抱脸联合创始人：开源YYDS！

量子位· 2025-09-07 12:36

产品概述 - 开源机器人项目XLeRobot以3999元人民币起售的低成本DIY套件为特色具备家务全能功能包括擦桌子、浇植物和陪宠物玩耍 [1][2][4][6][8] - 项目被抱抱脸联合创始人Thomas Wolf公开推荐在GitHub获得1600星标关注度 [9][30] 成本结构 - 基础版套件在美国/欧盟/中国分别售价约660美元/680欧元/3999人民币含单目RGB摄像头和笔记本电脑连接方案 [13] - 可选升级组件：双目RGB摄像头增加30美元/30欧元/199人民币 RealSense RGBD摄像头增加220美元/230欧元/1499人民币树莓派增加79美元/79欧元/399人民币 [13] - 核心硬件包含LeKiwi开源机械手、SO-100/SO-101机械臂、宜家RÅSKOG推车（249人民币）和Anker SOLIX C300电源站（899人民币） [13][16][17] 技术方案 - 采用LeRobot Sim2real训练框架仅需单块4090 GPU在Maniskill模拟环境中进行1小时强化学习即可部署 [22] - 提供完整教程链：从Conda环境配置到相机可视化再到机械臂控制系统部署 [22][24] - 使用17个STS3215舵机（单价97人民币）和4英寸全向轮（135人民币）等标准化组件组装时间约4小时 [16][17] 商业化进展 - 计划下周在淘宝和京东平台面向开发者正式发售组装套件 [35] - 未来升级将采用模块化附加件形式保持核心架构的扩展性 [33] 团队背景 - 创始人王高天（中国科大物理本科/莱斯大学机器人博士）曾与波士顿动力AI研究所合作开发Caging in Time框架成果发表于IJRR顶刊 [38][41] - 团队含4名核心成员分别负责RL仿真部署、文档网站搭建和Mujoco仿真模块 [42][43][44][45]

深度长文AI一键生成：实测字节扣子空间新功能

量子位· 2025-09-07 12:36

字节扣子空间产品定位 - 定位为深度长文写作加速器专注于体系化思考与高效表达的结合 [2][3] - 目标用户为内容创作者特别适合以内容为核心的自媒体快速生成深度文章 [32] 核心功能特性 - 一键优化提示词功能允许用户在已有模板上修改生成结果 [5][6] - 支持在线修改功能文档生成前提供可修改的大纲 [27] - 输出格式支持PDF/MarkDown/Docx三种文件格式支持一键生成文章配图/网页/播客 [28] - 对超过500字的内容采用产物式交付以文件形式而非文本形式输出 [37] 内容生成能力验证 - 研究论文生成测试中成功输出学术论文式结构内容所有标注链接均可点开且附有详细搜索记录 [7][9][10] - 生成社会议题分析时输出中肯的深度内容避免过多煽动性表达 [19][20] - 情感博客生成测试显示散文风格增强故事可读性但存在中英文混杂的出戏问题 [21] - 旅游攻略生成能力突出十分钟内可生成图文并茂内容 [22][24] 技术实现特点 - 生成的参考文献能与链接准确对应有效避免幻觉问题 [11] - 具备超强搜索能力单次搜索可返回4-12个结果 [11] - 支持多语言混合搜索包括中英文术语混合查询 [11] 应用场景适配性 - 最适合资料整理型内容创作十分钟内可生成丰富且有来源的深度文章 [32] - 不适用于故事创作剧情生成测试输出结果更接近公众号内容而非故事体裁 [33][34] - 在生成打斗场景时会出现不符合情境的物体破坏统计等异常内容 [35] 市场定位差异 - 与通用AI写作工具形成差异化定位专注于深度长文生产场景 [2][36] - 工具定位明确辅助设计剧情/构建故事框架/整理资料但不替代人类创作 [37][38]

大模型破译甲骨文创下新SOTA！复旦团队推出新框架

量子位· 2025-09-07 12:36

甲骨文破译技术突破 - 复旦大学研究人员提出基于部首和象形分析的可解释甲骨文破译框架在公开基准数据集HUST-OBC和EV-OBC上达到最先进的Top-10识别准确率并具备优异的零样本破译能力[1] - 该方法能够对未破译甲骨文输出可解释性分析文本为考古破译工作提供潜在帮助[2] 甲骨文破译挑战与现有方法局限 - 甲骨文因稀有性、抽象性和象形多样性给考古破译工作带来重大挑战[3] - 当前深度学习方法忽视了甲骨文字形与语义之间的复杂关联导致有限泛化能力和可解释性特别是在处理零样本场景和未破译甲骨文时表现不佳[4][5] PD-OBS数据集构建 - 研究团队构建包含47,157个汉字的象形破译甲骨文数据集(PD-OBS) 其中3,173个汉字关联甲骨文图像 10,968个汉字提供古代隶书图像所有汉字均配备现代楷书图像[7][9] - 数据集标注过程分为三阶段:通过《说文解字》检索部首标签和解释利用GPT-4.1丰富部首标签并总结分析内容最后通过自我检查和人工修正确保质量[10][11][12][13] 模型架构与训练策略 - 框架基于Qwen2.5-VL-7B构建引入空间patch合并模块作为视觉适配器并设计分类器预测部首标签[15] - 采用渐进式训练策略:从部首识别开始接着进行部首和象形分析最终实现联合分析[6][15][22] - 提出部首-象形双重匹配机制从数据库中选择最合适字符替代直接输出提升零样本性能[16][29][30][31] 实验性能表现 - 在HUST-OBC验证集上达到80.6% Top-1准确率和87.8% Top-10准确率在EV-OBC验证集上达到76.3% Top-1和81.7% Top-10准确率[41] - 零样本场景表现突出:在HUST-OBC上Top-10准确率达53.7% 比次优方法高出26.2% 在EV-OBC上Top-10准确率达64.1% 高出13.6%[41][45] - 可解释性评估显示该方法在验证集和零样本设置下的BERT-Score分别比GPT-4.1高出21.60%和12.95%[49][51] 技术应用价值 - 该方法对未破译甲骨文能生成语义合理预测并提供可解释分析在考古研究中具有巨大应用潜力[67][72] - 构建的PD-OBS数据集包含47,157个注释汉字为未来甲骨文研究提供宝贵资源[73]

拜拜Claude！阿里最强万亿模型编程秒了Opus4，实测在此

量子位· 2025-09-06 12:21

模型规模与性能提升 - 总参数量达到1万亿，是阿里迄今为止最大的模型，相比前代Qwen3（235B）参数规模扩大四倍[1][2] - 新版本在中英文理解、复杂指令遵循、工具调用等维度实现显著增强，并大幅减少知识幻觉[2] - 模型在官方测评中超越前代最强模型Qwen3（235B）及包括Claude Opus 4在内的国内外竞争对手[4] 技术特性与功能 - 支持多模态输入，可直接上传图片进行交互[12] - 仅支持非思考模式，不再使用混合思维模式[10] - 原生支持上下文长度262,144 token，最大输入258,048 token，最大输出32,768 token[28] - 代码生成速度达到每秒107个token，可生成4,467个token[23] 实际应用测试 - 成功解答AIME数学竞赛题，答案与标准答案"204"一致[11][13] - 快速生成p5js可交互动画代码并成功运行[15][16] - 一次性成功生成扫雷游戏代码，无需反复调试[18][19] - 能够生成介绍自身的可交互网站，支持文件保存和实时预览功能[20][21] 商业化进展 - 模型已全面上线，可通过通义APP、Qwen Chat网页和阿里云API体验[3] - API采取阶梯计费：0-32K token输入每百万$1.2，32K-128K token输入每百万$2.4[27][28] - 开源负责人透露正式版即将发布，且对继续扩展模型规模充满信心[30][32] - 按照以往节奏，预计推理版本可能在几天后发布（参考Qwen3-235B推理版仅隔4天）[34] 市场反响 - 国内外反响热烈，用户对模型规模扩张表示期待[6] - 开发者评价"再次令人惊叹"，认可模型性能提升[7] - 开源阵营对后续版本保持高度期待[28]

量子位· 2025-09-06 12:21

技术突破 - 字节推出Robix视觉-语言单模型整合机器人推理任务规划和自然语言交互三大功能解决多模块拼接导致的信息代沟问题 [1][3][4] - 模型采用思维链推理技术基于当前场景物体空间关系和任务要求进行迭代决策实现思考过程动作指令和人类回复的逻辑循环整合 [10][12][13][14] - 通过三阶段训练策略：持续预训练阶段使用机器人数据学习3D空间和语言-画面对应监督微调阶段模拟真实场景训练逻辑思维强化学习阶段通过算法纠正决策偏差 [17][19] 性能表现 - 在8个空间理解任务中 Robix的7B和32B版本有7个任务表现优于Qwen2 5-VL 平均准确率更高 [21] - 在多数基准测试中超越闭源模型包括GPT-4o和Gemini 2 5 Pro [21] - 离线评估中Robix-32B-RL在所有评估集上排名第一 [22] - 在线评估使用UMI设备时 Robix-32B在5个任务中的3个超越Gemini 2 5 Pro 平均任务进度更高且大幅超越Qwen2 5-VL-32B [23] - 使用GR-3进行自动化真实机器人评估时 Robix-32B平均任务进度达92 5% 分别比Gemini 2 5 Pro和GPT-4o高出4 3和28 1个百分点 [25] 行业影响 - 机器人模型发展方向从拼凑模块数量转向提升单一模型的综合能力 [27] - 项目由字节AI实验室负责人李航博士领导其曾担任华为诺亚方舟实验室主任和首席科学家 2017年加入字节后主导机器人项目 [28][30]

调整训练数据出场顺序，大模型就能变聪明！无需扩大模型/数据规模

量子位· 2025-09-06 12:21

文章核心观点 - 微软亚洲研究院提出全新文本数据组织范式DELT 通过优化训练数据顺序而非增加数据量或模型规模来提升语言模型性能 [1][3][11] - DELT范式整合数据评分、选择与排序三大组件在预训练和后训练阶段显著提升多领域任务表现 [13][19][27] - 该方法突破传统数据效率研究局限首次系统定义"数据效能"概念并验证其关键作用 [6][15][29] 数据组织范式创新 - 提出数据训练效能（Data Efficacy）新概念：通过优化数据组织方式最大化模型性能不改变数据内容或模型架构 [15] - 开发LQS评分系统结合质量（Quality）和可学习性（Learnability）双指标动态评估数据价值 [20][22] - 创新折叠排序法（Folding Ordering）：通过分层多次采样避免模型遗忘兼顾难度排序与数据分布均衡 [23][25][26] 性能提升实证 - 在160M参数模型上：平均性能从36.37%提升至38.08% 其中PIQA任务从55.19%提升至56.37% [28] - 在1B参数模型上：平均性能从37.77%提升至39.17% 其中ARC-c任务从20.58%提升至22.76% [28] - 在10B tokens数据规模下：平均性能从40.24%提升至41.62% LAMB任务从30.40%提升至32.98% [28] 方法论突破 - 解决单次训练周期（epoch=1）新范式下的数据顺序敏感性问题 [9][10] - 数据选择与排序共用评分结果显著提升数据处理效率 [20] - 适用于通用、数学和代码等多领域任务具有广泛适用性 [13][27]

微软(US:MSFT)

数据训练效能

数据训练效率

Learning - Quality Score（LQS）

Folding Ordering（FO）

人工智能

DELT（Data Efficacy in LM Training）

数据训练效能

数据训练效率

Learning - Quality Score（LQS）

Folding Ordering（FO）

人工智能

DELT（Data Efficacy in LM Training）

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

量子位· 2025-09-05 18:56

模型性能表现 - 在Video-MME短视频基准测试中获得73.0分 [6] - 在OpenCompass综合基准测试中获得79.5分，超越Qwen2.5-VL 7B模型的70.9分 [19][20] - 在MMBench基准测试中获得92.0分，显著高于Qwen2.5-VL 7B的82.2分和GPT-40的86.0分 [19][20] - 在AI2D图像推理数据集获得89.5分，领先同级模型 [20] - 在OCRBench测试中获得86.6分，表现优异 [20] - 在Video-MME视频理解测试中获得73.0分，领先Qwen2.5-VL 7B的65.1分 [21][23] - 在MathVistaMINI数学视觉测试中获得81.2分，显著超越GPT-40的63.8分 [23] - 内部评测中在五项人类标注指标上获得3.53分综合成绩，较预览版本提升0.51分 [24][25] 技术创新特点 - 采用Slow-Fast双路编码机制，实现128k超长上下文窗口 [5][8] - 具备0.1秒级时序定位能力，能精确识别视频中特定物品出现时间点 [8][10] - 支持跨模态推理，能根据视频内容推断事件发生原因 [4][15] - 采用ViT+MLP投影器+语言解码器三段式架构 [27] - 视觉编码器继承SigLIP-400M参数，具备语义对齐能力 [29] - 引入2DRoPE和3DRoPE位置编码技术，支持高分辨率外推和时序排序 [29][31] - 通过四阶段渐进式预训练流程，使用超过1万亿token训练语料 [37][39][41] 应用场景与业务价值 - 为短视频内容审核、智能剪辑、搜索与互动推荐等业务场景提供底层AI能力 [69] - 在26秒带货视频分析中准确识别产品出现时间点（22.3-23.8秒） [11][12] - 能够详细描述视频画面场景和细节，具备强大的视频理解能力 [14][15] - 多模态技术已应用于千万级日常场景，验证了复杂视频理解的工程化可行性 [69] 研究成果与行业影响 - 团队在ICML 2025提出多模态RLHF框架MM-RLHF，通过120k人类偏好数据提升模型安全性 [51] - 在KDD 2025获得最佳论文提名的VLM as Policy框架，显著提高短视频审核效率与准确率 [54][55] - CVPR 2025发布交错图文多模态数据集CoMM和视觉token压缩加速算法LibraMerging [57][58][60] - ICLR 2025展示MoE模型优化算法STGC、视频对话理解基准SVBench和视觉任务指令数据集TaskGalaxy [61][62][65][67]