量子位
搜索文档
开源复现o3图像思考!快手让AI不再被动看图,模型自主生成代码调用工具
量子位· 2025-08-21 12:23
核心观点 - Kwai Keye团队提出Thyme新范式,赋予多模态大模型"超越图像思考"的能力,通过生成并执行代码调用工具完成复杂图像处理和数学计算[1][3] - Thyme在20个基准测试中表现优异,尤其在处理高分辨率图像和复杂推理任务上性能显著提升[11] 技术方案 多模态交互范式 - 核心思想:模型主动生成并执行代码调用工具,突破被动"看图"限制[3] - 功能丰富:支持裁剪、旋转、缩放、对比度增强等图像操作及复杂数学计算[4] - 高度自主:自主判断工具使用需求并动态生成代码,无需人工干预[5] 训练策略 - 两阶段训练:SFT阶段使用50万条高质量样本数据集,仅需200 GPU小时[6] - RL阶段创新: - 构建1万张高难度图像问答对增强复杂场景感知[7] - 提出GRPO-ATS算法,文本生成(τ=1)与代码生成(τ=0)采用差异化温度采样[36][37] - 采用Rabin-Karp滚动哈希算法检测重复内容,提升资源利用率[38] 配套资源 - 开源400万原始数据集及筛选标注数据[8] - 开发安全沙箱环境,自动处理代码格式、变量定义等问题[8][22] - 完整开源训练代码、模型及工具链[9] 性能表现 基准测试 - 感知任务:HRbench-4K测试中FSP指标达91.0(+5.8),FCP指标63.0(+10.8)[41] - 推理任务:MathVista测试70.0(+1.8),Logic Vista测试49.0(+9.2)[41] - 通用任务:幻觉检测aAcc指标71.0(+5.4),MMVet Hard测试58.3(+5.5)[41] 细分领域 - 自动驾驶场景:感知任务提升27.14%,推理任务提升81.57%[45] - 监控场景:感知任务提升64.99%,推理任务提升33.16%[45] - 高分辨率处理:HRbench-8K测试中FSP指标86.5(+7.7)[41] 工作流程 1 接收问题并输出推理思路[21] 2 判断复杂度决定是否生成Python代码[21] 3 简单问题直接回答,复杂任务生成代码交沙箱执行[21] 4 沙箱执行后返回结果,多轮交互直至输出最终答案[21]
字节突然开源Seed-OSS,512K上下文碾压主流4倍长度!推理能力刷新纪录
量子位· 2025-08-21 10:36
模型发布概况 - 字节跳动开源360亿参数大模型Seed-OSS-36B 采用Apache-2.0协议 支持免费学术研究与商业部署 [1][4] - 模型命名呼应OpenAI的GPT-OSS系列 基于内部技术专为开源社区打造 未直接开源商业模型豆包(Doubao) [3][4] 核心技术特性 - 原生支持512K上下文窗口 是主流开源模型DeepSeek V3.1(128K)的4倍 预训练阶段直接构建非后期插值实现 [5][6][7] - 引入思考预算(Thinking Budget)机制 通过设定token数量(建议512整数倍)控制模型思考深度 适应简单任务快速响应或复杂任务深度推理 [9][10][12] - 采用成熟架构设计:360亿参数稠密模型(非MoE) 64层网络 隐藏层维度5120 词汇表155K 集成RoPE/GQA/RMSNorm/SwiGLU技术 [13] 性能表现 - 知识理解:MMLU-Pro达65.1分(超越Qwen2.5-32B-Base的58.5分) TriviaQA获82.1分 [16] - 推理能力:BBH基准87.7分刷新开源记录 数学能力GSM8K达90.8分 MATH达81.7分 [17] - 代码能力:HumanEval得分76.8 MBPP达80.6 指令微调版在AIME24数学竞赛获91.7分仅次于OpenAI OSS-20B [18][19] - 训练效率:仅用12T token达成性能 低于同规模模型15T+数据量 [20] 团队技术布局 - Seed团队成立于2023年 定位"打造最先进AI基础模型" 覆盖大语言模型/多模态/AI基础设施领域 [21] - 已开源项目包括:8B代码生成模型Seed-Coder(自主管理训练数据) 多模态模型BAGEL(处理文本/图像/视频) 实验性语言模型Seed Diffusion(离散状态扩散技术) 训练框架VeOmni(PyTorch原生全模态分布式) 同声传译模型Seed LiveInterpret(低延迟音色复刻) [22][23][24][25] 生态影响 - 模型发布于Hugging Face与GitHub平台 强化国产开源基座模型阵营 [4][26] - 提供含合成指令数据(高性能)与无合成数据(高纯净度)双版本 满足研究社区差异化需求 [14]
马斯克一觉醒来,Space X在京开卖了
量子位· 2025-08-21 10:36
核心观点 - 网易有道推出基于子曰教育大模型的新硬件AI答疑笔Space X及软件产品 实现教育AI从L3向L4阶段迈进[3][6][34] 硬件产品升级 - 推出AI答疑笔Space X 支持语数英物化生政史地全9科题型扫描答疑 准确率达96%[2][3][18] - 升级扫题交互能力 采用智能拼图技术和3.6cm宽笔头 快速录入长题和多图题[20] - 新增板书式视频答疑功能 结合图文声还原课堂讲解[24] - 配备4.4英寸OLED高清屏 机身厚度13毫米 重量105克 内置2350mAh电池[27] - 标准WiFi版售价1199元 4G流量版1399元[27] 软件平台创新 - 推出音视频翻译平台 整合听录识别翻译配音全流程 支持多语言音视频处理[5][7] - 首创多模态一体化原声翻译系统 自动识别翻译场景人物特征和情绪标签[9] - 采用自研Adaptive Voice Cloning引擎 实现情感化配音[10] - 处理效率提升 10分钟视频平均3分钟完成 价格为行业1/10[14] - 网易有道词典升级AI功能 新增AI同传AI拍照翻译AI文档翻译[13] - 优化底层模型抗噪性 新增71种语言和125种口音支持 增强6个专业领域理解能力[16] 教育大模型进展 - 子曰教育大模型通过中国信通院可信AI评估 获最高5级评级[31] - 子曰3.0小语种模型支持38种语言实时互译 以小参数超越更大规模通用模型[32] - 子曰3数学模型已开源 覆盖全学科高频需求 实现备课出题批改答疑全流程赋能[33] 行业标准与定位 - 提出教育AI应用能力L1-L5分级标准 目前行业从L3主动学习辅导加速迈向L4虚拟老师阶段[6][34] - AI答疑笔结合大模型理解推理能力与硬件形态 解决复杂题型随时随地答疑的行业难题[28]
一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025
量子位· 2025-08-21 10:36
核心观点 - 清华大学与IDEA研究院提出GUAVA框架,仅需0.1秒即可从单张图像创建可驱动的上半身3D高斯化身,支持实时动画和渲染 [1][5][37] - GUAVA是首个从单图生成3D化身的框架,无需多视角视频或单人训练,解决了现有方法在ID一致性、实时渲染和面部表情捕捉上的局限性 [5][9][12] - 实验显示GUAVA在PSNR(25.87)、SSIM(0.9000)、LPIPS(0.0813)等指标上全面优于2D/3D方法,重建速度达0.1秒,渲染帧率52.21 FPS [22][23][24] 技术方法 模型架构 - 引入EHM(Expressive Human Model)结合SMPLX与FLAME模型,通过两阶段追踪实现单图到姿态的精确估计,提升面部表情和手势捕捉能力 [12][13][36] - 采用双分支模型:模板高斯分支预测几何结构,UV高斯分支通过逆纹理映射生成精细纹理,组合后形成完整的Ubody高斯 [14][15] - 神经细化器优化渲染细节,最终支持基于新姿势参数的实时变形与动画 [16][17] 性能优势 - 重建效率:GUAVA仅需98毫秒完成重建,而3D方法ExAvatar需2.4小时,GaussianAvatar需1.3小时 [24] - 渲染质量:在自重演场景下PSNR达25.87,跨重演场景身份保留分数(IPS)0.5554,显著优于2D方法(如MagicPose PSNR仅21.25) [22][25][24] - 泛化能力:对未见区域和极端姿势表现鲁棒,克服了3D方法的伪影问题 [28][29] 实验验证 数据集与对比 - 训练集包含62万帧上半身视频,测试集覆盖58个ID,对比MagicPose、Champ等2D方法及GART等3D方法 [18][19][21] - 定量指标:PSNR、SSIM、LPIPS评估图像质量,ArcFace计算IPS衡量ID一致性 [20][30] 消融实验 - 移除神经细化器导致SSIM下降至0.8851,LPIPS增至0.1060;禁用逆纹理映射使PSNR降至25.65 [32] - 未使用EHM模型时PSNR为25.60,证明其对表情捕捉的关键作用 [32] 应用与资源 - 适用于电影、游戏、虚拟会议等领域,实现逼真且低成本的3D化身生成 [4] - 代码已开源,提供论文、项目主页及视频Demo [38]
宇树180芭蕾机器人,究竟啥水平?
量子位· 2025-08-20 18:21
新品发布信息 - 宇树发布第四款人形机器人预热海报,代号“芭蕾舞者”,定位敏捷优雅[1][2][4] - 新品身高180cm,全身31个自由度,宽肩窄腰体形纤长,小腿具拟人化肌肉线条[5][6] - 海报显示机器人呈九头身比例,采用踮脚芭蕾舞者姿势[7] - 基于历史发布节奏(Unitree R1从预告到发售间隔不到2个月),预计十月底正式亮相[11][12] 产品技术参数对比 - 宇树人形机器人产品矩阵覆盖全尺寸与半尺寸:H1(180cm/19自由度)、G1(130cm/23自由度)、R1(<121cm/24自由度)[15] - 新品自由度较同身高H1提升63%,主要增加手臂(单臂7自由度)和腰部(3自由度)灵活性[18][41][42] - 速度可能超越H1的3.3m/s纪录,需更强动力系统与运动控制算法支持[20] - 价格梯度覆盖高端至消费级:H1售价65万元、G1售价9.9万元、R1售价3.99万元[15] 行业竞争定位 - 180cm身高属当前人形机器人第一梯队,与天工Ultra、小鹏Iron等持平[34][37] - 31个自由度位列行业第二梯队,低于天链T1 Pro(51个自由度),但高于特斯拉擎天柱(30个)等竞品[43][48][50] - 宇树战略布局呈现“全尺寸+全场景+全价位”特点,细分工业、科研、娱乐等应用方向[23][27] 公司战略动向 - 宇树早期反对做人形机器人,ChatGPT出现后正式启动项目[54][56] - 创始人王兴兴提出机器人征税理念,认为未来机器人创造价值应直接向国家纳税[58] - 产品演化路径类似宇树机器狗,通过快速迭代实现技术积累与市场占有率提升[28]
小小具身智能成果,高中生在腾讯拿下!
量子位· 2025-08-20 18:21
腾讯2025星火挑战周活动概览 - 活动汇聚80余位高中生挑战前沿科技课题 包括具身智能 长文本理解 多模态感知 长思维链技术 安全攻防和量子计算六大方向 [5][13] - 82名参与者中68人获得清华北大录取offer 含国际信息学奥赛国家队4人 全国奥赛金牌33人及数理奥赛集训队23人 [27] - 腾讯首席科学家张正友及多位实验室专家现场指导 后续将提供实验室实战和定制培养机会 [29][31] 具身智能与机器人研究成果 - 高中生团队开发出能根据语音指令在陌生室内自主导航并定位目标的人形机器人 解决从虚拟环境到真机测试的坐标系转换等适配问题 [1][2][15][17] - 项目潜在应用包括解决办公室外卖"最后十米"配送和高档酒店室内服务 未来计划增加人脸识别和优化导航功能 [3][19] - 张正友肯定成果并强调硬件问题是具身智能领域需深入探索的关键 [21] 长文本理解技术突破 - 团队四天半开发出长篇小说二次创作Agent 实现风格迁移 创作序章和评价润色功能 动态UI展示AI思考过程 [6][21] - 通过Graph知识建模高效压缩书籍核心内容 利用Function Call实现Agent与知识图谱智能交互 [21] 多模态感知系统应用 - 基于优图实验室VITA多模态模型与混元打造盲人AI辅助系统 通过图像语音文字输入实现运动避障和物品抓取辅助 [9][21] - 系统含实时距离模块 语音交互模块和抓取辅助模块 可在复杂办公环境避开障碍物并获取目标物体 [24] 长思维链技术优化 - 探索过程监督和结果监督两种优化方式 在1.5B模型上结合Math-Shepherd数据集设计高效训练流程 [7][24] - 通过ORM评估排序候选解答 在GSM8K数学推理基准测试达到86%准确率 超过原论文方法 [24][26] 安全攻防与量子计算进展 - 开发自动化攻击智能体 实现从信息收集 漏洞挖掘到木马植入的全流程渗透 显著提升攻击效率并降低人力消耗 [26] - 量子计算方向采用总分课题结构 分量子算法 分赛道挑战和多赛道集成三阶段 基于腾讯自研量子软件系统设计 [26] 人才发展与行业影响 - 往届学员已成为技术发展中坚力量 包括IOI2023世界冠军许庭强(现清华学生/腾讯混元实习) IMO金牌姜志城(MIT学生)和创业者李文轩(Agent教育应用) [33] - 项目由腾讯青少年学堂发起 第六年持续为计算机领域天赋青少年提供前沿课题挑战平台 [31][32]
突破Agent长程推理效率瓶颈!MIT&新加坡国立联合推出强化学习新训练方法
量子位· 2025-08-20 18:21
文章核心观点 - MEM1框架通过强化学习训练AI Agent自主管理记忆和推理 显著提升处理复杂任务时的效率和性能 [2][3][6][8][9][12][17][22] 技术原理 - 采用基于结果奖励的强化学习训练 使模型学会提取、整合和修剪信息 [12][14] - 引入内部状态<IS>作为工作记忆 实现近似常量级显存开销 [8][9][16] - 通过注意力掩码机制限制关注范围 迫使模型高效压缩历史信息 [12] 性能表现 - 7B参数MEM1模型推理速度达传统14B模型的3.5倍 [2] - 峰值上下文token数量降至传统模型的1/4 [2] - 在16目标任务测试中准确率12.3% 远超对比模型Qwen2.5-14B-Instruct的3.54%和Qwen2.5-7B+外部记忆模块的4.56% [3][17] 应用场景 - 支持多轮复杂任务处理 包括文档检索QA、开放域Web QA和多轮网购决策 [19] - 展现分问题独立存储、自适应搜索策略和任务规划能力 [20] - 在长程环境交互任务中保持上下文稳定 避免线性增长 [16] 行业意义 - 为处理长推理上下文挑战提供新思路 替代传统外部记忆模块方案 [22] - 实现端到端训练 降低工程复杂度并提升效果可控性 [12][22] - 论文已被COLM 2025 RAM workshop收录为口头报告 [3]
黑神话宇宙开启!冯骥杨奇一拍即合不搞DLC,新作《钟馗》预告片直冲热搜第一
量子位· 2025-08-20 15:48
核心观点 - 游戏科学宣布推出黑神话系列第二部作品《黑神话:钟馗》,首支先导预告片在2025科隆游戏展压轴亮相,引发国内外玩家高度关注 [1][3][12] - 预告片发布后迅速登上微博热搜第一,B站播放量超800万,同时在线观看人数达5万+ [10] - 公司明确表示将优先开发新作而非《黑神话:悟空》DLC,计划采用全新英雄、玩法、视觉和技术 [30][32] 产品动态 - 《黑神话:钟馗》基于中国传统志怪传奇,主角钟馗形象融合骑虎等创新设计,预告片展现精细毛发渲染等画面技术 [14][16][21][24] - 开发灵感源于艺术总监杨奇的梦境,团队在4月中旬开始制作CG动画,目前游戏处于早期开发阶段 [24][42] - 官方账号已更名为"黑神话"系列认证,标志IP宇宙正式开启 [7] 公司发展历程 - 创始团队2014年从腾讯离职创立游戏科学,2015年推出首款游戏《百将行》首月新增用户50万 [34][35] - 《黑神话:悟空》项目2018年启动,2020年实机演示获好评,2023年获科隆展最佳视觉效果奖,2024年8月20日正式发售后登顶Steam热玩榜 [36][37][38] - 2025年8月20日同一天在科隆展发布新作预告,延续"820"品牌营销节点 [5][6][40]
DiT突遭怒喷,谢赛宁淡定回应
量子位· 2025-08-20 15:48
文章核心观点 - DiT(Diffusion Transformers)作为扩散模型领域的核心架构受到质疑,但原作者谢赛宁强调科学验证的重要性并回应质疑,同时指出DiT的技术优势及改进方向 [4][5][6][9][27][29][32] DiT的技术地位与影响 - DiT将Transformer与扩散模型融合,在计算效率和生成效果上超越基于U-Net的经典模型ADM和LDM,并将Transformer扩展到图像视频领域 [9] - 若DiT存在根本性错误,大量依赖DiT的生成模型可能需重新评估,对整个领域产生重大影响 [10] 质疑者的核心论点 - 质疑依据来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》,提出Tread策略可将早期层token传递至更深层,无需修改架构或引入额外参数 [12][13][14] - DiT架构可能隐含特性导致FID迅速降低,Tread模型比DiT在40万次训练迭代快14倍,在700万次迭代时快37倍 [15][16] - 质疑者认为大幅性能提升可能否定原有方法,并批评训练中禁用部分网络的做法 [17][19] - 指出DiT后置层归一化可能导致动态范围输出问题,需使用对数尺度处理信噪比差异 [23] - 质疑DiT的条件处理仅通过普通MLP流程,未体现Transformer特性 [25][26] 谢赛宁的回应与技术说明 - 强调Tread策略与"DiT是错的"无直接关联,认为Tread类似随机深度,通过正则化提升特征稳健性 [27][28] - 推荐使用经过验证的Lightning DiT版本(含swiglu、rmsnorm、rope等技术),并指出后置层归一化目前无证据表明存在问题 [29][30] - 提出DiT的核心改进集中于内部表征学习,包括REPA方法、tokenizer修正、语义token拼接、解耦架构及正则化方法 [32] - 训练中采用随机插值/流分配提升效果,SiT作为基准评估方法,时间嵌入需使用adaln-zero并共享参数以避免浪费30%参数 [33] - 指出sd-vae是DiT当前症结,处理256×256分辨率图像需445.87 GFlops且非端到端架构,va-vae和repa-e仅能部分解决问题 [34]
实测DeepSeek V3.1,不止拓展上下文长度
量子位· 2025-08-20 15:48
DeepSeek V3 1与V3的差异分析 核心更新 - 上下文长度从65K扩展至128K 支持多种张量格式 [1][7] - 网页端界面将【深度思考(R1)】简化为【深度思考】 手机端仍在同步更新中 [2] - 当前Base版本可通过Hugging Face下载 完整版支持网页 APP和小程序访问 [6] 性能参数对比 - V3 1输入成本0 004元 千Token 输出成本0 016元 千Token Batch调用成本减半 [8] - V3输入成本0 002元 千Token 输出成本0 008元 千Token Batch调用成本同样减半 [8] - V3 1免费额度为各100万Token 有效期180天 V3未明确标注免费额度 [8] 功能测试表现 编程能力 - V3 1在Python代码生成中考虑更全面 提供依赖库安装 命令行使用说明及工作原理 [12][13] - 实测18 3MB GIF文件压缩 V3需二次压缩才能低于10MB V3 1方案更高效 [14][15] 情境写作 - V3输出风格理性平铺直叙 V3 1转为文艺诗意化表达 差异显著 [20] 数学理解 - 双曲线离心率计算题两者均正确 但V3 1推导过程更规范 [22][23][24] 翻译水平 - V3 1对长难句理解更优 但遗漏"several"等简单词翻译 V3偏好括号补充说明 [29] 冷门知识 - 构树果实分类问题两者均判断为核果 与小红书博主实验结论(瘦果)存在分歧 [30][37] 第三方评测与用户反馈 - 在aider测试中以71 6%得分超越Claude Opus 4 成本低68倍 [42] - SVGBench基准显示V3 1表现优于V3 1(思考模式)及R1 0528 [43][44] - 用户发现新增4个特殊token 关闭搜索时仍会自动触发搜索 [45] 物理模拟能力 - V3 1对"旋转六边形内弹跳球"的模拟效果优于V3 [47] 市场热度 - 发布后迅速成为Hugging Face热门话题第四 截至发稿升至第二 [40][41]