量子位

搜索文档
 超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
 量子位· 2025-10-28 13:12
 文章核心观点 - 中科院与字节联合提出的Grasp Any Region (GAR) 模型,通过创新的“细粒度+全局上下文”架构设计,在区域级多模态大模型领域实现了突破性进展,为构建自然图像的Dense Caption和视觉信息压缩提供了新的可行路径 [2][4][39][80]   技术能力与创新 - GAR模型具备三种核心能力:精准描述用户指定区域、建模多个区域间关系、进行复杂的组合推理(如非实体判别)[5][7] - 模型采用两大创新组件:简洁高效的提示编码方案,以及RoI-Aligned Feature Replay机制,实现了局部细节与全局上下文的平衡 [39][40][42][43][48][53] - 该技术方案有效解决了传统Region MLLMs在局部细节与全局信息之间的两难困境,避免了如Osprey模型的局部细节丢失和DAM模型的全局信息丢失问题 [15][16][18]   性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o,直逼最强推理模型o3和Gemini-2.5-Pro [70][71] - GAR-1B模型以50.6分的综合得分,在参数量远小于其他模型的情况下,性能超过了InternVL3-78B等大规模公开模型,凸显了方法在效率与效果上的优势 [71][72] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,表现超过Gemini-2.5-Pro等性能强劲的私有模型 [73][74] - 在Ferret-Bench与MDVP-Bench的零样本测试中,GAR模型在所有细分类别均位列第一,其中GAR-8B在自然图像任务中取得178.6分,大幅领先竞品 [75][76]   应用潜力与迁移能力 - GAR的能力可zero-shot迁移至视频任务,在VideoRefer-Bench测试中,GAR-8B性能超过DAM-8B,甚至优于in-domain训练的VideoRefer-7B模型 [78][79] - 该模型可作为Data-engine工具,为多模态理解模型提供精细的图像/视频描述用于预训练,提升文生图/视频模型对复杂指令的遵循能力,并为细粒度编辑模型提供精准的区域描述 [81][82][83] - GAR可天然作为Reward Model,在多模态理解任务的post-training阶段提供准确的区域理解奖励信号 [84]
 VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%
 量子位· 2025-10-28 13:12
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型 SVG 来了。 该方法实现了在训练效率上62倍、生成速度上35倍的提升。 VAE为何被接连抛弃?主要还是因为 语义纠缠 的缺陷——语义特征都放在同一个潜空间,调一个数值就会"牵一发而动全身",比如只想改变 猫的颜色,结果体型、表情都跟着变。 和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过 语义+细节双分支+分布对齐 ,实现了多任务通 用。 下面具体来看。 主动构建语义与细节融合的特征空间 在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码), 供后续扩散模型学习生成逻辑。 但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。 直接导致两个问题: 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑; 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。 并且,生成的特征空间用途单一,除了图像 ...
 华为世界模型来了!单卡30分钟生成272㎡场景
 量子位· 2025-10-28 13:12
 技术突破 - 华为联合上海交通大学、华中科技大学推出世界模型WorldGrow,可生成1800㎡超大室内场景(19x39块),单卡30分钟生成272㎡ [1] - 生成场景具备连贯几何拓扑和照片级真实感外观,虚拟人可在复杂空间布局中自主规划路径且不迷路 [3][4] - 技术解决了传统方法视角转换导致的物体变形(如沙发腿歪斜)、纹理断裂、扩展性差及布局逻辑混乱(如冰箱塞进卧室)等问题 [7]   核心技术流程 - 数据精准预处理:从3D-FRONT数据集提取优质样本,通过Blender进行场景切片和区块切分,利用occupancy检测确保区块内容密度≥95%,并构建粗/细两级数据集分别控制宏观布局与纹理细节 [10] - 3D块补全机制:通过结构生成器确定3D框架,latent生成器重建结构化潜变量特征,结合带噪潜变量、二进制掩码等输入消除边缘断裂和纹理错位,实现无缝拼接 [11] - 粗到精生成策略:粗结构模型先规划窗户朝向、走廊连接等整体布局,再通过三线性插值上采样匹配细块分辨率,由细结构生成器补全家具纹理等细节 [12]   性能优势 - 在3D-FRONT数据集上,几何重建指标MMD(0.97×10²)、COV(51.82%)达SOTA水平,FID指标低至7.52,显著优于SynCity(FID 51.97)、BlockFusion等主流方法 [15][16][17] - 单张A100显卡30分钟生成10×10区块(约272㎡),速度达同类技术6倍,扩展至7×7块超大场景时边缘质量仍保持稳定 [16]
 人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
 量子位· 2025-10-28 13:12
 评选活动概述 - 正式启动2025人工智能年度榜单评选报名 旨在让从业者感受智能浪潮跃迁并给予同行掌声与鼓舞 [1] - 评选从企业、产品、人物三大维度设立五类奖项 共同见证年度之星并点亮未来方向 [2] - 评选报名从即日起开始 截至2025年11月17日 结果将在MEET2026智能未来大会上公布 [22]   企业类奖项评选标准 - 年度领航企业评选针对中国AI领域最具综合实力企业 参选需满足注册地在中国或主营业务面向中国市场等四项条件 [5][6] - 年度潜力创业公司聚焦最具投资价值和发展潜力的AI创业公司 参选需满足公司未上市且拥有AI产品服务落地等条件 [9][12] - 领航企业评选标准涵盖业务能力、技术能力、资本能力及其他综合能力四大方面 [11] - 潜力创业公司评选标准包括业务潜力、技术创新、资本能力及其他综合能力 [12]   产品与解决方案类奖项评选标准 - 年度杰出产品评选要求产品以AI技术为核心特色且已投入市场 近一年需完成重要技术创新或迭代升级 [17] - 年度杰出解决方案聚焦AI在不同行业场景的典型应用 需在技术融合应用创新或商业模式上有显著突破 [18] - 杰出产品评选标准包括产品力与技术力、落地情况及其他综合能力 [17] - 杰出解决方案评选标准涵盖创新性、落地情况及其他综合能力 [18]   人物类奖项及大会信息 - 年度焦点人物评选面向国籍为中国或所属公司在中国的创始团队成员或核心高管 近一年需在AI技术或商业化方面取得突破 [23] - 焦点人物评选标准包括企业情况、个人能力及其他综合能力 科研院所中具同等影响力的个人也可参与 [23][19] - MEET2026智能未来大会以共生无界智启未来为主题 将邀请科技产业学术领域领军人物探讨AI+等前沿话题 [25][26] - 大会每年吸引上千名科技从业者参与 百万观众线上围观 近百家合作媒体联合曝光 已成为智能科技行业年度风向标 [26]
 两大数学奖项同时颁给王虹!北大三校友包揽“华人菲尔兹”
 量子位· 2025-10-28 13:12
 王虹获奖与学术成就 - 王虹于2025年同日荣获两项重量级数学大奖:国际数学界的塞勒姆奖和世界华人数学家大会数学奖金奖 [1][2][5] - 塞勒姆奖被视为菲尔兹奖风向标,从1968年至2024年的56位获奖者中诞生了10位菲尔兹奖得主,例如陶哲轩在2000年获塞勒姆奖后于2006年获得菲尔兹奖 [2] - 王虹获得塞勒姆奖的理由是"在解决调和分析和几何测度论中的主要开放问题中所发挥的作用",其主攻方向在多个世纪难题上取得突破性进展 [17][18] - 王虹与哥伦比亚大学Joshua Zahl教授合作,在一篇长达127页的论文中宣布证明了困扰数学界多年的挂谷猜想,该成果使其被视为最有机会获得菲尔兹奖的青年数学家之一 [20][28] - 王虹在傅里叶限制猜想、Falconer距离集猜想等问题上做出重要贡献,仅2025年就在数学四大期刊上发表了两篇文章 [23] - 王虹现任加州大学洛杉矶分校助理教授,同时是法国高等科学研究所的终身教授,她是该所历史上首位女性终身教授,也是数学领域第14位终身教授,此前13位终身教授中有8位获得过菲尔兹奖 [15][16]   邓煜获奖与学术成就 - 邓煜与王虹、袁新意共同获得2025年世界华人数学家大会数学奖金奖,三位获奖者均为北京大学数学科学学院校友 [5][30][55] - 邓煜现任芝加哥大学教授,曾荣获普特南大学生竞赛最高奖Putnam Fellow和国际数学奥林匹克竞赛金牌,并获得斯隆研究奖学金等荣誉 [32] - 邓煜与合作者在偏微分方程与数学物理领域取得系列重要成果,其2017年发表的论文《Global solutions of the gravity-capillary water-wave system in three dimensions》被引用131次 [33] - 邓煜在2024年与马骁、Zaher Hani共同突破了希尔伯特第六问题,该问题是David Hilbert于1900年提出的23个数学难题之一,困扰数学界一百多年 [35][37] - 解决希尔伯特第六问题的路径是通过稀薄气体硬球模型和Boltzmann方程实现从粒子系统到气体动力学再到流体力学的数学严谨推导链,最终推导出可压缩流体的欧拉方程以及Navier-Stokes-Fourier方程 [38]   袁新意获奖与学术成就 - 袁新意与王虹、邓煜共同获得2025年世界华人数学家大会数学奖金奖,是北京大学数学"黄金一代"成员 [5][30][41] - 袁新意于2000年获得国际数学奥林匹克竞赛金牌,现任北京大学北京国际数学研究中心教授 [43][55] - 袁新意研究集中在Arakelov几何、代数动力学、丢番图几何等领域,2022年与谢俊逸合作证明了几何Bogomolov猜想的所有情形,2024年独自研究证明了一个关于曲线的统一Bogomolov型定理 [45] - 袁新意曾作为首位中国人获得美国克雷研究所研究奖学金,并在2022年获得科学探索奖 [46] - 袁新意与张伟、恽之玮、朱歆文在数学界有"数学界四小天鹅"美誉,与导师张寿武一起将库达拉猜想中的模性问题推广到全实域,建立了Waldspurger公式在算术代数几何下的模拟 [48]   北京大学数学人才培养 - 三位ICCM金奖获得者王虹、邓煜、袁新意均毕业于北京大学数学科学学院,其中王虹和邓煜同为07级校友 [5][30][55] - 三位获奖者均为2026年国际数学家大会的45分钟报告人,邓煜和袁新意均为国际数学奥林匹克竞赛金牌得主 [55] - 北京大学数学"黄金一代"包括袁新意、刘若川、恽之玮、宋诗畅、肖梁和许晨阳等00级左右毕业生,他们包揽了2018年、2019年、2020年的科学突破奖新视野数学奖,以及拉马努金奖、斯隆研究奖等一系列国际数学界重量级奖项 [51] - "黄金一代"成员之间形成紧密合作网络,彼此扶持共同在数学领域取得成就,据张寿武评价,他们之间不是相互竞争者而是合作者,有问题可立即咨询同领域高手 [52][53]
 全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
 量子位· 2025-10-28 09:18
 模型性能与排名 - 在第三方评测机构Artificial Analysis的测试中,Minimax M2以61分获得开源模型第一,总排名第五[2][14] - 测试涵盖10个热门数据集,包括MMLU Pro、GPQA Diamond、人类最后测试、LiveCodeBench等[15] - 在具体数据集表现上,M2在AIME25得分为78,MMLU-Pro得分为82,GPQA-Diamond得分为78,LiveCodeBench得分为83[16]   技术架构与特点 - M2是一个稀疏度较高的MoE模型,总参数量230B,激活参数量仅为10B,网友称10B激活参数运行起来会非常快[9][10] - 模型采用交错的思维格式,使其能够规划和验证跨多个对话的操作步骤,这对Agent推理至关重要[11] - 技术细节显示M2使用全注意力机制,未采用滑动窗口注意力或Lightning Attention,因测试发现这些会造成性能损失[45][46][51]   成本与效率优势 - M2的推理速度是Claude 3.5 Sonnet的两倍,API价格仅为Claude 3.5 Sonnet的8%[5][6] - 具体定价为输入Token每百万0.3美元/2.1人民币,输出Token每百万1.2美元/8.4人民币[16] - 在线推理服务速度可达每秒100 Token,以速度衡量的性价比表现突出[20]   智能体与编程能力 - 模型专为智能体和编程而生,表现出对复杂、长链工具调用任务的出色规划和稳定执行能力[4][12] - 支持Shell、浏览器、Python代码解释器和各种MCP工具的调用,在工具使用和深度搜索方面不逊于海外顶尖模型[12] - 在智能体、全站开发和Terminal Use三项任务比拼中,M2相对于Claude Sonnet 4.5等模型有极高Win+Tie比例[23][24]   应用生态与平台部署 - Minimax已将M2部署到Agent平台并限时免费使用,免费期直到服务器扛不住为止[7][32] - 平台展示了许多Minimax Agent现成作品,包括网页应用、经典游戏复刻、在线五子棋平台等[35][36][38][40] - 网友实战案例显示,通过三轮反馈即可完成足球小游戏制作,应用效果非常不错[42][43]
 Thinking Machine新研究刷屏!结合RL+微调优势,小模型训练更具性价比了
 量子位· 2025-10-28 09:18
 文章核心观点 - Thinking Machine提出一种名为“在线策略蒸馏”的新型大语言模型后训练方法,该方法通过结合在线策略的自主探索与离线策略的密集监督,显著提升了小模型在专业领域的学习效率和性能 [1][8] - 该方法在数学能力迁移和企业AI助理应用两个实验中展现出巨大优势,训练效率提升高达50-100倍,并能有效解决模型“灾难性遗忘”问题 [4][18][26]   方法原理与创新 - 在线策略蒸馏的核心创新在于融合了实战演戏(在线策略)和请家教(离线策略)两种传统训练模式的优点,如同一位“天才教练”在AI自主解题时提供即时指导 [3][4] - 该方法使用KL散度作为评估学生模型与教师模型分歧的指标,学生模型通过最小化逆向KL散度来模仿教师模型,该指标具备防作弊和使学习过程更稳定的优秀特性 [12][15][17]   实验验证与效果 - 在数学能力迁移实验中,使用在线策略蒸馏方法,仅需约150个训练步骤就将8B学生模型在AIME'24基准上的性能从60%提升至70%,计算成本相比传统监督微调方法降低了9-30倍 [19][21][22] - 在企业AI助理应用中,该方法成功解决了灾难性遗忘问题,使模型在内部知识评估得分从36%提升至41%的同时,通用聊天能力也从79%恢复至83% [23][25][26]   行业影响与团队背景 - 该方法的高效性(效率提升50-100倍)使得资源受限的个人或小公司也能训练出在特定领域具备竞争力的专业小模型,降低了AI应用门槛 [4][5] - 该研究由前OpenAI员工Kevin Lu领导,其曾在OpenAI负责4o-mini发布并参与o1-mini、o3发布,研究背景与强化学习、小模型和合成数据密切相关 [27][28][29]
 微调已死!「共识机制」实现提示词自我进化,性能飙升
 量子位· 2025-10-28 09:18
西湖大学MAPLE实验室 投稿 量子位 | 公众号 QbitAI 当前,人工智能领域正经历一场由「模型微调」向「上下文工程」的范式转变。 通过在输入中引入更明确的指令和更丰富详实的知识,「上下文工程」既无需投入高昂的训练成本,亦不依赖开源模型权重参数,同时能够 为用户和开发者提供更强的可解释性,正逐渐成为构建高性能、可扩展且具备自我改进能力的 AI 系统的核心范式。 正因如此,「微调已死」成为了AI领域近期广泛认可的热门话题。 对于这一缺陷,多提示词的相互协作是一个很自然的解决方案——单个提示词可能无法处理特定输入,但其他提示词可以弥补这一方面的性 能损失。 如果能基于多个提示词生成的回答提取他们所达成的「共识」,AI系统就更有可能输出正确答案。 基于这一思想,西湖大学MAPLE实验室齐国君教授团队提出了基于「共识机制」的提示词组进化算法C-Evolve。 与既往仅优化单一提示词不同,C-Evolve旨在通过进化算法生成一组提示词。该组提示词在对输入信息进行独立处理后,通过提取所有输 出结果的共识,以实现最优任务性能。 为实现这一目标,团队创新性地提出了「共识表决得分」这一进化指标,用于评估单个提示词在成组工 ...
 比尔盖茨女儿也AI创业了!时尚电商,刚被塞了800万美元投资
 量子位· 2025-10-27 16:26
 融资与股东背景 - 公司Phia于2025年9月完成800万美元种子轮融资[6] - 融资将用于组建工程、人工智能研究、产品和营销领域的世界一流团队以加速增长[7] - 股东包括名人海莉·比伯和克里斯·詹纳但比尔·盖茨未直接投资[2][6]   公司产品与业务模式 - Phia是一款AI购物助手于2025年4月上线核心功能为实时比较新品与二手价格帮助用户以最低价购买服饰、鞋履或配饰[12][14] - 产品形式包括iOS应用和浏览器扩展用户点击"我应该买这个吗"按钮后可获取价格判断(偏高、正常或值得入手)[15][16] - 数据库接入The RealReal、eBay等转售平台覆盖超过2.5亿件商品并已在超过4万个购物网站上线[20][22] - 算法由来自Pinterest、Meta、亚马逊等公司的工程师团队自研[21]   市场表现与用户增长 - 上线不到半年积累超过60万用户[13] - 公司拥有超过5000名直接品牌合作伙伴[22]   行业背景与市场机会 - 全球电子商务销售额从2010年的约0.6万亿美元增长至2025年的约6.4万亿美元增幅超过十倍[32] - 全球网购用户接近30亿人但购物流程(搜索→浏览→结账)自2010年代以来几乎无变化存在信息筛选效率低下的矛盾[33][35][37] - Phia旨在解决用户购物时"做功课"时间过长、易受优惠策略困扰的问题提供更高效的消费方式[38][39]   创始人背景与公司起源 - 公司由菲比·盖茨和索菲娅·基安尼创立二人为斯坦福大学室友公司名Phia源自两人名字组合[41][50] - 索菲娅·基安尼曾创立气候公益平台Climate Cardinals并于2020年18岁时被任命为联合国气候变化青年顾问团成员[61][63][64] - 菲比·盖茨为比尔·盖茨之女拥有超过50万Instagram粉丝但强调不依赖家庭光环创业[72][75] - 公司起源于二人对购物过程中信息战的不满初衷是让用户"守住钱包"成为"最聪明的购物者"[23][46][47]
 零一万物高管新阵容亮相,李开复加码布局ToB 2.0
 量子位· 2025-10-27 16:26
 公司战略升级 - 公司正式公布新一轮高管任命,联合创始人沈鹏飞、AI模型与专业用户产品副总裁赵斌强、国际业务与AI咨询副总裁宁宁三位核心管理者组成市场与销售、模型与技术、国际与咨询三维合力的执行中枢 [2][4][13][14] - 公司于今年3月提出"All in ToB"战略,并将"一把手工程"确定为核心执行路径,强调企业AI转型必须由CEO亲自参与战略设计,将AI深度嵌入核心流程以实现价值交付 [3][15] - 公司进入ToB战略2.0阶段,以万智企业大模型平台为核心,打造开放、可扩展的企业级AI操作系统,联合生态伙伴与客户价值共创,实现从研发到交付的产业闭环,让AI能力可复制、可规模化落地 [17][20][21]   核心高管团队 - 沈鹏飞出任联合创始人,统筹国内ToB与ToG业务拓展,拥有26年IT与互联网经验,曾任百度智能云中国区副总经理,带领团队签约并交付六十亿级项目,将作为"一把手工程"落地的重要旗手角色 [5][6] - 赵斌强升任AI模型与专业用户产品副总裁,在互联网算法和AI领域从业17年,曾任阿里巴巴资深算法专家,主导公司自研模型的数据工程和全链路训练管线,负责大模型核心算法研发、专业Agent应用开发及出海专业用户生产力产品线 [8] - 宁宁出任国际业务与AI咨询副总裁,负责全球业务拓展及AI咨询体系建设,带领团队推动多个一带一路国家级主权模型项目,开创前线部署工程师机制,并多次受邀兼任国际客户首席AI官 [10][11]   产品与技术平台 - 万智企业大模型平台具备完整技术栈,覆盖数据、算法、训练、安全的全链条能力,并于今年7月正式升级至万智2.0版,支持企业级Agent定制与多行业场景化落地 [17] - 万智平台已覆盖政务、金融、工业、办公等五大行业,部署超过30类超级员工AI Agent,实现企业AI能力的批量化复制 [18] - 公司采用以平台为横、行业多纵的架构,一横代表平台和模型的通用能力,多纵则是政务、金融、工业、能源、医疗等领域的行业解法,旨在搭建企业AI操作系统的新底座 [18][19]   业务进展与生态合作 - 在国内市场,公司已与友邦保险、智联招聘、东方智媒城等标杆客户共建行业灯塔项目,同时推出生态矩阵合作伙伴计划,携手山羊派、云客、法天使等合作伙伴打造多场景落地方案 [22] - 在国际市场,公司与哈萨克斯坦联合推出AlemLLM语言模型,成为共建一带一路国家人工智能合作的新样板 [23] - 赵斌强领导的PopAi产品已成为公司ToP出海关键产品,在全球专业用户中实现规模化增长,并推动企业级Agent的研发与交付 [8]










