Workflow
量子位
icon
搜索文档
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位· 2025-06-14 16:32
PAM团队 投稿 量子位 | 公众号 QbitAI 可以输出语义的「分割一切模型2.0」来了! 一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出! 由港中文MMLab、港理工、北京大学等机构开源的 PAM (Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的 基础上,同时输出丰富的语义信息。 为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有 150万个图像区域+60万个视频区域标注 实验结果表明,PAM仅使用 3B参数 ,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现 性能与轻量的统一。 所有数据均已 完全开源 。 PAM:准确定位一键输出 SAM2拥有强大的分割能力,可以"分割一切物体",在视频中能够高效追踪 任意目标,表现惊艳! 但它也有一个明显的局限:无法提供定位目标的任何 语义信息 (比如物体是什么、有何功能、处于什么状态等)。 一些最新的 Video LLM 模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而: 这些 ...
突破125年世纪难题!北大校友联手科大少年班才子破解希尔伯特第六问题
量子位· 2025-06-14 16:32
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 1900年,数学大师希尔伯特提出23个数学难题,其中第六个问题——"物理学的公理化",被称为数学物理的终极挑战。 125年后,北大校友邓煜、中科大少年班马骁与陶哲轩高徒扎赫尔・哈尼终于在这一问题上取得重大突破。 在20世纪,关于第六问题,希尔伯特追问: 能否像欧几里得几何一样,为物理学构建严格的数学基础? 因涉及从微观粒子动力学到宏观连续介质的多尺度关联,这个问题证明起来非常困难。 在微观层面,气体由无数粒子组成,单个粒子运动服从牛顿力学 (时间可逆) 。 在宏观层面,气体的统计行为由玻尔兹曼方程描述 (时间不可逆,趋向熵增) 。 如何从可逆的微观规律,演化出不可逆的宏观行为? 125年来,无数数学家在此领域折戟沉沙。 爱因斯坦的广义相对论、量子力学的数学框架虽部分实现了公理化愿景,但微观与宏观定律间的逻辑鸿沟始终未被弥合。 终于,三位数学家撕开了这道世纪难题的一角。 他们成功从微观粒子模型推导出宏观气体行为,填补了牛顿力学与玻尔兹曼方程之间的逻辑鸿沟。 首次严格证明了从牛顿力学到玻尔兹曼方程的完整过渡,不仅为统计力学奠定了更坚实的数学基础,更意外地解答了 ...
40岁开始预防衰老最有效!1.9万人脑扫描揭秘:大脑衰老有“关键窗口期”
量子位· 2025-06-14 16:32
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 什么?原以为高考后脑子就不灵了,但其实四十岁之前都是当打之年! 一项发表于《美国国家科学院院刊》 (PNAS) 的研究,揭开了大脑衰老的神秘面纱,还找到了对抗衰老的关键时间窗口和干预方法。 科学家分析了超1.9万人功能性磁共振成像(fMRI),发现 大脑衰老并不是慢慢发生 的,而是遵循特定的非线性进程,并且与 胰岛素抵抗 增加相关。 此外,研究还发现 酮体 作为一种可绕过胰岛素抵抗为神经元供能的物质,对稳定大脑有显著作用。 并且,酮体在 40-59岁 干预效果最佳。 也就是说,新脑子还能安心用几年,中年再抗衰也不迟(doge 来看看具体研究过程。 S形模型呈现出一种先缓慢变化、然后加速变化、最后又趋于平稳的趋势,这与大脑衰老的实际过程更为相符。 具体来说,在生命的早期阶段,大脑具有较强的可塑性和代偿能力,因此大脑网络的不稳定程度变化较为缓慢。 大脑衰老呈非线性特征,胰岛素抵抗是关键 传统观念可能认为大脑衰老是一个匀速、线性的过程。 该研究通过对人类连接组计划衰老队列(HCP-A)、英国生物银行(UKB)、加州大学伯克利分校人类衰老队列(BU)和荷兰生命周期 ...
谢赛宁苏昊CVPR25获奖!华人博士王建元一作拿下最佳论文
量子位· 2025-06-14 00:44
明敏 克雷西 发自 凹非寺 量子位 | 公众号 CVPR 2025奖项出炉!谢赛宁苏昊齐获青年学者奖。 该奖项面向 获得博士学位不超过7年 的早期研究工作者,表彰他们在计算机视觉领域的 杰出研究贡献 。 其中,苏昊是 李飞飞 的博士生,他参与了对计算机视觉领域鼎鼎有名的 ImageNet 。 谢赛宁以一作身份和 何恺明 合作完成ResNeXt,同时也参与了MAE,都是计算机视觉领域影响深远的工作。 最值得关注的CVPR 2025 最佳论文奖 也新鲜出炉! 今年只有一篇论文获奖: 《VGGT: Visual Geometry Grounded Transformer》 ,由Meta和牛津大学联合提出,第一作者为牛津大学 Meta联培博士王建元。 VGGT是首个能在单次前馈中端到端预测完整3D场景信息的大型Transformer,性能超越多项现有几何或深度学习方法,具有广泛的应用潜 力。 Best Student Paper 颁给《Neural Inverse Rendering from Propagating Light》,由多伦多大学、卡内基梅隆大学等联合带来。 它首次提出针对从多视角、时间分辨的光传播视频 ...
腾讯开源最强3D生成模型,消费级显卡就能跑 | CVPR
量子位· 2025-06-14 00:44
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚的CVPR上,鹅厂3D生成模型 混元3D 2.1 正式宣布开源! 它可以紧跟潮流,细腻地呈现出当红炸子鸡Labubu。 主打几何与纹理双优化 如开头所述,混元3D 2.1主打的是 几何与纹理的双重优化 。 几何决定了建立出的模型在形状上的精度,纹理则还原模型表面的颜色、光泽和细节表现。 也可以走复古路线,生成纹理精致的青铜器。 总之相比于前一代2.0,混元3D 2.1主打的是 几何与纹理 的双重优化。 特别在纹理贴面上有比较大的优化,可达到当前开源3D模型中的SOTA。 比如这个金属质地的葡萄型摆件,2.1和之前2.0的质感和光泽对比非常明显: 并且混元3D 2.1的 训练代码、模型权重、数据处理流程全部开源 ,支持一键部署,开发者还可以自主精调。 据腾讯介绍,这是首个全链路开源的工业级3D生成大模型,并且达到了闭源级水平,同时还 可适配消费级显卡 。 混元3D 2.1 可生成基础颜色、金属度、粗糙度等指标各不相同的贴图,同时还支持皮革、木质、金属、陶瓷等多种复杂材质的高质量渲染。 比如这组青花瓷制成的小船,可以看到右侧2.1版本生成的结果光泽更 ...
120亿腾讯系AI独角兽冲刺港股IPO,北大数院校友创业19年,包揽27%世界500强客户
量子位· 2025-06-13 17:02
杰西卡 发自 副驾寺 智能车参考 | 公众号 AI4Auto 估值120亿的上海AI独角兽 ,准备在香港上市了。 明略科技,前名为"汇智控股",也是中国最大的数据智能应用软件供货商,近期在港交所递交了招股书。 北大数院校友 创业19年,累计融资达27轮,获得腾讯、快手、红杉等知名投资方押注。 全球135家《财富》世界500强公司——也就是27%的500强,包括你再熟悉不过的宝洁、麦当劳、可口可乐等等,都已经是他的客户。 值得一提的是,公司旗下平台"微伴助手",其创始人正是现在 Manus的创始人肖弘 。 谁是明略科技? 明略科技的定位,是一家 数据智能应用软件 公司。 公司的业务模式是,利用大模型、行业特定知识以及多模态数据,改变企业营销和营运决策及流程,帮助客户收集、整合、管理和分析多模态 数据,生成商业见解。 其产品和解决方案主要可以分为三大类: 首先是 营销智能类 ,主要功能是实现营销数据测量、客户洞察等等营销决策,涵盖客户在所有媒体平台、整个业务流程的各种营销智能需 求。 具体产品包括 秒针系统 、金数据以及基于腾讯生态系统的私域工具等。 其中, 秒针系统 是其最早推出、也是现在收入最多的一大核心产品 ...
每一幕皆可控!字节发布多主体视频生成神器,人人皆主角
量子位· 2025-06-13 17:02
仅基于一张参考图像,生成 主 体保持高 度一致 的视频, 多人同台也不串脸 ! 字节发布多主体视频生成神器—— MAGREF (Masked Guidance for Any‑Reference Video Generation) 。 比如,爱因斯坦版风驰电掣**摩托,效果be like: 字节 投稿 量子位 | 公众号 QbitAI 提供一张图灵 的参考图,也能生成动起来的全身视频,人物面貌服饰在每一帧中保持高一致性,不会逐渐跑 偏: 根据多样文 本 提示,MAGREF可实现"一图千面": 重要 的是, 不 仅是单一主体生成 。 无论输入 是谁、 来自哪个时 代、风格是否抽象,它都能精准复刻其身份特征,同时根据文本指令渲染出多变 的动作、环境和光影氛围。 MAGREF在不增加模型复杂度的前提下,通过引入掩码引导与通道拼接机制,实现了对多 样参考图像的统一处 理能力。 无论是 单 人演绎、多人物互动,还是人物与物体、背景共同出现在画面 中 ,MAGREF都能生成身份稳定、结 构一致、语义协调的视频序列。 牛顿纵情挥笔绘制大作: 每一位角色的面貌、发型、神态与参考图一致,表情自然,互动合理。 不论是两人同框还是 ...
韦东奕论文登数学顶刊,将散焦方程的爆破性研究扩展至d≥4
量子位· 2025-06-13 15:05
一水 发自 凹非寺 量子位 | 公众号 QbitAI 字都认识,但是看不懂一点(doge)。 实际上,据清华大学丘成桐数学科学中心网站介绍,韦东奕还在今年5月以主讲人的身份做了这篇论文的报告。 韦东奕论文再登数学顶刊! 就在备受关注之际,韦神本韦和另两位北大学者章志飞、邵锋合作的一篇论文已发表于数学界顶级期刊《Forum of Mathematics, Pi(数学 论坛,π) 》。 论文题目为《On blow-up for the supercritical defocusing nonlinear wave equation(超临界散焦非线性波动方程的爆破现象研究)》, 通俗来说就是研究某些方程的解在什么条件下会"爆炸"失控。 而经过一系列论证,他们最终发现对于d=4且p≥29,以及d≥5且p≥17的情况,存在一个在有限时间内爆破的光滑复值解。 不清楚具体研究内容不要紧,重要的是 这一成果不仅填补了相关空白,而且其证明方法绕过了传统方法中奇点处理的难点,理论上可推广到 其他非线性偏微分方程的爆破研究。 网友们的反应一致be like: 下面具体来看这项研究讲了啥? 将散焦方程的爆破性研究扩展至d≥4 从论文 ...
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
量子位· 2025-06-13 15:05
西风 发自 凹非寺 量子位 | 公众号 QbitAI 仅用不到 1200行代码,实现最小化且完全可读的vLLM ! Dee pSeek研究 员俞星凯 搞了个开源项目引得大伙拍手叫绝。 项目名为 Nano-vLLM ( 纳米 级-vLLM) ,有三大特点: 下面是vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试情况。 在RTX 4070硬件、Qwen3-0.6B模型环境中,设置了256个序列的总请求数,输入和输出长度均在100-1024个 token间随机采样。 测试结果be like: | Inference Engine | Output Tokens | Time (s) | Throughput (tokens/s) | | --- | --- | --- | --- | | vLLM | 133,966 | 98.95 | 1353.86 | | Nano-vLLM | 133,966 | 101.90 | 1314.65 | vLLM略微领先。 二者输出token量相同,vLLM耗时98.95秒、吞吐量为1353.86 tokens/s,Nano-vLLM耗时101.90秒、吞吐量131 ...
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 好家伙,机器人进厂打工原视频流出,整整60分钟,完全未剪辑。 前几天Figure 02晒1分钟物流分拣视频,网友们完全没看够啊。 于是Figure创始人立马 60分钟 进厂打工vlog (未删减版) 奉上。 可灵活处理更多类型包裹,更接近人类水平的硬件运动,仔细看机器人在工作时,还会实时查看新数据来观察学习。 可以很轻松地从一堆非结构化的杂乱对象中抽出包裹,并在推走一个包裹的同时,伸手去取另外一个包裹。 要知道,3个月前它还是这样的: 短时间内整体性能飞速提升,到底发生了什么? 刚刚官方同步释出的完整技术解读文档来答疑解惑了。 受益于高质量演示数据集的扩展,以及对Figure自研的Helix神经网络的 视觉电机策略 (visuo-motor policy) 进行架构改进,机器人在高 速工作负载下的稳定性得以长足发展。 另外通过启动状态感知和力感应,在不牺牲效率的情况下还全面增强了机器人的稳健性和适应性。 更多详细技术细节如下。 数据扩展 将前后两次视频对比,物流任务明显扩展至更多形态的包裹,除了标准的硬纸盒,现在还可以处理聚乙烯袋、信封和其它 可折叠、皱缩 ...