量子位

搜索文档
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位· 2025-06-14 16:32
PAM团队 投稿 量子位 | 公众号 QbitAI 可以输出语义的「分割一切模型2.0」来了! 一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出! 由港中文MMLab、港理工、北京大学等机构开源的 PAM (Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的 基础上,同时输出丰富的语义信息。 为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有 150万个图像区域+60万个视频区域标注 实验结果表明,PAM仅使用 3B参数 ,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现 性能与轻量的统一。 所有数据均已 完全开源 。 PAM:准确定位一键输出 SAM2拥有强大的分割能力,可以"分割一切物体",在视频中能够高效追踪 任意目标,表现惊艳! 但它也有一个明显的局限:无法提供定位目标的任何 语义信息 (比如物体是什么、有何功能、处于什么状态等)。 一些最新的 Video LLM 模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而: 这些 ...
突破125年世纪难题!北大校友联手科大少年班才子破解希尔伯特第六问题
量子位· 2025-06-14 16:32
数学物理重大突破 - 北大校友邓煜、中科大少年班马骁与陶哲轩高徒扎赫尔・哈尼在希尔伯特第六问题"物理学的公理化"上取得重大突破[2] - 首次严格证明从牛顿力学到玻尔兹曼方程的完整过渡,填补微观与宏观定律间的逻辑鸿沟[11][13] - 意外解答玻尔兹曼时代遗留的"时间箭头之谜",为统计力学奠定更坚实数学基础[13][35] 研究核心目标与方法 - 核心目标:从弹性碰撞硬球粒子系统推导流体力学基本偏微分方程,完成原子论到连续介质运动定律的推导[14] - 分两步走:先通过"动力学极限"从牛顿定律推导玻尔兹曼方程,再通过"流体动力学极限"推导流体方程[15] - 采用Boltzmann-Grad极限(N→∞,ε→0)证明粒子系统单粒子密度可由玻尔兹曼方程描述[17] 动力学极限突破 - 团队从无限空间气体模型入手降低复杂度,证明牛顿模型可推导玻尔兹曼方程[22] - 通过傅里叶变换将盒子环境粒子轨迹转换为无限空间虚拟轨迹叠加,复用碰撞模式分析方法[22] - 解决"最困难的逻辑断层",证明牛顿粒子模型在两种环境中均可推导玻尔兹曼方程[22] 流体动力学极限成果 - 当玻尔兹曼方程碰撞率α→∞时,解趋近局部麦克斯韦分布,对应宏观流体参数(密度ρ、速度u、温度T)[24] - 引入克努森数衡量气体稀薄程度,借助Chapman-Enskog展开法分层分析分子分布函数[26][27] - 证明特定条件下玻尔兹曼方程解趋近纳维-斯托克斯方程解,形成"牛顿力学→统计力学→流体力学"完整逻辑链[30][31] 数学家背景 - 邓煜:北大转MIT数学学士,普林斯顿博士,芝加哥大学副教授,研究方向为数学物理与非线性偏微分方程[38][39] - 马骁:中科大少年班,普林斯顿博士,密歇根大学助理教授[41] - 扎赫尔・哈尼:陶哲轩UCLA博士高徒,2011年毕业[43][44]
40岁开始预防衰老最有效!1.9万人脑扫描揭秘:大脑衰老有“关键窗口期”
量子位· 2025-06-14 16:32
大脑衰老研究核心发现 - 大脑衰老呈现非线性S形特征,而非匀速线性过程,通过分析19300名参与者的fMRI数据发现衰老轨迹存在加速转折点[6][7][9] - 关键年龄节点:43.7岁(α点)为不稳定加速起点,66.7岁(I点)为衰老速度峰值,之后进入平台期[11] - 神经元胰岛素抵抗是核心驱动机制,导致葡萄糖代谢异常及GLUT4/APOE转运蛋白功能障碍[12][16][17] 酮体干预机制与效果 - 酮体(如D-βHB)可绕过胰岛素抵抗直接为神经元供能,通过非GLUT4途径稳定大脑网络[19][22] - 干预效果存在年龄差异:40-59岁组效果最佳(比20-39岁组提升84.62%),60-79岁组效果减半[24][25][26] - 实验设计:101名21-79岁健康成年人采用自身对照,外源性酮体干预后30分钟MRI检测显示显著网络稳定性提升[20][21][23] 代谢关联与临床意义 - 胰岛素抵抗引发神经元能量供应失调,与血糖代谢异常强相关,大脑区域异质性分析支持该结论[14][15][17] - 中年(40-59岁)被确定为抗衰黄金窗口期,此时干预可有效延缓S形曲线加速阶段[11][26] - 研究数据来源覆盖四大国际队列(HCP-A/UKB/BU/LCS),采用S形模型比线性模型更精准拟合衰老轨迹[6][7][9]
谢赛宁苏昊CVPR25获奖!华人博士王建元一作拿下最佳论文
量子位· 2025-06-14 00:44
CVPR 2025奖项总结 青年学者奖 - 谢赛宁以一作身份与何恺明合作完成ResNeXt并参与MAE,均为计算机视觉领域影响深远的工作[4] - 苏昊是李飞飞的博士生,曾参与计算机视觉领域知名项目ImageNet[3] 最佳论文奖 - 获奖论文《VGGT: Visual Geometry Grounded Transformer》由Meta和牛津大学联合提出,首次实现单次前馈端到端预测完整3D场景信息[5] - VGGT基于Vision Transformer,采用交替"全局-帧内"自注意力机制,性能超越现有几何或深度学习方法[13][17] - 模型输入支持1-200张图像,输出包含相机参数、深度图、点云图等核心3D属性[15] 最佳学生论文 - 获奖论文《Neural Inverse Rendering from Propagating Light》提出基于物理模型的神经逆向渲染方法,可从LiDAR数据重建场景几何和材质[25][26] - 核心技术包括时间分辨辐射缓存和神经网络加速计算,应用于自动驾驶和虚拟现实领域[27][29] 最佳论文荣誉奖 MegaSaM - 提出改进的深度视觉SLAM系统,能处理动态场景的单目视频,在相机姿态和深度估计方面优于传统方法[32][33] Navigation World Models - LeCun团队开发的可控视频生成模型,能基于视觉观测和导航动作预测未来画面,采用条件扩散变换器技术[38][39] Molmo and PixMo - 72亿参数视觉-语言模型Molmo超越Claude 3.5 Sonnet等闭源模型,配套数据集PixMo完全独立于闭源模型生成[45][48] 3D Student Splatting and Scooping - 改进3D高斯泼溅技术,采用Student's t分布实现正负密度建模,组件数量最多减少82%仍保持质量[53][56]
腾讯开源最强3D生成模型,消费级显卡就能跑 | CVPR
量子位· 2025-06-14 00:44
混元3D 2.1模型发布 - 腾讯在CVPR上宣布开源混元3D 2.1模型,支持生成当红潮流形象Labubu和复古青铜器等多样化3D内容 [1][3] - 该模型是首个全链路开源的工业级3D生成大模型,达到闭源级水平且适配消费级显卡 [9] - 模型提供训练代码、模型权重和数据处理流程全链路开源,支持一键部署和开发者自主精调 [9][28] 几何与纹理双重优化 - 混元3D 2.1主打几何与纹理双重优化,几何优化提升形状精度,纹理优化增强表面细节表现 [5][10][11] - 模型支持生成基础颜色、金属度、粗糙度等不同指标的贴图,并能高质量渲染皮革、木质、金属、陶瓷等多种复杂材质 [12] - 在用户盲测中,混元3D 2.1的PBR纹理质感胜出率高达78% [26] 技术架构升级 - 模型采用"几何-纹理解耦"架构,基于DiT几何架构优化细节建模,提升网格精度和形状一致性 [22][23] - 引入PBR纹理生成技术,模拟光线与材质的物理交互,提升模型在不同光照环境下的视觉一致性 [23] - PBR材质兼容主流渲染引擎如Unreal Engine和Unity,便于跨平台复用 [27] 性能表现与市场反馈 - 相比2.0版本,2.1版本在金属质感、光泽度、纹路细腻度等方面有明显提升 [7][14][18] - 模型可生成手办级别的高精度细节和复杂图案 [20] - 自开源以来,混元3D系列在Hugging Face平台下载量已超过180万次 [31] 生态建设 - 腾讯计划通过全面开源与全球开发者、创作者及研究者共同打造3D开源生态 [33] - 公司将于6月15日举办"玩转混元3D 2.1"直播活动,提供项目地址和体验地址 [34]
120亿腾讯系AI独角兽冲刺港股IPO,北大数院校友创业19年,包揽27%世界500强客户
量子位· 2025-06-13 17:02
公司概况 - 明略科技是中国最大的数据智能应用软件供货商,估值120亿人民币,近期在港交所递交招股书[1][2] - 公司由北大数院校友吴明辉创立于2005年,累计完成27轮融资,投资方包括腾讯(持股27.33%)、快手、红杉等[3][42] - 公司前身为明略昭辉,2019年正式成立集团,核心产品秒针系统已成为中国最大广告数据分析平台[40][41] 业务模式 - 定位为数据智能应用软件公司,利用大模型、行业知识和多模态数据优化企业营销和运营决策[6] - 产品分为三大类:营销智能类(收入占比最大)、营运智能类和行业解决方案[7][12] - 核心产品秒针系统包含媒体支出优化软件、社交媒体管理软件和用户增长软件,占营销类收入超50%[8][23] - 客户覆盖1841家企业,包括135家《财富》500强(占比27%),如宝洁、麦当劳、可口可乐等[4][16] 财务表现 - 2022-2024年营收分别为12.69亿、14.62亿和13.81亿人民币[20] - 同期毛利为6.76亿、7.33亿和7.13亿,毛利率53.2%、50.1%和51.6%[23][26] - 营销智能产品毛利率最高达73.2%,营运智能约30%,行业解决方案尚不稳定[26][27] - 净利润受公允价值变动影响呈下滑趋势,2024年仅790万[28][29] 研发与资金 - 研发费用从2022年7.51亿(占比59.2%)降至2024年3.53亿(25.6%)[32] - 经营活动现金流净额从5.61亿改善至0.28亿,预计2025年继续优化[35] - 截至2024年末现金储备4亿人民币[36] 行业前景 - 中国数据智能应用软件市场规模预计从2023年303亿增至2028年713亿,CAGR18.7%[47] - 驱动因素包括企业需求增长、多模态数据爆发、技术进步和政策支持[48] - 未来趋势聚焦数据爆炸与隐私保护并重,以及大模型与垂直领域深度结合[52][53] - 行业特定数据和知识将成为核心竞争力,AGI需与业务场景深度融合[54][55]
每一幕皆可控!字节发布多主体视频生成神器,人人皆主角
量子位· 2025-06-13 17:02
仅基于一张参考图像,生成 主 体保持高 度一致 的视频, 多人同台也不串脸 ! 字节发布多主体视频生成神器—— MAGREF (Masked Guidance for Any‑Reference Video Generation) 。 比如,爱因斯坦版风驰电掣**摩托,效果be like: 字节 投稿 量子位 | 公众号 QbitAI 提供一张图灵 的参考图,也能生成动起来的全身视频,人物面貌服饰在每一帧中保持高一致性,不会逐渐跑 偏: 根据多样文 本 提示,MAGREF可实现"一图千面": 重要 的是, 不 仅是单一主体生成 。 无论输入 是谁、 来自哪个时 代、风格是否抽象,它都能精准复刻其身份特征,同时根据文本指令渲染出多变 的动作、环境和光影氛围。 MAGREF在不增加模型复杂度的前提下,通过引入掩码引导与通道拼接机制,实现了对多 样参考图像的统一处 理能力。 无论是 单 人演绎、多人物互动,还是人物与物体、背景共同出现在画面 中 ,MAGREF都能生成身份稳定、结 构一致、语义协调的视频序列。 牛顿纵情挥笔绘制大作: 每一位角色的面貌、发型、神态与参考图一致,表情自然,互动合理。 不论是两人同框还是 ...
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
量子位· 2025-06-13 15:05
项目概述 - Nano-vLLM是一个开源项目,由DeepSeek研究员俞星凯开发,仅用不到1200行Python代码实现轻量级vLLM框架 [1][6][27] - 项目具有三大特点:快速离线推理(性能媲美vLLM)、可读性强的代码库、优化套件(包含前缀缓存、Torch compilation、CUDA graph等) [6] 性能对比测试 RTX 4070硬件/Qwen3-0.6B模型测试 - 在256个序列请求、输入输出长度100-1024 token随机采样的测试中: - vLLM输出133,966 tokens,耗时98.95秒,吞吐量1353.86 tokens/s [3][4] - Nano-vLLM输出相同token量,耗时101.90秒,吞吐量1314.65 tokens/s [3][4] - vLLM性能略微领先 [3] H800硬件/Qwen3-8B模型测试 - 在1024个序列请求、相同输入输出条件下: - vLLM输出583,802 tokens,耗时98.67秒,吞吐量5916.89 tokens/s [9] - Nano-vLLM输出相同token量,耗时86.73秒,吞吐量6731.42 tokens/s [9] - Nano-vLLM性能反超原框架 [9] vLLM框架背景 - 由加州大学伯克利分校Sky Computing Lab开发,现为社区驱动项目 [16] - GitHub累计获得49.5k+ Star,7.9k Fork [17][18] - 核心技术PagedAttention算法灵感源自操作系统虚拟内存分页机制,解决LLM服务系统内存碎片化问题 [19] - 采用分块存储KV缓存,通过块表动态映射逻辑块与物理块地址 [19][20][21] 技术优势 - 实现KV缓存内存近乎零浪费,支持请求内/间缓存共享 [24] - 相比FasterTransformer和Orca等系统,相同延迟下吞吐量提升2-4倍 [24] - 支持多种硬件平台(NVIDIA/AMD/Intel GPU/CPU、TPU、AWS Neuron)和功能(前缀缓存、多LoRA) [25][26] - 原版vLLM由8500行Python和2000行C++/CUDA代码构成 [26] 开发者背景 - 俞星凯2021年获南京大学计算机科学与技术系学士学位,同年免试录取为该校硕士 [11] - 现为周志华教授领导的LAMDA团队成员 [11]
韦东奕论文登数学顶刊,将散焦方程的爆破性研究扩展至d≥4
量子位· 2025-06-13 15:05
论文核心观点 - 韦东奕与北大学者章志飞、邵锋合作的论文发表于数学顶刊《Forum of Mathematics, Pi》,研究超临界散焦非线性波动方程的爆破现象[1][2] - 研究填补了d≥4低维情形下超临界散焦方程爆破性研究的空白,并绕过传统奇点处理方法,理论可推广至其他非线性偏微分方程[3][23] - 核心结论:当d=4且p≥29,或d≥5且p≥17时,存在光滑复值解在有限时间内爆破,且爆破速度比临界范数增长更快[20] 研究内容与方法 研究背景 - 此前研究已解决亚临界、临界状态的全局正则性,但超临界散焦方程在d≥4低维情形的爆破性研究几乎空白[12] - 超临界状态(s_c>1)下波的能量更难控制,更易出现爆破现象(解在有限时间内无限大)[13][15] 技术路径 - 结合团队此前关于相对论欧拉方程自相似内爆解的研究成果,将其作为爆破解的"骨架"[16][22] - 论证过程分为五步:模相位分解、自相似解假设、构造近似解、反向时间求解精确解、验证爆破速度[24][25][26] 创新价值 - 方法突破传统奇点处理限制,为理解散焦方程动力学行为提供新视角[23] - 理论可推广至其他非线性偏微分方程的爆破研究,如声波、光波等复杂波动方程[18][19] 作者背景 - 章志飞:北大博雅特聘教授,偏微分方程领域专家,发表150余篇顶刊论文,获国家"杰青"等荣誉[30][31] - 邵锋:北大基础数学博士生,章志飞与韦东奕的共同指导学生[33][34] - 韦东奕曾以唯一作者身份在《Science China - Mathematics》发表流体流动相关论文[36] 学术影响 - 论文成果于2023年5月在清华大学丘成桐数学科学中心由韦东奕主讲报告[6] - 数学领域论文署名按姓氏字母顺序排列,不区分一作二作[39]
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
机器人技术进展 - Figure 02机器人展示60分钟未剪辑物流分拣视频,处理能力接近人类水平[1][2] - 机器人可灵活处理多种形态包裹(硬纸盒、聚乙烯袋、信封等),并能同时进行多包裹操作[4][10] - 通过实时数据观察学习,机器人具备自适应行为如拍打塑料包装抚平条形码[15] 技术性能提升 - 平均处理速度达4.05秒/包裹,吞吐量提升58%,条形码识别成功率从88.2%升至94.4%[17] - Helix神经网络架构改进包括视觉记忆、状态历史、力反馈三大模块[20][22][26][28] - 新策略使条形码朝下识别成功率提升至94%,处理时间降至4.05秒,精度保持92%以上[30] 系统功能特性 - 端到端学习模型支持人机自然交互,无需程序切换即可响应人类手势传递物品[31][33] - 视觉记忆模块使机器人具备时间背景感,能调用历史图像帧辅助定位标签[23][25] - 力反馈系统形成闭合控制回路,实现精准运动调整以适应不同包裹特性[28] 行业应用反馈 - 技术宅讨论物流机器人仿生外型设计是否最优,提出三头六臂可能更高效[39] - 网友关注机器人参与物流工作带来的效率提升和成本优化潜力[37] - 行业观察者注意到机器人自主学习的条形码处理技巧(如拍打抚平)[15]