Workflow
量子位
icon
搜索文档
谢赛宁苏昊CVPR25获奖!华人博士王建元一作拿下最佳论文
量子位· 2025-06-14 00:44
明敏 克雷西 发自 凹非寺 量子位 | 公众号 CVPR 2025奖项出炉!谢赛宁苏昊齐获青年学者奖。 该奖项面向 获得博士学位不超过7年 的早期研究工作者,表彰他们在计算机视觉领域的 杰出研究贡献 。 其中,苏昊是 李飞飞 的博士生,他参与了对计算机视觉领域鼎鼎有名的 ImageNet 。 谢赛宁以一作身份和 何恺明 合作完成ResNeXt,同时也参与了MAE,都是计算机视觉领域影响深远的工作。 最值得关注的CVPR 2025 最佳论文奖 也新鲜出炉! 今年只有一篇论文获奖: 《VGGT: Visual Geometry Grounded Transformer》 ,由Meta和牛津大学联合提出,第一作者为牛津大学 Meta联培博士王建元。 VGGT是首个能在单次前馈中端到端预测完整3D场景信息的大型Transformer,性能超越多项现有几何或深度学习方法,具有广泛的应用潜 力。 Best Student Paper 颁给《Neural Inverse Rendering from Propagating Light》,由多伦多大学、卡内基梅隆大学等联合带来。 它首次提出针对从多视角、时间分辨的光传播视频 ...
腾讯开源最强3D生成模型,消费级显卡就能跑 | CVPR
量子位· 2025-06-14 00:44
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚的CVPR上,鹅厂3D生成模型 混元3D 2.1 正式宣布开源! 它可以紧跟潮流,细腻地呈现出当红炸子鸡Labubu。 主打几何与纹理双优化 如开头所述,混元3D 2.1主打的是 几何与纹理的双重优化 。 几何决定了建立出的模型在形状上的精度,纹理则还原模型表面的颜色、光泽和细节表现。 也可以走复古路线,生成纹理精致的青铜器。 总之相比于前一代2.0,混元3D 2.1主打的是 几何与纹理 的双重优化。 特别在纹理贴面上有比较大的优化,可达到当前开源3D模型中的SOTA。 比如这个金属质地的葡萄型摆件,2.1和之前2.0的质感和光泽对比非常明显: 并且混元3D 2.1的 训练代码、模型权重、数据处理流程全部开源 ,支持一键部署,开发者还可以自主精调。 据腾讯介绍,这是首个全链路开源的工业级3D生成大模型,并且达到了闭源级水平,同时还 可适配消费级显卡 。 混元3D 2.1 可生成基础颜色、金属度、粗糙度等指标各不相同的贴图,同时还支持皮革、木质、金属、陶瓷等多种复杂材质的高质量渲染。 比如这组青花瓷制成的小船,可以看到右侧2.1版本生成的结果光泽更 ...
120亿腾讯系AI独角兽冲刺港股IPO,北大数院校友创业19年,包揽27%世界500强客户
量子位· 2025-06-13 17:02
杰西卡 发自 副驾寺 智能车参考 | 公众号 AI4Auto 估值120亿的上海AI独角兽 ,准备在香港上市了。 明略科技,前名为"汇智控股",也是中国最大的数据智能应用软件供货商,近期在港交所递交了招股书。 北大数院校友 创业19年,累计融资达27轮,获得腾讯、快手、红杉等知名投资方押注。 全球135家《财富》世界500强公司——也就是27%的500强,包括你再熟悉不过的宝洁、麦当劳、可口可乐等等,都已经是他的客户。 值得一提的是,公司旗下平台"微伴助手",其创始人正是现在 Manus的创始人肖弘 。 谁是明略科技? 明略科技的定位,是一家 数据智能应用软件 公司。 公司的业务模式是,利用大模型、行业特定知识以及多模态数据,改变企业营销和营运决策及流程,帮助客户收集、整合、管理和分析多模态 数据,生成商业见解。 其产品和解决方案主要可以分为三大类: 首先是 营销智能类 ,主要功能是实现营销数据测量、客户洞察等等营销决策,涵盖客户在所有媒体平台、整个业务流程的各种营销智能需 求。 具体产品包括 秒针系统 、金数据以及基于腾讯生态系统的私域工具等。 其中, 秒针系统 是其最早推出、也是现在收入最多的一大核心产品 ...
每一幕皆可控!字节发布多主体视频生成神器,人人皆主角
量子位· 2025-06-13 17:02
仅基于一张参考图像,生成 主 体保持高 度一致 的视频, 多人同台也不串脸 ! 字节发布多主体视频生成神器—— MAGREF (Masked Guidance for Any‑Reference Video Generation) 。 比如,爱因斯坦版风驰电掣**摩托,效果be like: 字节 投稿 量子位 | 公众号 QbitAI 提供一张图灵 的参考图,也能生成动起来的全身视频,人物面貌服饰在每一帧中保持高一致性,不会逐渐跑 偏: 根据多样文 本 提示,MAGREF可实现"一图千面": 重要 的是, 不 仅是单一主体生成 。 无论输入 是谁、 来自哪个时 代、风格是否抽象,它都能精准复刻其身份特征,同时根据文本指令渲染出多变 的动作、环境和光影氛围。 MAGREF在不增加模型复杂度的前提下,通过引入掩码引导与通道拼接机制,实现了对多 样参考图像的统一处 理能力。 无论是 单 人演绎、多人物互动,还是人物与物体、背景共同出现在画面 中 ,MAGREF都能生成身份稳定、结 构一致、语义协调的视频序列。 牛顿纵情挥笔绘制大作: 每一位角色的面貌、发型、神态与参考图一致,表情自然,互动合理。 不论是两人同框还是 ...
韦东奕论文登数学顶刊,将散焦方程的爆破性研究扩展至d≥4
量子位· 2025-06-13 15:05
一水 发自 凹非寺 量子位 | 公众号 QbitAI 字都认识,但是看不懂一点(doge)。 实际上,据清华大学丘成桐数学科学中心网站介绍,韦东奕还在今年5月以主讲人的身份做了这篇论文的报告。 韦东奕论文再登数学顶刊! 就在备受关注之际,韦神本韦和另两位北大学者章志飞、邵锋合作的一篇论文已发表于数学界顶级期刊《Forum of Mathematics, Pi(数学 论坛,π) 》。 论文题目为《On blow-up for the supercritical defocusing nonlinear wave equation(超临界散焦非线性波动方程的爆破现象研究)》, 通俗来说就是研究某些方程的解在什么条件下会"爆炸"失控。 而经过一系列论证,他们最终发现对于d=4且p≥29,以及d≥5且p≥17的情况,存在一个在有限时间内爆破的光滑复值解。 不清楚具体研究内容不要紧,重要的是 这一成果不仅填补了相关空白,而且其证明方法绕过了传统方法中奇点处理的难点,理论上可推广到 其他非线性偏微分方程的爆破研究。 网友们的反应一致be like: 下面具体来看这项研究讲了啥? 将散焦方程的爆破性研究扩展至d≥4 从论文 ...
DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版
量子位· 2025-06-13 15:05
西风 发自 凹非寺 量子位 | 公众号 QbitAI 仅用不到 1200行代码,实现最小化且完全可读的vLLM ! Dee pSeek研究 员俞星凯 搞了个开源项目引得大伙拍手叫绝。 项目名为 Nano-vLLM ( 纳米 级-vLLM) ,有三大特点: 下面是vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试情况。 在RTX 4070硬件、Qwen3-0.6B模型环境中,设置了256个序列的总请求数,输入和输出长度均在100-1024个 token间随机采样。 测试结果be like: | Inference Engine | Output Tokens | Time (s) | Throughput (tokens/s) | | --- | --- | --- | --- | | vLLM | 133,966 | 98.95 | 1353.86 | | Nano-vLLM | 133,966 | 101.90 | 1314.65 | vLLM略微领先。 二者输出token量相同,vLLM耗时98.95秒、吞吐量为1353.86 tokens/s,Nano-vLLM耗时101.90秒、吞吐量131 ...
Figure自曝完整技术:60分钟不间断打工,我们的机器人如何做到?
量子位· 2025-06-13 13:07
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 好家伙,机器人进厂打工原视频流出,整整60分钟,完全未剪辑。 前几天Figure 02晒1分钟物流分拣视频,网友们完全没看够啊。 于是Figure创始人立马 60分钟 进厂打工vlog (未删减版) 奉上。 可灵活处理更多类型包裹,更接近人类水平的硬件运动,仔细看机器人在工作时,还会实时查看新数据来观察学习。 可以很轻松地从一堆非结构化的杂乱对象中抽出包裹,并在推走一个包裹的同时,伸手去取另外一个包裹。 要知道,3个月前它还是这样的: 短时间内整体性能飞速提升,到底发生了什么? 刚刚官方同步释出的完整技术解读文档来答疑解惑了。 受益于高质量演示数据集的扩展,以及对Figure自研的Helix神经网络的 视觉电机策略 (visuo-motor policy) 进行架构改进,机器人在高 速工作负载下的稳定性得以长足发展。 另外通过启动状态感知和力感应,在不牺牲效率的情况下还全面增强了机器人的稳健性和适应性。 更多详细技术细节如下。 数据扩展 将前后两次视频对比,物流任务明显扩展至更多形态的包裹,除了标准的硬纸盒,现在还可以处理聚乙烯袋、信封和其它 可折叠、皱缩 ...
智能交互终于步入真·人机交互时代了,这很讯飞
量子位· 2025-06-13 13:07
白交 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 苹果放鸽子的更新,国产AI率先实现了。 背上一个看起来平平无奇、体积也没什么存在感的包,宇树机器人就声情并茂地开口说话。 社交i人戴上AI眼镜,就可以轻松跟外国人social,看似不经意就加上微信好友;戴着它看展的话,看到不懂的展品还可以不懂装懂一下 (bushi。 你对智能硬件的想象,是不是还停留在"能听懂你说话"的阶段?这种"你说一句、它答一句"的交互,本质上还是命令式的、静态的。场景一变 化,语气一模糊,体验就崩了。 但现在,这些都开始变了。 万物皆可交互,万物皆可互联开始具象化。 你甚至可以让巴斯光年、变形金刚在你面前唱歌跳舞。 手里的一支签字笔、一块贴牌,也可以化身会议神器。 在 科大讯飞最新发布会上,我看到了智能硬件的新范式: 设备不再是限制,产品与服务正在被AI革新 ,交互重构整个硬件产业生态。 AIUI,一站式搞定人机交互开发 正如此次发布会所展现, 一个最大的感知就是 现在智能硬件从基础交互迈向深度智能协作,从而在应用场景里深度赋能。 从技术角度来说,人机交互正在变成一个复杂的系统性工程,而不再是语音识别、模型系统和语音合成的简单组 ...
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
量子位· 2025-06-13 13:07
同时,之前的工作没有对大型推理模型的安全思考做深入的分析,以进行针对性的提升。 来自加州大学圣克鲁兹分校,加州大学伯克利分校,思科研究和耶鲁大学的的研究团队提出了创新的 SafeKey 框架,成功在不影响模型核心 能力的前提下,显著增强了其安全稳健性。 SafeKey团队 投稿 量子位 | 公众号 QbitAI 大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。 尽管学术界已尝试通过监督微调(SFT)有效地提升模型安全,但下图的测试结果所示,监督微调在面对训练数据领域外的层出不穷的"越 狱"攻击时,往往显得捉襟见肘,泛化能力有限。 发现:大模型信息"越狱"的两大核心 SafeKey团队在探究模型为何会"越狱"成功时,获得了两大核心发现: 1."关键句"现象(The "Key Sentence") 如下图所示,推理模型在回答问题时,普遍会先进行一段对用户查询的理解与重述。 而紧随其后的 第一个句子 ,往往直接决定了整个回答的"安全调性"。 研究团队将其命名为" 关键句 "(Key Sentence):一个安全的"顿悟时刻"(Aha-moment)能否在此时被触发, ...
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
KRIS-Bench团队 投稿 量子位 | 公众号 QbitAI 人类在学习新知识时,总是遵循从"记忆事实"到"理解概念"再到"掌握技能"的认知路径。 AI是否也建立了"先记住单词,再理解原理,最后练习应用"的这种知识结构呢? 测评一下就知道了! 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队,共同提出了 KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark)。 首创地 从知识类型的视角 ,对图像编辑模型的推理能力进行系统化、精细化的评测。 借鉴布鲁姆认知分类与教育心理学中的分层教学理念,KRIS-Bench让AI在事实性知识(Factual Knowledge)、概念性知识(Conceptual Knowledge)与程序性知识(Procedural Knowledge)三大层面上,逐步接受更深入、更复杂的编辑挑战。 基于认知分层的三大知识范畴 KRIS-Bench在每个类别下又细化出7大推理维度、22种典型编辑任务,从 "物体计数变化"到"化学反应预测 ...