量子位

搜索文档
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:16
Video-Bench团队 投稿 量子位 | 公众号 QbitAI 视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望 的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench 视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。 简单地说,能够让多模态大模型(MLLM)"像人一样评估视频"。 实验结果表明,Video-Bench不仅能精准识别生成视频在物体一致性(0.735相关性)、动作合理性等维度的缺陷,还能稳定评估美学质量等 传统难题,显著优于现有的评估方法。 Video-Bench的研究团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等机构。 Video-Bench:基于MLLM的自动化视频评估框架 Video-Bench团队在面对已有的视频评估方法时,发现了两个问题: 1.简单的评分规则往往无法捕捉视频流畅度、美学表现等复杂维度—— 那么,当评判"视频质量"时,如何将人类出于"直觉"的模糊感受转化为可量化的评估指标? 2.现有基于大语 ...
GraphRAG太慢LightRAG延迟高?华东师大新方法一招破解双重难题
量子位· 2025-06-12 16:16
Planing Lab团队 投稿 量子位 | 公众号 QbitAI GraphRAG的索引速度慢,LightRAG的查询延迟高? 这些影响效率的难题,现在终于迎来改进—— 由华东师范大学李翔老师带领的的Planing Lab团队推出高效解决方法 E²GraphRAG 。 该方法在大部分测试中接近了最优的GraphRAG方法。 并且值得关注的是,该方法在构建索引时间上是GraphRAG的 1/10 ,在查询时间上是LightRAG的 1/100 。 | Backbone Model | | | Owen2.5-7B-Instruct | | | Llama3.1-8B-Instruct | | | --- | --- | --- | --- | --- | --- | --- | --- | | Dateset | | NovelOA | InfiniteChoice | InfiniteQA | NovelOA | InfiniteChoice | InfiniteOA | | GraphRAG-L | Met. ↑ | 43.34 | 46.72 | 13.51 | 43.64 | 43.66 | 6.37 ...
Day0迁移、一键部署,华为开源的昇思MindSpore成为大模型开发的“万能钥匙”
量子位· 2025-06-12 16:16
有的—— 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 没有一个大模型可以一统天下。 在如此背景之下,面对众多且日新月异的主流大模型和AI技术,如何能 在一个框架、生态下去体验 ,却成了开发者们"老大难"的问题。 难道就没有一个又快又好又方便的解决办法吗? 这,或许已经成为了AI大模型时代行业里的一个共识。 华为开源的昇思MindSpore ,了解一下。 在这里,主流SOTA大模型的"搬家"是这样的—— 训练Day0迁移 : 只需改动极少极少的代码就OK,并且精度和性能都在线。 △ MindSpore训练Day0迁移方案 推理 是 一键部署 的: 训练转推理全流程自动化,20多个主流大模型开箱即用,百亿参数模型加载只需不到30秒。 △ MindSpore生态快速迁移解决方案的技术架构 那么昇思MindSpore是如何做到,我们继续往下看。 改4行代码,"搬家"DeepSeek-V3 为了让迁移大模型这件事变得无感知,昇思MindSpore"翻译神器"—— MSAdapter 。 简单来说,这个工具可以把其他框架的代码转换成MindSpore能看懂的语言,从而实现 "零损耗" 迁移。 比如PyTorch ...
实测豆包1.6,最火玩法all in one!Seedance登顶视频生成榜一,豆包APP全量上线
量子位· 2025-06-12 15:11
海淀区高考模拟卷,豆包1.6文理科成绩全部突破700分,理科成绩更是比去年的豆包提升了154分。 | 海淀模拟全卷 | | | --- | --- | | 豆包大模型1.6: | 豆包-240615: | | 理科: 656+50=706 | 理科: 502+50=552 | | 文科:662+50=712 | 文科:572+50=622 | 视频领域, Seedance 1.0 Pro 亮相即登顶全球竞技场文生视频、图生视频双料第一。 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 不愧是字节,一发大模型,各模态榜单格局全部被重构! 最新豆包大模型1.6系列 ,"小版本"更新但推理、数学、多模态能力全部冲入 全球第一梯队 。 | Artificial Analysis Video Arena Leaderboard | | | | | | Artificial Analysis Video Arena Leaderboard | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | Text to Video | ...
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位· 2025-06-12 09:37
NFD团队 投稿 量子位 | 公众号 QbitAI 在A100上用310M模型,实现 每秒超30帧 自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架—— Next-Frame Diffusion (NFD) 。 通过实现帧内并行采样,帧间自回归的方式,NFD让视频生成在保持较高生成质量的同时,生成效率大幅提升。 或许不久之后的游戏,就是玩家直接跟模型交互打游戏了,无需通过传统的游戏引擎。 比如在《我的世界》中,下面每个视频在NVIDIA A100 GPU上生成 只需约 0.48秒 。 玩家在黑暗的走廊中不断前进: 玩家在攻击小动物后转动视角: 玩家跳跃后放置木块: 玩家跳上草地: 如今,NFD让生成速度又快了几倍。 玩家不停地放置石块: 值得一提的是,前段时间在X上火了的一款基于Minecraft的交互式自回归世界模型—— MineWorld ,也是这个微软研究院的团队做的。 它能够以每秒4-7帧的速度和模型进行交互。 为进一步提高生成效率,研究人员进一步通过以下技术来减少推理时的总采样次数: 引入块状因果注意力机制的Transformer ...
小扎“超级智能”小组第一位大佬!谷歌DeepMind首席研究员,“压缩即智能”核心人物
量子位· 2025-06-12 09:37
最新爆料,谷歌DeepMind首席研究员Jack Rae已经确认转投。 另有消息称,Meta还招募了AI语音初创公司Sesame AI的ML主管 Johan Schalkwyk。 白交 发自 凹非寺 量子位 | 公众号 QbitAI 小扎亲手挖人,很疯狂。 前一天刚被爆出,他想斥巨资150亿美元收购Scale AI,后者做数据标注已经做到了百亿美元估值。据说,他们28岁华人创始人Alexandr Wang与团队会直接并入Meta。 在过去一段时间里,这位CEO一直在家里与一些技术大佬见面。 好好好,看出来了小扎AGI组队,就是一个原则:这些科技公司的顶尖工程师们 应来尽来 ,而且钱都不是问题。他们为这些人提供了数千万 美元的薪酬方案,包括股权。 还得是小扎,决定做什么事之后就不遗余力,推进速度也是非常快。上一次亲手组团队还是。。(Doge) By the way,昨天还在揣测LeCun接下来去向,今天他就亲自出镜发布基于视频训练的世界模 型 V-JEPA 2 。 小扎挖人很疯狂 在首批挖人名单中,Jack Rae可能是最瞩目的那一个。 Jack Rae目前在谷歌DeepMind首席科学家已经两年,负责Gemi ...
最大的开源GraphRag:知识图谱完全自主构建|港科大&华为
量子位· 2025-06-12 09:37
AutoSchemaKG团队 投稿 量子位 | 公众号 QbitAI 另外,通过处理超过5000万份文档,AutoSchemaKG团队还构建了 ATLAS (自动三元组链接与模式归纳):一个 包含超过9亿节点和59亿边的知识图谱系列。 论文第一作者白佳欣是香港科技大学计算机科学与工程系的博士后研究员,受香港研究资助局新晋学者计划(JRFS)奖 项资助。 白博士的研究重点在于图神经数据库系统构建,大规模知识图谱构建和推理,检索增强生成等。他在ACL、 NeurIPS、KDD等顶级会议发表了多篇论文,工作涵盖电子商务意图建模、复杂查询回答和隐私保护神经图数据库等 前沿领域。 创新:驱动模式归纳的概念化过程 知识图谱(KGs)已经可以很好地将海量的复杂信息整理成结构化的、机器可读的知识,但目前的构建方法仍需要由 领域专家预先创建模式,这限制了KGs的可扩展性、适应性和领域覆盖范围。 为此,香港科技大学KnowComp实验室联合香港华为理论部提出了 AutoSchemaKG :一个无需预定义模式、用于 完全自主知识图谱构建的框架。 该系统利用大型语言模型,可以直接从文本中同时提取知识三元组并归纳出全面的模式,对实体和 ...
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位· 2025-06-11 16:07
端到端多模态GUI智能体有了"自我反思"能力!南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展, 端到端GUI智能体 在手机、电脑等设备上的自动化任务中展示出巨大潜力。它们能够看懂设备屏幕,模拟人类去 点击按钮、输入文本,从而完成复杂的任务。 然而,当前端到端GUI多智能体的训练范式仍存在明显的瓶颈:当前模型往往使用几乎完美的离线演示轨迹进行训练,使得模型缺乏反思和改 正自身错误的能力,并进一步限制了通过在线强化学习激发和提升能力的可能。 GUI-Reflection 的核心思想是在智能体的各个训练阶段引入 "反思与纠错"机制 ,这一机制贯穿 预训练、监督微调和在线训练 全过程,模 拟了人类 "犯错→反思→重试" 的认知过程。 1. GUI预训练阶段: GUI-Reflection 团队 投稿 量子位 | 公众号 QbitAI 提出GUI-Reflection Task Suite任务套件, 将反思纠错能力进一步分解,让模型在预训练阶段框架让模型初步接触反思类任务,为后续打 下基础。 2. 离线监督微调阶段: 构建自动化数据管道,从已有离线无错轨迹中构建带有反思和纠错的 ...
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
量子位· 2025-06-11 16:07
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI "预测下一个token" ——这个支撑LLM的核心训练机制,正在被强化学习颠覆。 微软亚洲研究院 (MSRA) 联合清华大学、北京大学提出全新预训练范式 RPT (强化预训练) ,首次将强化学习深度融入预训练阶段,让 模型在预测每个token前都能先"动脑推理",并根据推理正确性获得奖励。 传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点 缀的一颗樱桃。 现在RPT要做的就是 用樱桃直接做蛋糕 ,即将这一过程重构为推理任务,促进模型更深层次理解和提升下一个token的预测准确度。 | | Qingxiu Dong* # | | Li Dong* † | | | --- | --- | --- | --- | --- | | Yao Tang1 Tianzhu YeTs | | Yutao Sun18 | Zhifang Sui+ | Furu Weit | | | 1 Microsoft Research | | | | | | + Peking University | | ...
百度推出真·AI相机,拍照存储管理一步到位
量子位· 2025-06-11 16:07
百度AI相机及GenFlow超能搭子2.0系统 - 公司推出"真·AI相机",实现拍照、存储、管理一体化功能,具备即拍即存、智能分类管理、精准检索等特性[1][2][3] - AI相机扩展功能包括美颜修图、物体识别科普、简笔画生成创意涂鸦、办公场景智能扫描/表格转换/翻译等[6][8][10][12] - 支持照片冲洗打印衍生服务,可制作照片书、明信片等实体周边并包邮到家[14] 全模态系统架构与数据规模 - AI相机属于百度网盘与文库联合构建的全模态输入系统组成部分,涵盖键盘、AI麦克风、相机、视频等输入方式[17][19] - 系统处理端搭载自研沧舟OS内容操作系统,具备公私域数据及用户记忆库的全场景处理能力,通过中枢系统实现Agent智能调度[24] - 输出端通过数百项Agent实现文档/图片/视频/PPT等全格式内容端到端交付,支持多任务并行生成[21][30] GenFlow超能搭子2.0核心升级 - 多智能体协作系统升级至2.0版本,可基于用户数据定制个性化内容(如AI绘本人像融合、学习资料专项练习题生成)[22][26] - 新增记忆库挖掘功能,能按用户习惯自动优化任务流程(如成本计算器集成汇率计算)[27] - 支持创作内容实时编辑(PPT/海报/图表)及分钟级高并发交付,灵活性显著提升[29][30] 用户规模与生态协同 - 百度文库AI MAU达9700万,网盘APP MAU超1.5亿,两者协同形成14亿专业内容资源库[18][32] - 系统实现"创编存管"到"找看用享"全流程打通,验证数百项Agent服务能力[31]