Workflow
量子位
icon
搜索文档
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位· 2025-06-12 16:16
视频生成技术评估框架Video-Bench 核心观点 - 视频生成技术革新视觉内容创作方式,高质量视频生成模型重要性凸显[1] - Video-Bench通过模拟人类认知过程建立文本指令与视觉内容的智能评估体系,显著优于现有方法[2][3] - 框架由上海交通大学、斯坦福大学等机构联合开发,采用双维度评估和两项核心技术实现突破[4][7][8] 技术架构创新 - **双维度评估框架**:覆盖视频-条件对齐(对象/动作/颜色/场景一致性)和视频质量(成像/美学/时间/运动质量)[7][10] - **链式查询技术**:通过多轮"描述-提问-验证"流程解决跨模态对齐难题,提升评估相关性9.3%[8][13][22] - **少样本评分技术**:通过多视频对比量化美学评价,成像质量评估相关性从46.1%提升至62.4%[8][15][22] 性能优势 - 视频-条件对齐维度Spearman相关系数0.733,较CompBench显著领先[18] - 对象类别一致性达0.735相关性,较GRiT方法提升56.3%[19] - 评估者间一致性(Krippendorff's α)达0.52,与人类自评水平相当[21] - 抗干扰能力强:添加高斯噪声后评估误差<5%,评分一致性达87%[24] 主流模型测评结果 - **商业模型优势**:Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - **专项能力差异**:CogVideoX视频-文本一致性领先,Gen3成像质量最优[25] - **共性短板**:动作合理性平均仅2.53/3,动态模糊评分3.11/5[26] - **基础模型对比**:GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)表现突出,但版本更新可能引发性能波动[27] 技术实现细节 - 实验验证35,196个视频样本,组合技术使评估稳定性达67%(TARA@3)[22][23] - 框架对不同复杂度提示的评估稳定性优于基线方法32%[24] - 代码与论文已开源,便于行业应用验证[29]
GraphRAG太慢LightRAG延迟高?华东师大新方法一招破解双重难题
量子位· 2025-06-12 16:16
Planing Lab团队 投稿 量子位 | 公众号 QbitAI GraphRAG的索引速度慢,LightRAG的查询延迟高? 这些影响效率的难题,现在终于迎来改进—— 由华东师范大学李翔老师带领的的Planing Lab团队推出高效解决方法 E²GraphRAG 。 该方法在大部分测试中接近了最优的GraphRAG方法。 并且值得关注的是,该方法在构建索引时间上是GraphRAG的 1/10 ,在查询时间上是LightRAG的 1/100 。 | Backbone Model | | | Owen2.5-7B-Instruct | | | Llama3.1-8B-Instruct | | | --- | --- | --- | --- | --- | --- | --- | --- | | Dateset | | NovelOA | InfiniteChoice | InfiniteQA | NovelOA | InfiniteChoice | InfiniteOA | | GraphRAG-L | Met. ↑ | 43.34 | 46.72 | 13.51 | 43.64 | 43.66 | 6.37 ...
Day0迁移、一键部署,华为开源的昇思MindSpore成为大模型开发的“万能钥匙”
量子位· 2025-06-12 16:16
大模型生态现状 - 行业共识认为没有一个大模型能够一统天下[1] - 开发者面临多框架生态下体验主流大模型的技术难题[2] 昇思MindSpore解决方案 - 提供训练Day0迁移能力 仅需极少代码改动即可实现精度和性能无损迁移[3][4] - 推理部署实现一键自动化 支持20+主流大模型开箱即用 百亿参数模型加载时间<30秒[5][23] 核心技术架构 - MSAdapter工具实现跨框架"零损耗"迁移 支持PyTorch脚本直接运行 接口自动转换率>95%[8][9][10] - 动态图多级流水技术提升算子处理速度3-4倍[13] - 自动策略寻优在DeepSeek-V3训练中实现性能提升9.5%[13] - JIT编译技术将常用代码模块化提升执行效率[13] 推理部署创新 - vLLM-MindSpore插件实现HuggingFace模型半小时内完成部署[18] - 千亿参数模型采用三层部署模式 Pangu Pro MoE 72B在Atlas 800I A2上实现1020 tokens/秒吞吐量[19] - 权重加载时间减少80% 图编译延迟压缩至毫秒级[23] 实际应用效果 - DeepSeek-V3案例显示代码变更量<1% 分布式任务仅需调整4行脚本[14] - 保持并行策略时可叠加自研技术实现额外5%性能提升[16] - 已支持DeepSeek/Pangu/Qwen等20+主流模型即插即用[23]
实测豆包1.6,最火玩法all in one!Seedance登顶视频生成榜一,豆包APP全量上线
量子位· 2025-06-12 15:11
豆包大模型1.6系列性能突破 - 豆包大模型1.6系列在推理、数学、多模态能力上进入全球第一梯队[1] - 海淀区高考模拟测试中文理科成绩均突破700分 其中理科较去年提升154分(706分 vs 552分)[2][3] - 主力模型doubao-seed-1.6支持256K上下文 是国内首个支持该长度的思考模型 具备深度思考自适应功能[24] Seedance 1.0 Pro视频模型技术领先 - 文生视频(ELO 1299)和图生视频(ELO 1343)双榜单全球第一 超越Google Veo 3和OpenAI Sora[4][5] - 具备无缝多镜头叙事能力 支持航拍/第一人称/近景等视角切换 生成速度达40秒/5秒视频[38][40][49] - 理解能力突出 可精准还原唐代服饰细节 合理调整人物动作顺序[44][46] 行业定价模式重构 - Seedance 1.0 Pro视频生成成本低至3.67元/5秒 行业最低价[11] - 豆包1.6采用输入长度区间定价 0-32K区间综合成本较1.5版本降低63%[13][14] - 特惠区价格进一步降至0.8元/百万tokens(输入) 与1.0版本持平[16][18] 多模态能力升级 - 新增视频理解功能 可基于视频内容生成朋友圈文案[31] - 具备GUI操作能力 能自主完成酒店预订全流程操作[35][36] - 语音播客模型支持秒级生成双人对话 具备声线模仿等高级功能[51][55] 企业级Agent开发支持 - 推出PromptPilot工具 支持自动优化提示词和badcase修复[61] - 开源veRL强化学习框架 支持LLM基础设施与模块化API集成[63] - AgentKit工具链实现全栈开发支持 可自动化生成研究报告和网站[68][66] 市场表现与行业地位 - 豆包大模型日均tokens使用量达16.4万亿 较发布初期增长137倍[73] - 火山引擎占据中国公有云大模型46.4%市场份额 调用量达114.2万亿tokens[74] - 已服务联想、宝马、奔驰等头部企业 大模型业务成增速最快板块[75][76]
每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率
量子位· 2025-06-12 09:37
核心观点 - 微软研究院与北大联合发布新框架Next-Frame Diffusion (NFD),实现每秒超30帧自回归视频生成,同时保持高质量画面 [1][2] - NFD通过帧内并行采样和帧间自回归方式提升生成效率,在NVIDIA A100 GPU上生成《我的世界》视频仅需0.48秒 [2][4] - 该技术可能改变游戏行业交互方式,玩家可直接与模型交互而无需传统游戏引擎 [3] 技术架构 - NFD采用帧内双向注意力和帧间因果注意力机制建模视频,使用扩散模型多步迭代生成连续Token [21] - 引入块状因果注意力机制的Transformer,将整体计算成本减少50%,支持高效并行预测下一帧所有Token [25][26] - 基于Flow Matching构建训练流程,通过线性插值生成加噪版本并最小化Flow Matching损失 [27] 性能优化 - 通过一致性蒸馏扩展到视频领域,将流匹配模型转换为TrigFlow模型,简化训练过程 [28] - 提出投机采样技术,利用可预测的用户输入并行生成多帧,预测错误时丢弃后续帧重新生成 [30][33] - 310M模型FVD达到212,PSNR为16.46,优于MineWorld(1.2B)的FVD 227和PSNR 15.69 [35] 性能表现 - NFD+加速版本130M和310M模型分别达到42.46FPS和31.14FPS,远超基线 [36] - 310M模型在PSNR上达到16.83,FVD为227,与更大的MineWorld模型表现相当 [37] - 相比此前每秒4-7帧的MineWorld模型,NFD生成速度快了几倍 [15][18] 行业影响 - 视频生成模型在多个领域快速发展,包括Sora、可灵、Veo3等产品及Genie、MineWorld等游戏模拟器 [37] - 该技术为未来世界模型的实现提供重要基础,高效生成范式变得越来越重要 [37] - 可能重塑游戏行业交互模式,实现玩家与模型的直接互动 [3]
小扎“超级智能”小组第一位大佬!谷歌DeepMind首席研究员,“压缩即智能”核心人物
量子位· 2025-06-12 09:37
核心观点 - Meta正在大力推进AGI研发,通过高薪挖角和收购策略快速组建顶尖AI团队 [3][4][23][26] - 公司计划投入150亿美元收购Scale AI以强化数据标注能力,并直接吸纳其创始团队 [3] - 新成立的AGI实验室规模约50人,由CEO亲自领导并参与招聘,提供7-9位数薪酬方案 [25][26][28] 人才招募 - 从谷歌DeepMind挖角首席研究员Jack Rae,其为Gemini模型"思考"模块负责人,曾参与GPT-4开发 [2][7][9][13] - 引进AI语音初创公司Sesame AI的ML主管Johan Schalkwyk [3] - 向OpenAI/谷歌等公司数十名研究员开出200万美元年薪,但面临OpenAI/Anthropic的人才竞争 [28][31][32] 技术布局 - Jack Rae带来"压缩即智能"理论框架,主张AGI应实现有效信息的无损压缩 [13] - 新实验室将改进Llama模型并开发语音/个性化AI工具,目标超越谷歌/OpenAI [23][24] - 近期发布基于视频训练的世界模型V-JEPA 2,显示技术推进速度 [5] 组织架构 - CEO创建"招聘派对"高层群组讨论人才目标,亲自调整总部工位以靠近新团队 [25][27] - 实验室筹建优先级极高,所有成员均为CEO直接招募 [26] - Scale AI团队可能整体并入Meta,28岁华人创始人Alexandr Wang或将加入 [3] 行业背景 - 谷歌DeepMind近期转向大模型推理,Gemini新增"思考程度"控制功能以优化成本 [10][11] - 顶尖AI人才市场竞争白热化,Meta需支付数千万美元股权方案吸引专家 [4][29]
最大的开源GraphRag:知识图谱完全自主构建|港科大&华为
量子位· 2025-06-12 09:37
知识图谱技术突破 - AutoSchemaKG框架实现无需预定义模式的完全自主知识图谱构建 利用大型语言模型直接从文本提取知识三元组并动态归纳模式 显著提升可扩展性和领域适应性[1][7] - 实验证实该系统模式归纳与人类设计模式达到95%语义对齐 已构建ATLAS知识图谱系列包含超9亿节点和59亿边[2][17] - 创新性采用概念化方法 将实体/事件泛化为语义类别 建立跨领域语义桥梁 支持零样本推理并减少知识稀疏性[7][8] 技术实现路径 - 采用三阶段流水线提取实体-实体 实体-事件 事件-事件关系 支持多种大型语言模型并优化GPU加速[9] - 模式归纳阶段通过LLM生成抽象概念短语 整合邻近节点上下文信息增强语义理解 实现自动化类型泛化[11][12] - 计算资源消耗巨大 构建最大规模ATLAS-CC图谱需52,300GPU小时 处理9.373亿节点和59.6亿边[19][20] 性能验证 - 三元组提取质量优异 在ATLAS-Wiki上实体-实体关系F1达94.09% 事件-事件关系F1达96.01%[21][22] - 事件建模效果显著 多项选择题测试中事件级三元组准确率超95% 比实体级保留更丰富信息[23][24] - 多跳问答任务表现突出 与HippoRAG2集成后性能比传统检索方法高12-18% 在MuSiQue数据集EM达31.8%[28][29] 应用优势 - 领域适应性强 ATLAS-Wiki在宗教/哲学领域优势明显 ATLAS-Pes2o在医学/社会科学表现更佳[35] - 法律领域性能提升显著 比无检索基线高4个百分点 远超Freebase等传统知识图谱方法[32][35] - 学术资源转化高效 ATLAS-Pes2o基于Semantic Scholar摘要构建 在技术类任务中验证学术知识迁移价值[17][18]
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
量子位· 2025-06-11 16:07
端到端多模态GUI智能体框架GUI-Reflection 核心观点 - 南洋理工大学MMLab团队提出GUI-Reflection框架,通过"反思与纠错"机制系统性提升多模态GUI智能体的任务执行能力,模拟人类"犯错→反思→重试"的认知闭环[1][6][27] - 框架覆盖预训练、离线监督微调、在线训练三阶段,分别实现反思能力认知启发、行为习得与交互强化[6][11][12] - 实验证明引入反思机制后,8B参数模型在AndroidWorld基准任务成功率提升至34.5%,接近闭源大模型水平[19][22] 技术实现 1 GUI预训练阶段 - 首创GUI-Reflection Task Suite任务套件,分解反思行为为三类核心任务:动作验证(Action Verification)、动作回滚(Action Reversal)、基于错误的再尝试(Mistake-Informed Reattempt)[7][14] - 预训练模型在反思任务中表现显著提升,8B参数模型Action Verification准确率达87.56%,超越Gemini-2.5-Pro的88.22%[16][17] 2 离线监督微调阶段 - 设计自动化数据管道,通过目标扰动生成错误行为(修改原始任务目标)和行为插入模拟失误(向成功轨迹插入无效操作)构建带错轨迹[8][9] - 无需人工标注实现"反思注入",使模型在ScreenSpotv2任务中第三次尝试准确率提升3.62个百分点[17][10] 3 在线训练阶段 - 搭建分布式安卓模拟环境,覆盖11个APP和215个任务模板,支持高并发交互[12] - 采用迭代式反思反馈调优算法,模型通过多轮训练逐步提升容错率,InternVL3-8B模型第三次尝试准确率较初始提升3.71个百分点[17][18] 性能表现 - 在相同8B参数规模下,引入反思机制的GUI-Pretrain-Ref模型较基线GUI-Pretrain模型在Action Reversal任务准确率提升53.1个百分点(93.81% vs 40.71%)[17] - 结合在线反思调优后,模型任务成功率从基线14.58%提升至34.72%,增幅达137%[19] - 在端到端模型对比中,GUI-Reflection-8B以34.5%成功率超越Aguvis-72B(26.1%)和OS-Gensis-8B(16.9%)[22] 行业意义 - 突破当前GUI智能体依赖完美离线演示数据的局限,首次实现持续自我优化的能力[1][20] - 验证小规模模型通过系统化反思机制设计可达到商用级性能,为开源生态提供新范式[16][19] - 建立多模态GUI智能体标准化评估体系,包含动作验证、回滚等量化指标[14][17]
MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
量子位· 2025-06-11 16:07
核心观点 - 微软亚洲研究院联合清华大学和北京大学提出全新预训练范式RPT(强化预训练),将强化学习深度融入预训练阶段,颠覆传统LLM仅通过预测下一个token建立语言能力的机制,推动模型从学习表面token相关性转向理解深层含义[1][3][5] - RPT通过将预训练语料库重构为推理问题集,激励模型生成思维链推理序列后再预测下一个token,并根据前缀匹配奖励(正确预测奖励1,错误为0)更新模型,显著提升预测准确率和推理能力[5][9][12] - 实验表明RPT-14B在多种难度下均实现更高下一个token预测准确率(Easy:45.11 Medium:33.56 Hard:23.75),优于基准模型,并与更大模型R1-Distill-Qwen-32B性能相当,同时在SuperGPQA和MMLU-Pro基准测试零样本评估中表现卓越(SuperGPQA:39.0 MMLU-Pro:71.1)[13][19][20] 技术方法 - RPT采用同策略(on-policy)执行,生成多条包含中间推理步骤和最终预测的思维轨迹,通过前缀匹配奖励验证预测正确性,奖励信号用于鼓励生成准确延续上下文的轨迹[9] - 使用包含4428个竞赛数学问题及答案的OmniMATH数据集,通过计算下一token熵和设定阈值过滤数据,仅保留更难预测的token参与训练[11] - 采用Deepseek-R1-Distill-Qwen-14B作为基础模型,使用GRPO算法和8K训练长度,批大小为256个问题,每个问题采样8个响应[11] 性能表现 - RPT-14B在简单、中等和困难难度上下一个token预测准确率均超过基准模型(标准下一token预测基线R1-Distill-Qwen-14B Easy:41.60 Medium:29.46 Hard:20.43),最高提升幅度达Easy+3.51 Medium+4.10 Hard+3.32[13] - 在跨难度训练计算中表现出清晰幂律缩放(Power-law Scaling),预测准确性随计算增加持续提高且与理论曲线紧密拟合[16] - 在具有可验证答案问题(Skywork-OR1)上,RPT模型经RL微调后推理能力显著增强(RPT-14B Before RL:56.3 After RL:58.3),数据有限时可快速迁移强化推理模式至最终任务[18][19] 行业影响 - OpenAI科学家在GPT-4o中引入部分强化学习运算(o1阶段效果显著),并预计未来某一代模型将完全由RL计算主导,表明强化学习在LLM预训练过程中的应用趋势已获行业巨头认可[27][30] - RPT培养的推理习惯包含高级语义理解和低级文本特征(如假设生成、替代方案考虑及token级细节反思),为提升LLM语言建模能力和复杂推理信号捕捉提供新路径[20][21]
百度推出真·AI相机,拍照存储管理一步到位
量子位· 2025-06-11 16:07
百度AI相机及GenFlow超能搭子2.0系统 - 公司推出"真·AI相机",实现拍照、存储、管理一体化功能,具备即拍即存、智能分类管理、精准检索等特性[1][2][3] - AI相机扩展功能包括美颜修图、物体识别科普、简笔画生成创意涂鸦、办公场景智能扫描/表格转换/翻译等[6][8][10][12] - 支持照片冲洗打印衍生服务,可制作照片书、明信片等实体周边并包邮到家[14] 全模态系统架构与数据规模 - AI相机属于百度网盘与文库联合构建的全模态输入系统组成部分,涵盖键盘、AI麦克风、相机、视频等输入方式[17][19] - 系统处理端搭载自研沧舟OS内容操作系统,具备公私域数据及用户记忆库的全场景处理能力,通过中枢系统实现Agent智能调度[24] - 输出端通过数百项Agent实现文档/图片/视频/PPT等全格式内容端到端交付,支持多任务并行生成[21][30] GenFlow超能搭子2.0核心升级 - 多智能体协作系统升级至2.0版本,可基于用户数据定制个性化内容(如AI绘本人像融合、学习资料专项练习题生成)[22][26] - 新增记忆库挖掘功能,能按用户习惯自动优化任务流程(如成本计算器集成汇率计算)[27] - 支持创作内容实时编辑(PPT/海报/图表)及分钟级高并发交付,灵活性显著提升[29][30] 用户规模与生态协同 - 百度文库AI MAU达9700万,网盘APP MAU超1.5亿,两者协同形成14亿专业内容资源库[18][32] - 系统实现"创编存管"到"找看用享"全流程打通,验证数百项Agent服务能力[31]