Workflow
机器之心
icon
搜索文档
告别「偏科」,UniVid实现视频理解与生成一体化
机器之心· 2025-10-21 08:15
核心观点 - 开源项目UniVid提出了一个统一模型,旨在将视频理解与视频生成能力融为一体,构建真正通用的统一视频模型 [2][5] 技术方案与创新 - 采用基于适配器(Adapter)的统一架构,在已有多模态大语言模型中插入轻量模块,使其具备视频生成能力,从而共享大部分参数,显著降低训练开销与算力成本 [7][9][13] - 提出模态温度对齐机制(Temperature Modality Alignment),在跨模态注意力层中引入温度系数,动态调节文本与视觉特征的注意力权重,早期加强文本语义引导,后期让视觉特征主导细节优化,有效减少提示偏移 [10][11] - 提出金字塔反射机制(Pyramid Reflection),在视频理解任务中结合Actor-Evaluator-Reflector循环结构,动态选择关键帧并在不同时间尺度上反射信息,以最少的帧实现准确推理,高效捕捉长时域依赖 [12][15][20] 性能表现:视频生成 - 在VBench-Long综合评测中,UniVid以85.27的总分超越所有主流视频生成模型,刷新记录 [16][18] - 在关键维度上表现卓越:时序一致性达99.88,运动平滑度达99.25,语义一致性达80.58,影像质量达73.03,均领先于同级模型 [17][22] - 在语义保真度的细粒度指标上,多对象一致性达77.45,动作一致性达94.20,空间一致性达92.10,场景一致性达80.70 [17] 性能表现:视频理解 - 在视频问答(Video QA)任务中,UniVid在MSVD-QA数据集上准确率达80.1,在ActivityNet-QA数据集上准确率达58.8,均创造新纪录 [24][25] - 在更复杂的长时序视频上展现出卓越的时序推理与语义理解能力 [24] 应用场景 - 视频创作与生成:可用于影视、广告、短视频等内容生产,根据文字脚本或图像提示自动生成连贯且符合语义逻辑的视频 [29] - 视频理解与分析:适用于体育赛事、监控画面、教学视频等场景,能识别动作、人物、事件逻辑并生成精准摘要或问答结果 [30] - 机器人与具身智能:在机器人导航、自动驾驶等系统中,可理解摄像头输入并生成未来场景预测,辅助智能体进行规划与决策 [31][34] - 开源生态与科研价值:代码开源,为研究者和开发者提供了通用底座,可自由使用、复现和二次开发,有助于降低产业界构建视频系统的成本 [35]
ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源
机器之心· 2025-10-20 17:15
此前,相关研究团队已接连发表「 SDT 」(CVPR 2023) 和「 One-DM」 ( ECCV 2024 ) 两项与手写文本风格化生成相关的研究成果,机器之心均进行了相关报道。 其中「 One-DM」仅凭单张手写样本便能生成与样本风格相似度很高的任意文本。 然而,现有的手写文本生成工作普遍关注「 字符级」生成,也即只生成一个单词或是汉字,如果要生成一整段文本行,则只能将若干个字符拼接合成在一起。这 就像是你在不同纸上写字,把每个字分别裁剪下来,再组合成一行字。这种做法很容易导致字符不对齐,或上或下,或大或小,看起来歪歪扭扭,并不符合人类 的书写习惯。 那么,如果 AI 写的字和你写的字一模一样,你会作何感想?是迫不及待地生成一套属于自己的字体,还是担心签名信息不再可靠,抑或是可惜这项技术没能早点 出现帮你写作业…… 无论如何,这项笔迹模仿的技术的确已日臻成熟。现在,你只需要在纸上写下几个字,AI 就能准确学习并模仿你的笔迹写出任何字。使用 AI 模仿手写文本,不仅 能真实再现书写者风格,轻松创造属于用户个人的字体库,也在字体设计、笔迹验证等诸多领域具有广阔的应用前景。 今天要介绍的是 DiffBrush ...
太强了!DeepSeek刚刚开源新模型,用视觉方式压缩一切
机器之心· 2025-10-20 17:15
模型发布与核心创新 - DeepSeek开源了名为DeepSeek-OCR的新模型,参数量为3B,上线不久下载量已超过100次[1] - 该模型是光学字符识别模型,旨在通过文本到图像的方法实现近10倍无损上下文压缩[1][3] - 核心创新在于利用视觉模态作为文本信息的高效压缩媒介,通过视觉Token进行光学压缩可实现高压缩率[9] 技术架构与设计 - 模型主要由DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器两大核心组件构成[3][11] - DeepEncoder参数量约为380M,由80M的SAM-base和300M的CLIP-large串联而成,能保持高分辨率输入下的低激活状态[14][15] - 解码器采用3B MoE架构,推理时激活64个路由专家中的6个及2个共享专家,激活参数量约为570M[18] - 编码器将1024×1024图像分割为4096个patch Token,经压缩模块后变为256个Token,实现内存可控[17] 性能表现与压缩效率 - 当压缩率<10×时,模型解码精度可达97%;压缩率达到20×情况下,OCR准确率仍保持在约60%[3][28] - 在OmniDocBench基准测试中,仅使用100个视觉Token就超过了GOT-OCR2.0的表现[5] - 使用不到800个视觉Token时性能优于MinerU2.0,而后者需要近7000个视觉Token[5][32] - 实际生产中,单张A100-40G GPU每天可生成超过20万页LLM/VLM训练数据[5] 应用能力与多模态支持 - 模型支持近100种语言的识别,具备多语言OCR能力[42] - 在深度解析模式下能处理图表、几何图形、化学公式等多种复杂内容[34][40] - 保留通用视觉理解能力,包括图像描述、物体检测等功能[46][48] - 针对不同类型文档需求差异:幻灯片类仅需64个视觉Token,书籍报告类需100个视觉Token即可满足需求[33] 训练方法与数据 - 训练流程分为两个阶段:独立训练DeepEncoder和训练完整DeepSeek-OCR模型[21][23] - 使用20个节点进行训练,纯文本数据训练速度为每天900亿Token,多模态数据为每天700亿Token[25] - 构建了复杂多样的训练数据,包括OCR 1.0数据、OCR 2.0数据以及通用视觉数据[20][23]
NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略
机器之心· 2025-10-20 17:15
研究背景与意义 - 流匹配技术是机器人学习领域的热门方向,作为扩散模型的变体,因其简单易用成为机器人底层操作策略的主流手段,并被广泛应用于先进的视觉语言动作模型中 [2] - 除了增加数据多样性,强化学习被视为一种高度有效的方法,可用于进一步增强开源视觉语言动作模型的能力 [2] ReinFlow算法核心原理 - ReinFlow是一个针对常微分方程策略的通用策略梯度算法,其理论基础是基于策略梯度理论推导,将确定性流转换为离散时间马尔可夫过程,从而直接优化整条流匹配链 [4][5][6] - 算法通过向流策略的确定性路径中注入少量可学习的噪声,将其转移过程改回一个随机的扩散过程,使得流匹配的联合概率可以被严格计算出来 [8][9] - 该方法虽然引入噪声改变了流匹配模型的轨迹,但通过将噪声控制到较小范围以减少与预训练策略的偏离,同时为噪声设置强度下限以鼓励适当的探索 [10] 算法性能与效率 - 在D4RL足式运动控制任务中,ReinFlow微调后的Rectified Flow策略取得了平均135.36%的净性能增长 [16] - 与当前的扩散强化学习微调方法DPPO相比,ReinFlow在保持类似性能的同时,可节省82.63%的墙钟时间 [16] - 在长程操作任务中,ReinFlow微调的Shortcut Model策略在4步甚至1步去噪的情况下,比预训练模型平均净增了40.34%的成功率,训练时间平均节省23.20% [18] 应用场景与兼容性 - ReinFlow是一个通用框架,理论上适用于所有常微分方程定义的策略,如Rectified Flow和Shortcut Models,并支持极少步数下的推理 [12] - 该框架成功应用于包含25种不同物品、十余种桌面设置和上百种初始化位姿的高度随机化场景,可大幅提高模型的抓取成功率 [20] - 更新公式可适用于几乎所有强化学习梯度算法,如PPO [12] 技术验证与消融研究 - 实验显示仅靠增加数据或推理步数较快达到性能瓶颈,而强化学习微调能进一步提升性能 [24] - ReinFlow对均匀、Logit-normal和Beta分布等多种时间采样方式都表现良好的性能 [24] - 同时以状态和时间为条件生成噪声,有助于产生更多样化的动作,噪声过小训练会陷入瓶颈,一定阈值后可探索新策略 [24] 开源资源与未来规划 - 项目已全面开源,包含完整代码库、模型检查点、WandB指标和详尽文档 [27] - 未来计划公布更多大型视觉语言模型微调结果,支持用在线强化学习微调Mean Flow,并研究将该方法用于仿真到真实世界的迁移和真机强化学习微调 [29]
突破FHE瓶颈,Lancelot架构实现加密状态下的鲁棒聚合计算,兼顾「隐私保护」与「鲁棒性」
机器之心· 2025-10-20 15:48
在金融、医疗等高度敏感的应用场景中, 拜占庭鲁棒联邦学习(BRFL) 能够有效避免因数据集中存储而导致的隐私泄露风险,同时防止恶意客户端对模型训练 的攻击。然而,即使是在模型更新的过程中,信息泄露的威胁仍然无法完全规避。为了解决这一问题, 全同态加密(FHE)技术通过在密文状态下进行安全计 算, 展现出保护隐私信息的巨大潜力。 然而,FHE 的计算效率始终是其最大的瓶颈,尤其在面对高复杂度操作(如排序、聚合)时, 计算开销会随着客户端数量和数据规模的增加呈指数级增长, 极大 地限制了其在实际场景中的应用。 针对这一挑战, 香港中文大学 AIoT 实验室联合重庆大学、香港城市大学等高校和企业, 首次将 全同态加密(FHE)与拜占庭鲁棒联邦学习(BRFL)深度融 合,提出了全新的 Lancelot 框架。 该框架实现了在加密状态下的鲁棒聚合计算,算法优化和硬件加速设计为其高效性提供了保障,有效解决了传统 FHE 计算开销 高、复杂聚合规则支持不足以及隐私保护与鲁棒性难以兼顾的问题。 论文链接: https://www.nature.com/articles/s42256-025-01107-6 创新点概览 1.掩 ...
AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升
机器之心· 2025-10-20 15:48
现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化 学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。 AGILE 提出一种全新的自监督学习范式,将「智能体交互」迁移至多模态大模型的强化学习训练中,通过「模型生成动作代码 + 视觉环境反馈」的循环式交互过 程,让模型像人一样边观察、边推理、边学习,从而显著提升模型视觉感知与逻辑推理能力。 Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models Paper:https://arxiv.org/pdf/2510.01304 Project Page:https://yuzeng0-0.github.io/AGILE/ Dataset:https://huggingface.co/datasets/YuZeng260/AGILE Code:https://github.com/yuzeng0- ...
微软BitDistill将LLM压缩到1.58比特:10倍内存节省、2.65倍CPU推理加速
机器之心· 2025-10-20 15:48
大语言模型(LLM)不仅在推动通用自然语言处理方面发挥了关键作用,更重要的是,它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性,但在下游任务中高效部署仍面临重大挑战。随着模型规模的急剧扩大,这些挑战被进一步放大,尤其是在资源受限的设备上(如智能手 机),内存占用和计算开销都变得极其昂贵。 如图 1 所示,直接对已有的全精度 LLM 进行 1.58 比特量化感知训练(Quantization-Aware Training, QAT)时,在特定下游任务上的训练过程往往不稳定,难以保 持原有的性能,并表现出较差的可扩展性:当模型规模从 0.6B 增大到 4B 时,相对于全精度基线的性能差距从 13.9 扩大到 15.3。 | 机器之心报道 | | --- | | 编辑:+0、陈陈 | 为应对这些问题,近期研究提出了极低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。这种方法旨在显著降低内存占用并加 速推理,从而为 LLM 在下游应用中的高效部署提供一条可行途径。 然而,要让 1.58 比特的 BitNe ...
小红书RecSys 2025最佳论文提名背后:破解视频时长预测难题
机器之心· 2025-10-20 12:50
小红书推荐系统技术实力获得国际认可 - 小红书推荐算法团队的论文在推荐系统顶会RecSys 2025上获得“最佳论文提名”,该奖项全球仅五篇,标志着其研究成果获得国际学术界与工业界的高度认可[4][6] - 会议期间,小红书展台异常火爆,许多来自北美等地的推荐系统专家用户对其推荐系统给出“业内领先”的高度评价[8][9] - 参会专家分享实际体验,从美国飞抵布拉格后,小红书APP能迅速推送精准的本地内容及同会议参与者的帖子,展现了其精准捕捉用户即时场景与身份的强大能力[9] 论文解决的行业核心难题与创新方案 - 论文瞄准推荐系统中至关重要的基础指标——用户观看时长进行建模,该指标与日活跃用户数高度相关,其信号在小红书视频场景中的覆盖率达100%[23][30] - 小红书业务规模庞大,月活跃用户数从2015年的5000万增长至2024年的3.5亿以上,推荐模型的微小改进会被放大为显著的体验和业务收益[22] - 团队提出的指数-高斯混合网络模型回归问题本质,首次系统性剖析并解决了用户观看行为分布中“粗粒度的偏态性”和“细粒度的多样性”两大长期存在的行业难题[30][31][36] EGMN模型的技术细节与优势 - EGMN模型核心是预测观看时长的完整概率分布参数,而非单一数值,其公式结合了捕捉“快速划走”行为的指数分布和刻画多样化观看模式的高斯混合分布[33][34][35] - 模型采用包含极大似然估计、熵正则化和回归损失的三目标联合优化策略,确保训练稳定且预测精准,被专家盛赞“有一种传统机器学习的美”[34][36] - 论文审稿人给出“Strong Accept”的整体评价,认为论文已非常出色,技术执行可靠,实验验证尤其在线A/B测试结果极具说服力[36][37] EGMN模型的实验验证与实际效果 - 在四个离线数据集上的实验表明,EGMN模型平均绝对误差相对降低14.11%,排序一致性指标相对提升7.76%,全面超越现有最优方法[39] - 在线A/B测试覆盖1500万用户,为期7天,结果显示平均绝对误差降低2.030%,排序一致性指标提升1.260%,关键指标KL散度大幅下降19.94%[40][41] - 消融实验验证了指数分量、高斯分量及各损失函数的有效性,例如移除指数分量会导致平均绝对误差增加3.06%,移除高斯分量则增加2.47%[42] 技术成果的业务影响与公司文化 - EGMN模型的有效性表明,引入合理的先验分布信息可提升现有目标的拟合精度,此通用思路可拓展至电商成交价格预估、广告GMV预估等多种业务场景[45] - 此次顶会成果体现了公司“回归本质”、“务实求真”的技术文化,即不盲从技术热点,而是以分析用户和场景的真实问题为锚点来设计技术演进路径[47] - 公司推荐算法团队正基于此次成功广纳贤才,共同探索推荐算法领域的前沿技术,标志着其技术探索之旅的新开始[47]
轻量高效,即插即用:Video-RAG为长视频理解带来新范式
机器之心· 2025-10-20 12:50
项目主页:https://video-rag.github.io/ 挑战:现有方法为何难以胜任? 当前主流方案主要分为两类: 更重要的是,两种方法在长时间跨度下的视觉 - 语义对齐上表现有限,往往牺牲效率换取精度,难以兼顾实用性与可扩展性。 论文链接:https://arxiv.org/abs/2411.13093 开源代码:https://github.com/Leon1207/Video-RAG-master 尽管视觉语言模型(LVLMs)在图像与短视频理解中已取得显著进展,但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对 齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题,厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 —— Video-RAG。该研究已被机器学习顶级会议 NeurIPS 2025 接收,为长视频理解任务提供了全新的解决思路。 扩展上下文法 (如 LongVA):依赖大规模长视频 - 文本配对数据进行微调,训练成本高且数据稀缺; 智能体驱动法 (如 VideoAgent):通过任务分解与外部代理决策增强推理,但频繁调用 ...
Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题
机器之心· 2025-10-20 12:50
随着大型语言模型(LLM)朝着通用能力迈进,并以通用人工智能(AGI)为最终目标,测试其生成问题的能力也正变得越来越重要。尤其是在将 LLM 应用于高 级编程任务时,因为未来 LLM 编程能力的发展和经济整合将需要大量的验证工作。 首先, 为编程竞赛出 题需要 比解决问题更深刻的算法理解 。 例如,基础问题可能会被归结为可识别的模板,用简单的技巧就能解决;许多标准的编程问题也常常允许提交部分正确或样板化的解决方案,这可能会掩盖错误 的推理过程。而竞赛编程问题有着严格的标准,旨在评估对底层算法设计原则、数据结构和复杂性权衡的更深层次理解。验证数量庞大的可能解法,并充分覆盖 各种捷径或边界情况是极具挑战性的,但这对于竞赛编程问题而言是必需的。因此,出题不仅包含了解决问题的所有挑战,甚至还超越了它。 其次, 更好的出题能力将带来更严谨的竞赛编程基准测试 。由于像 Codeforces 和 AtCoder 这类顶级平台的官方测试数据并不公开,研究人员目前依赖于合成的数 据集,如 CodeContests+、TACO 和 HardTests。 然而,分析表明,现有的测试数据集可能同时存在高误报率(FPR)和高漏报率(F ...