机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

机器之心· 2025-10-21 08:15

核心观点 - 开源项目UniVid提出了一个统一模型，旨在将视频理解与视频生成能力融为一体，构建真正通用的统一视频模型 [2][5] 技术方案与创新 - 采用基于适配器（Adapter）的统一架构，在已有多模态大语言模型中插入轻量模块，使其具备视频生成能力，从而共享大部分参数，显著降低训练开销与算力成本 [7][9][13] - 提出模态温度对齐机制（Temperature Modality Alignment），在跨模态注意力层中引入温度系数，动态调节文本与视觉特征的注意力权重，早期加强文本语义引导，后期让视觉特征主导细节优化，有效减少提示偏移 [10][11] - 提出金字塔反射机制（Pyramid Reflection），在视频理解任务中结合Actor-Evaluator-Reflector循环结构，动态选择关键帧并在不同时间尺度上反射信息，以最少的帧实现准确推理，高效捕捉长时域依赖 [12][15][20] 性能表现：视频生成 - 在VBench-Long综合评测中，UniVid以85.27的总分超越所有主流视频生成模型，刷新记录 [16][18] - 在关键维度上表现卓越：时序一致性达99.88，运动平滑度达99.25，语义一致性达80.58，影像质量达73.03，均领先于同级模型 [17][22] - 在语义保真度的细粒度指标上，多对象一致性达77.45，动作一致性达94.20，空间一致性达92.10，场景一致性达80.70 [17] 性能表现：视频理解 - 在视频问答（Video QA）任务中，UniVid在MSVD-QA数据集上准确率达80.1，在ActivityNet-QA数据集上准确率达58.8，均创造新纪录 [24][25] - 在更复杂的长时序视频上展现出卓越的时序推理与语义理解能力 [24] 应用场景 - 视频创作与生成：可用于影视、广告、短视频等内容生产，根据文字脚本或图像提示自动生成连贯且符合语义逻辑的视频 [29] - 视频理解与分析：适用于体育赛事、监控画面、教学视频等场景，能识别动作、人物、事件逻辑并生成精准摘要或问答结果 [30] - 机器人与具身智能：在机器人导航、自动驾驶等系统中，可理解摄像头输入并生成未来场景预测，辅助智能体进行规划与决策 [31][34] - 开源生态与科研价值：代码开源，为研究者和开发者提供了通用底座，可自由使用、复现和二次开发，有助于降低产业界构建视频系统的成本 [35]

视频理解与生成一体化

统一视频模型

Artificial Intelligence

UniVid

视频理解与生成一体化

统一视频模型

Artificial Intelligence

UniVid

ICCV 2025 | 扩散模型生成手写体文本行的首次实战，效果惊艳还开源

机器之心· 2025-10-20 17:15

此前，相关研究团队已接连发表「 SDT 」(CVPR 2023) 和「 One-DM」 ( ECCV 2024 ) 两项与手写文本风格化生成相关的研究成果，机器之心均进行了相关报道。其中「 One-DM」仅凭单张手写样本便能生成与样本风格相似度很高的任意文本。然而，现有的手写文本生成工作普遍关注「字符级」生成，也即只生成一个单词或是汉字，如果要生成一整段文本行，则只能将若干个字符拼接合成在一起。这就像是你在不同纸上写字，把每个字分别裁剪下来，再组合成一行字。这种做法很容易导致字符不对齐，或上或下，或大或小，看起来歪歪扭扭，并不符合人类的书写习惯。那么，如果 AI 写的字和你写的字一模一样，你会作何感想？是迫不及待地生成一套属于自己的字体，还是担心签名信息不再可靠，抑或是可惜这项技术没能早点出现帮你写作业…… 无论如何，这项笔迹模仿的技术的确已日臻成熟。现在，你只需要在纸上写下几个字，AI 就能准确学习并模仿你的笔迹写出任何字。使用 AI 模仿手写文本，不仅能真实再现书写者风格，轻松创造属于用户个人的字体库，也在字体设计、笔迹验证等诸多领域具有广阔的应用前景。今天要介绍的是 DiffBrush ...

太强了！DeepSeek刚刚开源新模型，用视觉方式压缩一切

机器之心· 2025-10-20 17:15

模型发布与核心创新 - DeepSeek开源了名为DeepSeek-OCR的新模型，参数量为3B，上线不久下载量已超过100次[1] - 该模型是光学字符识别模型，旨在通过文本到图像的方法实现近10倍无损上下文压缩[1][3] - 核心创新在于利用视觉模态作为文本信息的高效压缩媒介，通过视觉Token进行光学压缩可实现高压缩率[9] 技术架构与设计 - 模型主要由DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器两大核心组件构成[3][11] - DeepEncoder参数量约为380M，由80M的SAM-base和300M的CLIP-large串联而成，能保持高分辨率输入下的低激活状态[14][15] - 解码器采用3B MoE架构，推理时激活64个路由专家中的6个及2个共享专家，激活参数量约为570M[18] - 编码器将1024×1024图像分割为4096个patch Token，经压缩模块后变为256个Token，实现内存可控[17] 性能表现与压缩效率 - 当压缩率<10×时，模型解码精度可达97%；压缩率达到20×情况下，OCR准确率仍保持在约60%[3][28] - 在OmniDocBench基准测试中，仅使用100个视觉Token就超过了GOT-OCR2.0的表现[5] - 使用不到800个视觉Token时性能优于MinerU2.0，而后者需要近7000个视觉Token[5][32] - 实际生产中，单张A100-40G GPU每天可生成超过20万页LLM/VLM训练数据[5] 应用能力与多模态支持 - 模型支持近100种语言的识别，具备多语言OCR能力[42] - 在深度解析模式下能处理图表、几何图形、化学公式等多种复杂内容[34][40] - 保留通用视觉理解能力，包括图像描述、物体检测等功能[46][48] - 针对不同类型文档需求差异：幻灯片类仅需64个视觉Token，书籍报告类需100个视觉Token即可满足需求[33] 训练方法与数据 - 训练流程分为两个阶段：独立训练DeepEncoder和训练完整DeepSeek-OCR模型[21][23] - 使用20个节点进行训练，纯文本数据训练速度为每天900亿Token，多模态数据为每天700亿Token[25] - 构建了复杂多样的训练数据，包括OCR 1.0数据、OCR 2.0数据以及通用视觉数据[20][23]

视觉 - 文本压缩

长上下文压缩

Artificial Intelligence

DeepSeek-OCR

视觉 - 文本压缩

长上下文压缩

Artificial Intelligence

DeepSeek-OCR

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow，用在线RL微调机器人流匹配策略

机器之心· 2025-10-20 17:15

研究背景与意义 - 流匹配技术是机器人学习领域的热门方向，作为扩散模型的变体，因其简单易用成为机器人底层操作策略的主流手段，并被广泛应用于先进的视觉语言动作模型中 [2] - 除了增加数据多样性，强化学习被视为一种高度有效的方法，可用于进一步增强开源视觉语言动作模型的能力 [2] ReinFlow算法核心原理 - ReinFlow是一个针对常微分方程策略的通用策略梯度算法，其理论基础是基于策略梯度理论推导，将确定性流转换为离散时间马尔可夫过程，从而直接优化整条流匹配链 [4][5][6] - 算法通过向流策略的确定性路径中注入少量可学习的噪声，将其转移过程改回一个随机的扩散过程，使得流匹配的联合概率可以被严格计算出来 [8][9] - 该方法虽然引入噪声改变了流匹配模型的轨迹，但通过将噪声控制到较小范围以减少与预训练策略的偏离，同时为噪声设置强度下限以鼓励适当的探索 [10] 算法性能与效率 - 在D4RL足式运动控制任务中，ReinFlow微调后的Rectified Flow策略取得了平均135.36%的净性能增长 [16] - 与当前的扩散强化学习微调方法DPPO相比，ReinFlow在保持类似性能的同时，可节省82.63%的墙钟时间 [16] - 在长程操作任务中，ReinFlow微调的Shortcut Model策略在4步甚至1步去噪的情况下，比预训练模型平均净增了40.34%的成功率，训练时间平均节省23.20% [18] 应用场景与兼容性 - ReinFlow是一个通用框架，理论上适用于所有常微分方程定义的策略，如Rectified Flow和Shortcut Models，并支持极少步数下的推理 [12] - 该框架成功应用于包含25种不同物品、十余种桌面设置和上百种初始化位姿的高度随机化场景，可大幅提高模型的抓取成功率 [20] - 更新公式可适用于几乎所有强化学习梯度算法，如PPO [12] 技术验证与消融研究 - 实验显示仅靠增加数据或推理步数较快达到性能瓶颈，而强化学习微调能进一步提升性能 [24] - ReinFlow对均匀、Logit-normal和Beta分布等多种时间采样方式都表现良好的性能 [24] - 同时以状态和时间为条件生成噪声，有助于产生更多样化的动作，噪声过小训练会陷入瓶颈，一定阈值后可探索新策略 [24] 开源资源与未来规划 - 项目已全面开源，包含完整代码库、模型检查点、WandB指标和详尽文档 [27] - 未来计划公布更多大型视觉语言模型微调结果，支持用在线强化学习微调Mean Flow，并研究将该方法用于仿真到真实世界的迁移和真机强化学习微调 [29]

突破FHE瓶颈，Lancelot架构实现加密状态下的鲁棒聚合计算，兼顾「隐私保护」与「鲁棒性」

机器之心· 2025-10-20 15:48

在金融、医疗等高度敏感的应用场景中，拜占庭鲁棒联邦学习（BRFL）能够有效避免因数据集中存储而导致的隐私泄露风险，同时防止恶意客户端对模型训练的攻击。然而，即使是在模型更新的过程中，信息泄露的威胁仍然无法完全规避。为了解决这一问题，全同态加密（FHE）技术通过在密文状态下进行安全计算，展现出保护隐私信息的巨大潜力。然而，FHE 的计算效率始终是其最大的瓶颈，尤其在面对高复杂度操作（如排序、聚合）时，计算开销会随着客户端数量和数据规模的增加呈指数级增长，极大地限制了其在实际场景中的应用。针对这一挑战，香港中文大学 AIoT 实验室联合重庆大学、香港城市大学等高校和企业，首次将全同态加密（FHE）与拜占庭鲁棒联邦学习（BRFL）深度融合，提出了全新的 Lancelot 框架。该框架实现了在加密状态下的鲁棒聚合计算，算法优化和硬件加速设计为其高效性提供了保障，有效解决了传统 FHE 计算开销高、复杂聚合规则支持不足以及隐私保护与鲁棒性难以兼顾的问题。论文链接： https://www.nature.com/articles/s42256-025-01107-6 创新点概览 1.掩 ...

拜占庭鲁棒联邦学习（BRFL）

隐私计算

Artificial Intelligence

Artificial Intelligence

Lancelot 框架

全同态加密（FHE）技术

AGILE：视觉学习新范式！自监督+交互式强化学习助力VLMs感知与推理全面提升

机器之心· 2025-10-20 15:48

现有视觉语言大模型（VLMs）在多模态感知和推理任务上仍存在明显短板：1. 对图像中的细粒度视觉信息理解有限，视觉感知和推理能力未被充分激发；2. 强化学习虽能带来改进，但缺乏高质量、易扩展的 RL 数据。 AGILE 提出一种全新的自监督学习范式，将「智能体交互」迁移至多模态大模型的强化学习训练中，通过「模型生成动作代码 + 视觉环境反馈」的循环式交互过程，让模型像人一样边观察、边推理、边学习，从而显著提升模型视觉感知与逻辑推理能力。 Title：Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models Paper：https://arxiv.org/pdf/2510.01304 Project Page：https://yuzeng0-0.github.io/AGILE/ Dataset：https://huggingface.co/datasets/YuZeng260/AGILE Code：https://github.com/yuzeng0- ...

自监督学习范式

交互式强化学习

Artificial Intelligence

Artificial Intelligence

AGILE

视觉语言大模型（VLMs）

Gemini 2.5 Pro

微软BitDistill将LLM压缩到1.58比特：10倍内存节省、2.65倍CPU推理加速

机器之心· 2025-10-20 15:48

大语言模型（LLM）不仅在推动通用自然语言处理方面发挥了关键作用，更重要的是，它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性，但在下游任务中高效部署仍面临重大挑战。随着模型规模的急剧扩大，这些挑战被进一步放大，尤其是在资源受限的设备上（如智能手机），内存占用和计算开销都变得极其昂贵。如图 1 所示，直接对已有的全精度 LLM 进行 1.58 比特量化感知训练（Quantization-Aware Training, QAT）时，在特定下游任务上的训练过程往往不稳定，难以保持原有的性能，并表现出较差的可扩展性：当模型规模从 0.6B 增大到 4B 时，相对于全精度基线的性能差距从 13.9 扩大到 15.3。 | 机器之心报道 | | --- | | 编辑：+0、陈陈 | 为应对这些问题，近期研究提出了极低比特（extreme low-bit）LLM，例如使用 1.58 比特（即三值 {-1, 0, 1}）表示的 BitNet。这种方法旨在显著降低内存占用并加速推理，从而为 LLM 在下游应用中的高效部署提供一条可行途径。然而，要让 1.58 比特的 BitNe ...

小红书RecSys 2025最佳论文提名背后：破解视频时长预测难题

机器之心· 2025-10-20 12:50

小红书推荐系统技术实力获得国际认可 - 小红书推荐算法团队的论文在推荐系统顶会RecSys 2025上获得“最佳论文提名”，该奖项全球仅五篇，标志着其研究成果获得国际学术界与工业界的高度认可[4][6] - 会议期间，小红书展台异常火爆，许多来自北美等地的推荐系统专家用户对其推荐系统给出“业内领先”的高度评价[8][9] - 参会专家分享实际体验，从美国飞抵布拉格后，小红书APP能迅速推送精准的本地内容及同会议参与者的帖子，展现了其精准捕捉用户即时场景与身份的强大能力[9] 论文解决的行业核心难题与创新方案 - 论文瞄准推荐系统中至关重要的基础指标——用户观看时长进行建模，该指标与日活跃用户数高度相关，其信号在小红书视频场景中的覆盖率达100%[23][30] - 小红书业务规模庞大，月活跃用户数从2015年的5000万增长至2024年的3.5亿以上，推荐模型的微小改进会被放大为显著的体验和业务收益[22] - 团队提出的指数-高斯混合网络模型回归问题本质，首次系统性剖析并解决了用户观看行为分布中“粗粒度的偏态性”和“细粒度的多样性”两大长期存在的行业难题[30][31][36] EGMN模型的技术细节与优势 - EGMN模型核心是预测观看时长的完整概率分布参数，而非单一数值，其公式结合了捕捉“快速划走”行为的指数分布和刻画多样化观看模式的高斯混合分布[33][34][35] - 模型采用包含极大似然估计、熵正则化和回归损失的三目标联合优化策略，确保训练稳定且预测精准，被专家盛赞“有一种传统机器学习的美”[34][36] - 论文审稿人给出“Strong Accept”的整体评价，认为论文已非常出色，技术执行可靠，实验验证尤其在线A/B测试结果极具说服力[36][37] EGMN模型的实验验证与实际效果 - 在四个离线数据集上的实验表明，EGMN模型平均绝对误差相对降低14.11%，排序一致性指标相对提升7.76%，全面超越现有最优方法[39] - 在线A/B测试覆盖1500万用户，为期7天，结果显示平均绝对误差降低2.030%，排序一致性指标提升1.260%，关键指标KL散度大幅下降19.94%[40][41] - 消融实验验证了指数分量、高斯分量及各损失函数的有效性，例如移除指数分量会导致平均绝对误差增加3.06%，移除高斯分量则增加2.47%[42] 技术成果的业务影响与公司文化 - EGMN模型的有效性表明，引入合理的先验分布信息可提升现有目标的拟合精度，此通用思路可拓展至电商成交价格预估、广告GMV预估等多种业务场景[45] - 此次顶会成果体现了公司“回归本质”、“务实求真”的技术文化，即不盲从技术热点，而是以分析用户和场景的真实问题为锚点来设计技术演进路径[47] - 公司推荐算法团队正基于此次成功广纳贤才，共同探索推荐算法领域的前沿技术，标志着其技术探索之旅的新开始[47]

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

机器之心· 2025-10-20 12:50

项目主页：https://video-rag.github.io/ 挑战：现有方法为何难以胜任？当前主流方案主要分为两类：更重要的是，两种方法在长时间跨度下的视觉 - 语义对齐上表现有限，往往牺牲效率换取精度，难以兼顾实用性与可扩展性。论文链接：https://arxiv.org/abs/2411.13093 开源代码：https://github.com/Leon1207/Video-RAG-master 尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 —— Video-RAG。该研究已被机器学习顶级会议 NeurIPS 2025 接收，为长视频理解任务提供了全新的解决思路。扩展上下文法（如 LongVA）：依赖大规模长视频 - 文本配对数据进行微调，训练成本高且数据稀缺；智能体驱动法（如 VideoAgent）：通过任务分解与外部代理决策增强推理，但频繁调用 ...

长视频理解

多模态辅助文本检索增强生成（RAG）

Artificial Intelligence

Artificial Intelligence

Video-RAG

LVLM（视觉语言模型）

GPT - 4o

Codeforces难题不够刷？谢赛宁等造了个AI出题机，能生成原创编程题

机器之心· 2025-10-20 12:50

随着大型语言模型（LLM）朝着通用能力迈进，并以通用人工智能（AGI）为最终目标，测试其生成问题的能力也正变得越来越重要。尤其是在将 LLM 应用于高级编程任务时，因为未来 LLM 编程能力的发展和经济整合将需要大量的验证工作。首先，为编程竞赛出题需要比解决问题更深刻的算法理解。例如，基础问题可能会被归结为可识别的模板，用简单的技巧就能解决；许多标准的编程问题也常常允许提交部分正确或样板化的解决方案，这可能会掩盖错误的推理过程。而竞赛编程问题有着严格的标准，旨在评估对底层算法设计原则、数据结构和复杂性权衡的更深层次理解。验证数量庞大的可能解法，并充分覆盖各种捷径或边界情况是极具挑战性的，但这对于竞赛编程问题而言是必需的。因此，出题不仅包含了解决问题的所有挑战，甚至还超越了它。其次，更好的出题能力将带来更严谨的竞赛编程基准测试。由于像 Codeforces 和 AtCoder 这类顶级平台的官方测试数据并不公开，研究人员目前依赖于合成的数据集，如 CodeContests+、TACO 和 HardTests。然而，分析表明，现有的测试数据集可能同时存在高误报率（FPR）和高漏报率（F ...