Workflow
机器之心
icon
搜索文档
EmbodiChain开源,用100%生成式数据自动训练具身智能模型
机器之心· 2026-01-20 15:16
行业背景与核心瓶颈 - 大语言模型遵循Scaling Law,但该定律在机器人/具身智能领域失效,核心瓶颈在于高质量交互数据的极度稀缺与昂贵[1] - 行业数据采集范式正朝着更低成本、更便捷的方向演进,从昂贵遥操设备发展到无需佩戴手套、仅凭双手演示的方案[2] - 然而,即使是最极致的物理采集效率,仍受限于物理时间和人力成本,无法匹配大语言模型训练所需的“互联网级”数据规模,这成为具身智能发展的最大桎梏[3] 核心理论:效率定律 - 跨维智能团队提出,在具身智能中,一个被忽视的关键变量是**数据生成的速率**,智能的进化存在一个“逃逸速度”[5][6] - 在大语言模型时代,数据是“存量”,重在清洗;在具身智能时代,数据必须是“增量”,必须具备“创造”数据的能力[7] - 当数据生成速率太慢时,模型参数再大也无济于事;只有当数据生成速率超过临界值,数据像自来水一样源源不断时,模型性能才会随参数量增加而线性释放[8] - 突破瓶颈的关键在于构建一个能够**超高速、自动化生成物理现实的数字世界**,即生成式仿真世界模型[9] 解决方案:EmbodiChain平台 - 跨维智能开源了EmbodiChain,作为通往生成式仿真世界模型的基石,它旨在重构具身智能的学习范式[13] - EmbodiChain的核心假设是:仅凭100%的生成式仿真数据,只要生成速率突破临界点,机器人就能在真实世界中涌现出超越当前最优水平的泛化能力[13] - EmbodiChain的本质是一台将数据生成速率拉满的数据和模型制造引擎,开启了具有物理真实性的数据的批量制造,不再依赖对真实世界的有限采样[15] 三大核心科学难题与攻克 - **难题一:数据生产自动化**。需解决如何仅凭少量先验就在数字世界中自动重建、生成海量且物理一致的场景与任务[16] - **难题二:打破“虚实鸿沟”**。需解决如何在不依赖或尽量少依赖真实数据微调的情况下,让模型习得适应真实世界噪声与动态变化的鲁棒策略[16] - **难题三:突破数据生成的“IO墙”**。训练需要亿级甚至十亿级的交互步数,需构建极致高效的数据流转机制,实现“在线数据流”,摒弃传统的“生成-存储-读取-训练”低效模式[16][18] - EmbodiChain作为去存储化的数字化流水线,通过**在线数据流**和模型自动生产线,让数据在生成的同时即被消费,无需落地存储,只在GPU内部高速运转,训练完即销毁[19][20][22] 技术路线对比与优势 - 当前存在两条路线:**视频生成路线**与**基于生成式仿真的世界模型路线**[24] - 视频生成路线存在“幻觉”问题,生成的画面缺乏长程时空一致性,且难以精确遵循动力学方程,不适合用于训练机器人[24] - EmbodiChain选择的是**基于生成式仿真的世界模型路线**,其理念是对世界状态进行预测与规划,符合物理规律[25][26] - 该路线的关键优势包括:**物理先验**(坚持3D、交互式、物理严谨的世界模型)和**特权信息**(通过让模型预测真实世界中不可见的精确掩码、空间关系等信息,迫使模型理解场景的几何本质)[30] 验证结果与核心能力 - 跨维智能进行了极端测试:**不使用任何真实数据训练模型**[27] - 训练出的Sim2Real-VLA模型在真实世界任务的操作成功率上,大幅领先ACT、Diffusion Policy等主流方法,展现了惊人的鲁棒性[28][38] - 即使更换桌布、移动物体、改变光照,模型依然表现稳定,甚至在某些任务中,由于去除了真实数据中易过拟合的背景噪声,表现比用真实数据训练更好[31] - EmbodiChain平台的核心能力体现在:**世界生成**(从极少真实样本提取先验,自动构建符合物理规律的3D场景)、**数据扩增**(自动进行视觉增强、物理参数随机化,并剔除无效采样)、**自我修复**(当仿真中失败时,系统自动生成修正轨迹,形成“失败-修正”的闭环学习)[29] 未来愿景 - EmbodiChain的开源只是一个开始,其愿景是成为每一位具身智能研究者的基础设施,让研究者无需再为采集几千条数据而进行繁重的遥操作,也无需为几十TB的硬盘存储发愁[34] - 未来的GS-World蓝图是一个引擎驱动的闭环路径,不仅环境与任务是生成的,机器人的策略和身体结构也会随着任务需求协同进化[39] - 最终目标是推动具身智能抵达“效率奇点”,让智能的未来不再受困于数据的匮乏[35][36]
TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法
机器之心· 2026-01-20 12:51
研究背景与问题定义 - 以SAM和SAM2为代表的视觉基础模型缺乏“上下文分割”能力,即无法仅凭一张带掩码的参考示例图像,在查询图像中自动分割出同类目标 [5] - 现有的少样本学习方法泛化能力有限,而SegGPT等通用模型计算资源消耗巨大,现有的SAM适配方法未能充分利用其提示编码器特征和背景信息,导致提示精度不足 [5] - 视频领域的上下文分割研究尚属空白,缺乏评估“基于参考示例进行视频分割”能力的专用基准 [6] 解决方案:DC-SAM框架 - 研究团队提出了DC-SAM统一高效框架,旨在通过提示微调技术,将SAM与SAM2的能力迁移至图像和视频的上下文分割任务 [6] - 框架核心由三部分组成:基于SAM的特征融合、正负双分支循环一致性提示生成、面向视频的Mask-tube训练策略 [14] - 特征融合策略将骨干网络特征、SAM图像编码器特征及参考掩码加权特征进行拼接融合,以弥合“语义鸿沟”,提供更适配SAM的输入 [17][18] - 正负双分支结构分别利用前景和背景掩码生成提示,并引入循环一致性交叉注意力机制,通过偏置项屏蔽语义不一致的匹配,防止“语义漂移”,确保生成高精度提示 [20][21][22] - 通过轻量级的Mask-tube训练策略,将静态图像堆叠为伪视频序列以模拟时序变化,使模型能无缝处理视频任务 [25] 创新基准:IC-VOS数据集 - 研究团队构建了首个视频上下文分割基准IC-VOS,旨在全面衡量模型在视频上下文中基于示例学习的能力 [6][9] - 该数据集填补了现有VOS数据集侧重于首帧追踪、而Few-shot图像数据集丢失时间维度的空白 [10] - IC-VOS涵盖了极小目标分割、快速运动变形及复杂背景融合等极其丰富的挑战性场景 [10] 性能评估与实验结果 - 在图像上下文分割基准COCO-20上,基于DINOv2的DC-SAM取得了62.0 mIoU的平均成绩,相比使用海量图文对训练的通用模型SegGPT(56.1 mIoU)实现了近6%的性能反超 [27] - 在同等ResNet50骨干网络下,DC-SAM在COCO-20上超越了现有最强的SAM适配方法VRP-SAM达1.6% [27] - 在Pascal-5基准上,DC-SAM取得了73.0 mIoU的平均成绩 [28] - 在首创的视频基准IC-VOS上,DC-SAM取得了71.52的J&F得分,以6.4%的显著优势超越了VRP-SAM [28] - 可视化分析表明,DC-SAM在图像任务中对复杂结构和细粒度特征捕捉能力强,在视频任务中能有效抑制语义漂移,实现稳健的目标锁定与追踪 [29][30] 研究意义与应用前景 - DC-SAM为视觉大模型的落地应用,尤其是在需要高效、自动处理海量视频数据的工业与科研领域,提供了极具竞争力的解决方案 [32] - 该研究已被IEEE TPAMI期刊录用 [3]
一周对战2500万局,这些「AI假人」让人类游戏玩家破防了
机器之心· 2026-01-20 12:51
文章核心观点 - 巨人网络旗下游戏《超自然行动组》成功将AI大模型深度融入核心对局玩法,创造了能实时博弈、欺骗玩家的AI假人,成为国内首个在大DAU游戏中实现AI规模化落地的产品,为游戏行业探索AI原生玩法提供了可行样本 [8][11][14][17][24] AI在游戏行业的应用现状 - AI在游戏行业应用广泛,涵盖美术资产生成、实时匹配、难度控制、NPC扮演等,但绝大多数应用仍处于“安全区”,工具属性明显,与核心玩法分离 [10][11] - 当前大多数AI与游戏的结合探索仍停留在用户量较小的产品或测试环境,难以保证在高并发、大DAU真实场景下的系统稳定性,导致厂商态度普遍保守 [11] 《超自然行动组》的AI创新实践 - 游戏新玩法接入了AI大模型,AI假人可实时语音交流、模仿队友音色、进行欺骗(如将玩家引入埋伏),并能跳舞、帮助打怪、假装合作后反水 [3] - 新玩法上线后引发社区热潮,抖音、小红书等平台涌现大量相关视频,上线一周AI就参与了近2500万场对局 [4][7] - AI假人被设计为必须认真对待的博弈对象,会根据玩家警惕程度、距离等因素动态决定行动策略,使体验从“背板过关”变为“斗智斗勇” [13] - AI假人也被设计为“懂分寸的队友”,知道何时互动、何时安静,并通过跳舞、表情、调侃等行为增强沉浸感而不抢戏 [13] - AI假人的行为直接影响对局胜负(如帮助携带道具或携带物资逃跑、引路找到珍宝或带入死胡同、抢夺玩家物资),使其成为核心玩法的一部分,而不仅仅是辅助模块 [13][14] - 由于AI假人可高度模仿真人并懂得欺骗,为对局带来了巨大的不确定性和紧张感,许多玩家初期无法分辨其是真人还是AI [14] 实现AI深度整合的技术与设计 - 公司联合阿里云、火山引擎、腾讯云,在模型适配、实时推理、高并发稳定性上反复打磨,使系统能在高并发场景下稳定运行 [7][14] - 采用“规则框架 + 大模型决策”的混合架构:规则层划定行为边界,大模型在边界内基于实时局势做出自主判断,使AI反应具有临场感 [16] - AI假人能保持“言行一致”,其语音与行为绑定,并能记住短期对话上下文,从而让玩家感觉它是“队友”而非“会说话的NPC” [16] - AI能理解玩家意图(如“带我去找大金”),结合环境做出决策,过程中会犯小错并自我调整,使其行为更贴近真人 [16] 巨人网络的AI战略与积累 - 公司是国内最早、最系统化将AI视为“核心业务”的游戏厂商之一:2022年成立AI实验室,2023年将AI写入研发管线,2024年拿下国内首张“游戏垂直大模型”备案,2025年投资了AI图像平台LiblibAI和AI视频生成公司爱诗科技 [19] - 此前已在社交推理游戏《太空杀》中成功探索AI原生玩法(如“AI推理小剧场”),相关玩法累计吸引数百万玩家参与,产生数千万对局,为AI规模化应用积累了经验 [19] - 《超自然行动组》由一支年轻团队负责,该游戏于2025年暑期冲进iOS畅销榜Top 10,并将AI大模型带入核心对局,标志着公司多年AI投入开始兑现 [20] 对行业顾虑的回应与未来意义 - GDC数据显示,认为“AI会给游戏行业带来消极影响”的玩家比例从2024年的18%上升至2025年的30% [23] - 《超自然行动组》的实践表明,玩家反感的并非AI本身,而是被工具化、破坏体验的AI;当AI真正参与博弈并成为风险与刺激的来源时,反而可能被接受甚至欢迎 [23] - 该产品的成功验证了AI深度参与核心玩法的可行性,其意义在于打开了一条新的内容生产路径:AI成为内容生成与博弈本身的一部分,使每一局都能产生新变化,这可能是游戏行业下一个真正的增长空间 [24]
机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务
机器之心· 2026-01-19 16:54
研究背景:家用机器人执行家务任务的三大核心挑战 - 传统家用移动操作机器人存在三大关键问题,导致其无法有效完成家务[4] - 卡点1:机器人仅能理解物体的空间位置关系,但无法理解其功能关系,例如知道窗户在书桌右边,却不知道把手能控制开关[5] - 卡点2:传统模型将场景视为静态图片,无法动态感知和更新物体状态的变化,例如转动把手后仍认为窗户处于锁定状态[6] - 卡点3:过去的AI模型在规划任务步骤时,会遗漏关键的前提条件,例如规划“烧开水”任务时可能漏掉“插电源”这一必要步骤[7] 突破思路:MomaGraph的“先图后规划”创新框架 - 研究团队提出“Graph-then-Plan”(先图后规划)的核心思路,通过构建“任务导向的场景图”来指导机器人执行任务[9] - MomaGraph场景图的核心特性在于统一了空间关系与功能关系,并能动态更新物体状态,同时紧扣任务需求,过滤无关信息[11][12] - 该方法与传统“看到图片直接猜步骤”的模式形成鲜明对比,使机器人能像人类一样,先理解环境中的“有什么、怎么用、状态如何”,再进行步骤规划[12] 研究方法:从数据到硬件的全链条技术方案 - 为实现MomaGraph落地,研究团队构建了包含数据集、模型、基准测试和真实机器人的完整技术体系[13] - 第一步:构建了MomaGraph-Scenes数据集作为训练素材库,包含6278张多视角家庭照片和1050个任务场景图,覆盖350多个家庭场景和93种任务[15][17] - 第二步:基于70亿参数的Qwen-2.5-VL-7B视觉语言模型,通过强化学习训练出MomaGraph-R1模型,其核心能力是生成精简有用的任务场景图[17][18] - 第三步:设计了MomaGraph-Bench基准测试,包含6种能力测试和4个难度等级,以全面评估机器人能力[20] - 关键一步:选择星动纪元星动Q5轮式人形机器人作为硬件载体,其双臂、移动底座和多视角相机等硬件优势,使MomaGraph技术得以在真实家庭场景中执行[14][22][29] 研究结论:MomaGraph技术显著提升机器人任务执行能力 - 在MomaGraph-Bench基准测试中,MomaGraph-R1模型的整体准确率达到71.6%,比当前最好的开源模型LLaVA-OneVision高出11.4%[26] - 与GPT-5等闭源大模型相比,MomaGraph-R1在规划任务时能100%覆盖关键前提步骤,避免了遗漏“插电源”等错误[26] - 实验证明,同时考虑“空间+功能”关系的统一版模型,在复杂任务(Tier 4)上的准确率达68.1%,显著高于仅看功能(59.0%)或仅看空间(45.4%)的版本[28] - 在真实机器人测试中,星动纪元星动Q5成功完成了开柜子、开微波炉、开电视、关灯等任务,在更复杂的“开灯→找遥控器→开显示器”长任务中,10次测试成功7次[30] - MomaGraph-R1在视觉对应任务上也表现突出,在BLINK基准和MomaGraph-Bench的对应任务中,比最好的开源模型分别高出3.8%和4.8%[32] 行业意义:推动家用服务机器人向实用化迈进 - MomaGraph技术解决了“机器人理解动态家庭场景”的核心难题,使机器人从执行固定程序转变为能根据场景灵活调整行动[35] - 星动纪元星动Q5等执行硬件的成功应用,证明了该技术已具备从实验室走向真实家庭环境的潜力[36] - 该技术为家用服务机器人实现烧水、整理、备餐等实用功能提供了清晰的技术路径,标志着其从“概念”走向“实用”的关键一步[36]
评审用不用AI,作者说了算?ICML 2026全新评审政策出炉
机器之心· 2026-01-19 16:54
ICML 2026征稿与评审机制变化 - 文章核心观点:ICML 2026在征稿中引入了由论文作者决定是否允许在评审过程中使用大语言模型的新机制,这是应对AI工具在学术评审中日益普及的一种折中方案,但该规定的实际执行可能面临困难 [1][3][9][15] 具体政策内容 - ICML 2026为作者提供了两种评审政策选择:政策A为保守型,严格禁止在论文评审中使用任何大语言模型;政策B为宽松型,允许在特定限制下使用大模型进行评审 [4] - 在允许使用大模型评审的政策B下,允许的行为包括:使用大语言模型辅助理解论文内容及相关工作、对评审意见进行语言润色、将投稿论文提交给符合隐私合规要求的大语言模型 [7] - 在允许使用大模型评审的政策B下,明确禁止的行为包括:向大语言模型询问论文的优点或缺点、要求大模型总结或建议评审应关注的关键点、要求大模型提供评审意见的结构或提纲、要求大模型撰写完整的评审意见 [7] - 政策B中提到的隐私合规大语言模型,是指不会使用日志数据进行训练、且对数据保留期限作出限制的模型工具 [8] 政策背景与现状 - 引入该选择机制的原因是过去评审是否使用大模型更多取决于评审人或处于默认接受的灰色状态,而ICML此次将选择权明确交给了作者 [9] - 这一变化发生在论文投稿量持续攀升、评审负担越来越重的现实背景下 [9] - 第三方机构对ICLR 2026的审稿意见统计显示,AI参与审稿已相当普遍:在75800篇论文的审稿意见中,完全由AI生成的占21%,重度由AI编辑的占4%,中度由AI编辑的占9%,轻度由AI编辑的占22%,完全由人类撰写的仅占43% [11] - 有观点认为AI审稿已经达到泛滥的程度,这并非ICML 2026的政策B能够完全限制的 [13] 政策执行与影响 - 关于大模型使用的规定执行起来可能很困难,难以保证审稿人完全遵从限制,例如审稿人使用大模型时很可能第一句话就是违反规定的“给出这篇论文的优缺点” [10][14] - 该套规则或许更像是一种明确态度和方向的约定,而非一套可以严格执行的机制 [15] - 尽管存在执行挑战,但在普遍担心大模型引发信任危机的情况下,ICML为作者提供了可以“一刀切”拒绝大模型审稿的选项,被视为当下一个不错的选择 [16]
租了8张H100,他成功复现了DeepSeek的mHC,结果比官方报告更炸裂
机器之心· 2026-01-19 16:54
核心观点 - DeepSeek提出的流形超连接通过将传统Transformer的单流残差架构扩展为多流并行架构,并利用Sinkhorn-Knopp算法将混合矩阵约束在双随机流形上,从根本上解决了超连接在大规模训练时因破坏恒等映射属性而导致的信号爆炸和数值不稳定问题[1] - 第三方工程师成功复现了mHC,并在1.7B至2.5B参数规模的测试中,观测到无约束超连接产生了高达**10,924倍**的信号放大,远超DeepSeek论文中在**27B**参数下报告的**3000倍**放大,验证了mHC约束对于大规模模型稳定性的必要性[5][52][54] 技术架构对比:标准残差、超连接与流形超连接 - **标准残差连接**:自2016年以来成为Transformer的基石,采用`x + F(x)`的单信息流设计,通过保持恒等映射来确保梯度流动的稳定性和信号幅度的守恒,但表达能力有限[9][12][13] - **超连接**:将单一信息流扩展为`n`条并行流,并引入三个可学习的、无约束的混合矩阵来路由和组合信息,理论上具有更强的表达能力且计算开销可忽略,但混合矩阵能不受控制地放大信号,导致规模化训练时信号爆炸[14][15][16] - **流形超连接 (mHC)**:DeepSeek的解决方案,核心是将关键的混合矩阵通过Sinkhorn-Knopp算法投影为**双随机矩阵**,该矩阵所有条目非负且行和、列和均为1,从而确保混合操作只能对流进行加权平均和路由,而**不能放大信号**,在保持表达能力的同时强制实施了稳定性[25][26][28] 复现实验的关键发现 - **小规模实验 (10M参数)**:无约束HC在激进学习率下信号放大达到**7倍**,验证损失均值为**0.884**,优于mHC的**1.116**,但HC的损失方差是mHC的**3倍**,且Amax值在不同种子间在**6.1至7.6倍**间摆动,而mHC的Amax稳定在**1.00**,零方差[24][36] - **大规模实验 (1.7B-2.5B参数)**:在C4数据集上训练,HC表现出极端的不稳定性,在**32层**模型上最大Amax达到**10,924倍**,在**48层**模型上达到**3,721倍**,而mHC在所有配置下Amax严格保持为**1.0**;尽管最终损失值相近,但HC内部积累了巨大的不稳定性风险[54][56][61][63] - **不稳定性起源**:分析表明,不稳定性始于**第0层**的输入混合矩阵,该层直接处理未经层归一化的原始嵌入向量,在HC中容易学习通过放大来进行补偿,而mHC的Sinkhorn约束防止了任何层的漂移[74][75] - **压力测试结果**:在**3倍正常学习率**下,HC的**64层**模型Amax达到**14,765倍**并剧烈振荡,而mHC在所有配置和学习率下Amax均保持**1.0**,展现了其强大的鲁棒性[84][85][86] 规模化定律与风险本质 - **不稳定性随规模指数增长**:数据显示,模型参数从**10M**增至**1.7B**时,HC的Amax从**9.2倍**跃升至**10,924倍**;根据趋势外推,参数达**10B**时Amax可能升至约**50,000倍**,达**100B**时可能接近**400,000倍**,未发现自我修正迹象[66] - **风险性质是“定时炸弹”**:尽管在实验的5000步内,即使信号放大超万倍,HC模型因梯度裁剪等措施并未崩溃,损失也未发散,但这种不断积累的不稳定性在更长时间训练、更高学习率或更大规模下,存在导致训练灾难性失败的临界点[90][91][97] - **mHC的根本价值**:mHC通过原则性的数学约束(双随机流形)而非技巧,彻底消除了HC固有的信号爆炸故障模式,为构建更庞大、更稳定的Transformer模型提供了可扩展的架构基础[45][48][49][93] 行业影响与工程启示 - **架构演进方向**:mHC代表了对Transformer核心组件(残差连接)的一次重要革新,在保持甚至增强表达能力的同时,通过数学保证解决了规模化训练的稳定性瓶颈,可能开启架构设计的新篇章[1][45] - **工程实践建议**:对于实现超连接的团队,必须使用**Sinkhorn投影**来约束混合矩阵;在训练期间应密切监控**Amax**指标,特别是**第0层**的输入混合矩阵,作为网络稳定性的早期预警[98][101] - **性能与稳定性权衡**:实验表明,mHC的约束在**1.7B参数**规模下并未带来明显的性能损失,其最终损失与HC和标准残差连接相近,表明该稳定性保证的“代价”极低,在大规模下是必要且划算的[57][59][101]
让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了
机器之心· 2026-01-19 11:51
文章核心观点 - 清华大学、星尘智能、港大、MIT联合提出了一种名为CLAP的对比学习隐空间动作预训练框架,该框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,使机器人能够直接从海量人类行为视频中学习技能,从而解决机器人学习领域长期存在的“数据饥荒”难题 [2][3] 技术原理与创新 - CLAP框架的核心创新在于解决了“视觉纠缠”问题,通过对比学习将视频中的状态转移映射到一个量化的、物理上可执行的动作码本上,有效避免了模型学到与操控无关的视觉噪声 [3] - 该框架构建了一个统一的视觉-语言-动作模型,能够同时利用机器人数据的动作精确性与大规模无标注人类视频的语义多样性 [8] - 框架采用两阶段方法:首先通过CLAP进行跨模态对齐,建立共享的潜在动作空间;随后进行分层策略训练,通过连续训练CLAP-NTP和CLAP-RF两个模型,将语义理解与控制动力学解耦 [8][10] - 研究团队提出了知识匹配微调策略,这是一种正则化方法,旨在高效适配新本体形态并防止预训练先验在微调过程中发生灾难性遗忘 [10] 模型架构与性能 - 研究基于两种视觉-语言-动作建模范式进行训练:CLAP-NTP是一种自回归模型,在指令跟随与对象泛化方面表现突出;CLAP-RF是一种基于Rectified Flow的策略,面向高频率、精细化的操控 [4][10] - 在真实世界任务性能测试中,CLAP-RF在任务平均成功率上达到61.0%,优于To.5 12的60.0%和UniVLA的35.0% [14] - 在环境扰动下的鲁棒性评估中,CLAP-RF的平均成功率为66.7%,显著高于To.5 [12]的56.7%和UniVLA的16.7% [15] 产业应用与影响 - CLAP框架使得机器人能够从YouTube、抖音等平台的海量视频中学习技能,极大扩展了可用训练数据的规模,并显著降低了机器人技能获取的成本和门槛 [4] - 该技术有望加速机器人在服务业、制造业等领域的规模化应用,因为当机器人能够通过观看视频快速掌握新技能时,企业部署机器人的成本和周期将大幅降低 [6]
你的论文有novelty吗?复旦搞了个顶会论文查新系统
机器之心· 2026-01-19 11:51
文章核心观点 - 复旦大学NLP团队与WisPaper合作,开发了基于大语言模型的自动化学术论文新颖性分析系统OpenNovelty,旨在通过提供可追溯的文献证据,解决同行评审中对创新性评估的依赖与争议 [2][4] - 该系统通过结构化信息提取、地毯式文献检索、层次化证据比对和生成可验证报告四步流程,为审稿人和作者提供辅助工具,推动可验证、可追溯的新颖性评估 [6][8] - 系统定位为辅助工具而非决策主体,旨在提升评审效率与透明度,但最终学术判断仍需人类完成,其局限性包括对复杂数学内容理解不足、检索范围依赖索引等 [26][27][29] 系统核心设计原则 - 根本原则是任何关于“创新性不足”的判断都必须附带可追溯的真实证据,证据需来自已发表文献并能精确定位到原文具体段落,若未找到证据则如实说明 [7] - 与传统查重关注文字表层不同,系统致力于解决语义层面的重复,通过将作者表述转写为学术概念短句进行结构化抽取 [7] - 采用查询扩展机制,针对提取的每条信息生成多个语义等价变体进行地毯式检索,以防止因单一表述差异导致的检索遗漏 [7] 四步分析流程 - **第一步:核心信息提取**:从论文标题、摘要和引言中精准提取核心任务和若干具体贡献两类信息 [9] - **第二步:相关文献检索与筛选**:基于提取信息自动生成包含同义词的搜索语句,利用WisPaper学术引擎进行地毯式搜索,初步检索可能召回数百至上千篇论文,经过去重、时间过滤与筛除弱相关文献后,形成约60–80篇候选论文集合 [11] - **第三步:层次化分析与证据比对**:基于核心任务召回的候选论文构建层次化分类体系,以定位目标论文在研究脉络中的位置;针对每条贡献声明,在候选论文中进行逐篇对比,并给出“能反驳”、“无法反驳”或“存疑”三种结果,其中“能反驳”必须附带双方论文的原文摘录作为证据 [14][15][17][18] - **第四步:“新颖性调查报告”生成**:整合前三阶段结果,生成包含论文核心任务、研究领域分类体系、每条创新声明的比对结果和证据以及综合新颖性评估叙述的报告 [20][21] 系统部署与公开验证 - 截至1月16日,团队已在系统上分析了1360篇投稿,并将所有生成的新颖性报告公开发布在官方网站,供任何人查阅分析结果、相关文献及判断依据 [24] - 团队计划将分析规模进一步扩展至2000+篇投稿,并持续优化系统,计划将其应用于其他AI顶级会议,并对收集的报告和评审证据进行深入分析 [24] 系统影响与定位 - **对审稿人**:作为辅助工具,帮助梳理文献脉络,快速掌握论文在领域中的位置,从而将更多精力集中于研究意义、方法严谨性等需要人类专业判断的环节 [26] - **对论文作者**:可作为投稿前的自查工具,若研究具备实质创新性可提供相关证据,若漏引重要文献亦能指出问题 [27] - **对学术界**:提供了一种“可验证的新颖性评估”工程路径,用检索到的真实文献与贡献级证据对比来约束结论输出,使判断可被追溯与复核,推动AI成为负责任的知识引证者 [27] - **系统局限性**:难以理解复杂的数学公式和图表;只能检索被索引过的论文,可能错过小众期刊或非英语出版物;“无法反驳”仅表示在检索范围内未找到,不等于确实不存在 [30] - 系统定位为第三方审计系统,旨在清洗迷雾、展示证据,而将最终的价值判断权留给人类审稿人 [31]
效果、性能双突破,快手OneSug端到端生成式框架入选AAAI 2026
机器之心· 2026-01-19 09:27
研究背景与问题 - 查询推荐是现代电商搜索系统的关键功能,旨在通过实时推荐相关查询帮助用户明确意图,提升搜索体验与转化效率 [2] - 传统方法通常采用多阶段级联架构,在效率与效果间取得平衡,但存在各阶段目标不一致、长尾查询召回困难等问题,限制了系统性能的进一步突破 [2][6] - 现有生成式检索方法多聚焦于视频推荐,其任务本质难以直接应用于输入输出均为开放词表的电商查询推荐场景 [7] 解决方案:OneSug框架 - 公司首次提出端到端的生成式统一查询推荐框架OneSug,将召回、粗排、精排等多个阶段统一在一个生成模型中 [2] - 框架包含三大核心模块:Prefix-Query表征增强模块、统一的Enc-Dec生成架构、用户行为偏好对齐 [8][9] - Prefix-Query表征增强模块旨在解决用户输入前缀较短且意图模糊的问题,通过语义与业务空间对齐及层次化语义ID生成来增强表征 [10][14] - 统一的Enc-Dec生成架构基于编码器-解码器结构,以自回归方式直接生成用户最可能点击的Query [11] - 用户行为偏好对齐模块通过奖励加权偏好优化和混合排序框架,精细化地对齐用户行为偏好,克服了传统方法的局限性 [13][16] 模型效果与性能 - 在快手电商场景的大规模数据集上,OneSug在HR@16和MRR@16指标上显著优于传统多阶段系统与生成式基线模型 [19] - 具体离线指标显示,OneSug模型效果随模型规模提升而增强,例如OneSugQwen2.5–3B模型在Click任务上的HR@16达到93.37%,MRR达到66.31% [20] - 在线AB实验中,OneSug大幅度提高了业务指标,例如List-wise版本使CTR提升2.01%,订单量提升2.04%,收入提升1.69% [21][22] - 在人工测评指标上,OneSugQwen2.5–0.5B使查询好评率提升32.50%,页面好评率提升18.35% [24] - 线上推理流程完全取代了传统多阶段架构,使平均耗时降低43.2% [25][26] 行业意义与未来展望 - OneSug是业界首个在电商场景中实现全流量部署的端到端生成式Query推荐系统,其统一建模方式显著提升了语义理解与个性化推荐能力 [26] - 该框架为生成式模型在搜索、广告、推荐等领域的落地提供了新范式 [26] - 未来公司将进一步探索大语言模型在排序阶段的强化学习优化、实时更新等方向,推动端到端生成式系统在多业务场景中的广泛应用 [27]
CES 2026趋势照进现实:算力引擎RK182X重塑千行百业,瑞芯微AI生态大会共建落地生态
机器之心· 2026-01-19 09:27
文章核心观点 - 全球科技趋势正推动AI从虚拟走向现实应用,进入“Physical AI”时代,AIoT 2.0时代正在到来 [3] - 瑞芯微作为AIoT芯片领域的领军企业,其全球首颗3D架构协处理器RK182X系列是AIoT 2.0的关键算力引擎,旨在推动千行百业的智能化变革 [3][4] - RK182X芯片在视觉语言模型和大语言模型上性能卓越,能驱动硬件设备从“被动执行”向“主动服务”的本质进化,赋能消费电子、机器人、智能座舱三大领域 [5][11] - 公司不仅提供硬件,更致力于构建“芯片+算法+行业方案”的全栈能力,并通过举办AI软件生态大会,携手超过5000家全球客户生态,加速AI软件的场景落地与价值变现 [3][14][15] RK182X芯片的技术突破与性能 - **核心定位**:RK182X是AIoT 2.0的算力引擎,为设备提供关键的主动感知与综合决策能力,构成新一代“环境智能体”的双脑核心 [4][5] - **大语言模型性能**:运行Qwen2.5-3B模型输出速度突破百Token/秒,是市场对标产品的3倍 [6] - **多模态视觉语言模型性能**:率先支持Qwen3-VL-2B/4B模型,运行Qwen3-VL-2B模型输出速度达136.32 TPS,运行Qwen3-VL-4B模型输出速度近百Token/秒 [6] - **视觉处理突破(从“看清”到“看懂”)**:强大端侧AI算力使设备能解读事件和行为,实现同时分析四路视频实时预警,异常响应仅需0.5秒,每路均能输出场景和行为细节描述 [8] - **音频处理突破(从“听清”到“听懂”)**: - 在拾音端,实现多人语音AI 8轨多音轨分离与精准声源定位,无需传统“唤醒词”,能在嘈杂环境中自主识别有效指令 [10] - 配合百Token/秒级的本地处理速度,实现连续对话丝滑无卡顿,所有处理在设备本地完成,保障隐私安全 [10] - 在输出端,可通过深度学习模型将混合音频中的人声、吉他、贝斯、钢琴、鼓点等拆分为高保真、低串音的独立音轨,重构声场 [10] RK182X赋能的核心应用领域 - **消费电子领域**:为智能眼镜、智能电视、智能镜柜等新一代智能硬件提供强大的端侧AI能力,以处理图像识别、语音理解和实时交互任务,使产品从单一功能工具转向重塑交互 [12] - **机器人领域**:为需要自主移动、环境交互的机器人(如人形机器人、吸尘机器人、家务机器人)提供核心算力,使其从执行预设程序转变为能理解环境、适应变化并自主决策的智能伙伴 [12] - **智能座舱领域**:为辅助驾驶技术和车载娱乐系统提供关键支撑,凭借强大的本地AI处理能力,使汽车能在离线环境下做出安全决策,并实现更自然的语音、手势等多模态交互 [13] 公司的生态战略与布局 - **生态构建目标**:在AIoT 2.0时代,致力于构建“芯片+算法+行业方案”的全栈能力,通过开放易用的工具链、深度合作的算法生态以及可快速复用的行业参考设计来实现 [14][15] - **AI软件生态大会**:公司将举办首届AI软件生态大会,邀请AI软件公司共同探讨端侧AI在机器人、机器视觉、智能座舱、自动驾驶、工业应用、智能家居、AI电脑、AI手机、可穿戴设备等千行百业的落地路径与商业模式 [15] - **生态基础与价值实现**:依托公司在AIoT千行百业、超过5000家全球客户的广大生态,搭建起AI软件与市场的桥梁,实现AI软件算法的场景落地和价值变现 [3][15]