Workflow
CADYT
icon
搜索文档
AAAI杰出论文来了!港科大、同济、浙师大等国内高校获奖
机器之心· 2026-01-22 16:13
会议概况与投稿情况 - AAAI 2026会议于1月20日至27日在新加坡举行,总投稿数为23,680篇,录用论文4,167篇,接收率为17.6% [2] - 会议公布了5篇“杰出论文”奖项,其中3篇由华人团队主导,涉及香港科技大学(广州)、西湖大学、浙江大学、同济大学、浙江师范大学、香港城市大学等多所国内高校 [1] 获奖论文核心内容 论文1:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver - 针对现有VLA模型视觉注意力分散、难以聚焦目标区域的问题,提出了一种采用隐式对齐范式的重建式VLA模型 [5][6] - 方法以模型视觉输出为条件,引入扩散Transformer来重建图像中对应于被操作物体的注视区域,促使模型学习更细粒度的表征并准确分配视觉注意力 [9] - 构建了大规模预训练数据集,包含来自开源机器人数据集的十万余条轨迹和两百万条数据样本,提升了模型在视觉重建任务上的泛化能力 [9] - 大量仿真与真实环境实验表明,该方法在精细操作能力和泛化表现上均有出色表现 [9] - 作者来自香港科技大学(广州)、西湖大学、浙江大学、莫纳什大学 [7] 论文2:LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation - 研究如何利用LLM更强的语言理解能力与广泛的世界知识来增强CLIP模型,尤其是在处理冗长且结构复杂的描述文本时的表现 [12] - 提出一种高效的微调框架,将LLM嵌入到预训练的CLIP中,训练成本几乎与常规的CLIP微调相当 [12] - 方法首先将LLM转化为适配CLIP场景的“嵌入化”形式,随后通过一个轻量级适配器将其与预训练的CLIP视觉编码器耦合,该适配器仅需在数百万规模的图像-文本对上进行训练 [12] - 相较于EVA02、SigLIP-2等当前最先进的CLIP变体,该方法在无需大规模重新训练的前提下取得了显著的性能提升 [16] - 增强后的CLIP在多种下游任务上均表现出稳定改进,包括线性探测分类、支持短文本与长文本的零样本图像-文本检索、零样本与有监督的图像分割、目标检测等 [16] - 作者来自同济大学、微软、麦考瑞大学 [13] 论文3:Model Change for Description Logic Concepts - 该论文已获奖,但目前尚未公开发布 [17] - 作者来自奥斯陆大学、卡迪夫大学 [18] 论文4:Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis - 针对现实世界连续时间演化系统的因果关系学习,现有方法存在对时间离散化处理(面对不规则采样数据性能差)或忽略系统背后因果结构的问题 [20] - 提出CADYT方法,一种用于动力系统因果发现的新方法,可同时解决上述两大挑战 [20] - 该方法基于差分的因果模型进行建模,对连续时间系统的刻画只需更弱的假设,更符合真实系统的连续演化特性 [20] - 采用精确的高斯过程推断来建模连续时间动力学,并通过结合马尔可夫条件与最小描述长度原则,采用贪心搜索策略来识别系统的因果结构 [20] - 实验表明,无论是在规则采样还是不规则采样的数据场景下,CADYT都显著优于现有先进方法,能够恢复出更接近真实底层动力学机制的因果网络结构 [24] - 作者来自博世AI中心团队、德国达姆施塔特工业大学、德国医学AI研究所IKIM等 [21] 论文5:High-Pass Matters: Theoretical Insights and Sheaflet-Based Design for Hypergraph Neural Networks - 该获奖论文目前尚未放出论文链接 [25] - 作者来自浙江师范大学、香港城市大学、南洋理工大学、剑桥大学 [27]