具身智能之心
搜索文档
快3000人了,这个具身社区有点干货~
具身智能之心· 2025-11-30 11:03
文章核心观点 文章旨在推广一个名为“具身智能之心”的付费知识星球社区,该社区定位为国内首个具身智能全栈技术交流平台,通过整合行业资源、技术路线、学术内容与产业信息,为从业者、学生及研究人员提供一站式学习、交流与求职服务,以加速其在具身智能领域的发展 [1][9][17] 行业资源与公司梳理 - 社区汇总了行业内在从事具身大脑和本体研发的公司,以及活跃的具身智能实验室,供成员判断行业发展和升学参考 [1] - 社区内部汇总了涉及教育、宠物、工业、救援、物流、交互、医疗等多个方向的国内外各类具身相关机器人公司 [23] - 社区汇总了机器人行业知名的零部件制造厂商,涉及芯片、激光雷达、相机、IMU、底盘等 [31] - 社区与近200家具身公司与机构建立了联系,成员可与行业大佬交流工作与求职问题 [17][85] 科研与开发本体推荐 - 推荐了几款适合科研的机器人本体产品,包括SO-100系列、openarm系列、XLerobot系列等 [2] - SO-100系列及其升级版本能够运行一些VA和VLA算法,实现常见功能 [2] - Openarm是一款双臂任务框架,已有几家公司开始生产相关本体,缺乏移动能力,但能满足叠衣服、pick and place等任务,其VR版本在数据采集上体验更佳 [4] - XLerobot具备一定的移动能力,适合入门科研和个人开发,可适配移动操作任务 [6] - 其他如方舟无限、星海图、宇树等开发平台成本较高,需要一定资金投入 [8] 技术路线与算法研究 - 社区收拢了广泛的技术研究方向,包括VLA(视觉-语言-动作)模型的训练、无需训练方式、与强化学习(RL)和世界模型的结合、轻量化及部署;VLN(视觉语言导航);运动控制(强化学习、MPC、WBC);仿真(通用、真实);触觉感知等多个方向 [9] - 部署层面,目前大多集中在云端推理,边缘侧基于索尔的VLA模型方案已逐渐落地,小鹏等公司基于自研芯片已完成VLM/VLA的部署,但100T以下算力平台的部署方案较少 [9] - 社区整理了全面的技术学习路线,包括但不限于:具身智能感知、交互、强化学习全栈、VLN、VA/VLA、多模态大模型理解与生成、Diffusion Policy、多传感器融合、机械臂抓取与策略学习、双足/四足机器人、大模型部署、触觉感知、导航、sim2real、世界模型等近20个具体路线 [18][43][44][46][48][50][52][54][56][58][60][62][64][66][68][71][73][75] 社区内容与知识库 - 社区提供持续的直播分享,涵盖从本体、数据到算法的圆桌论坛,探讨行业现状与待解决问题 [11] - 直播主题目录广泛,包括数据采集、灵巧手、VLA/VLN模型、多传感器融合、分层感知操作、机器人操作系统、协同感知、机器人模型、Sim2Real、具身世界模型、触觉感知、大模型规划推理与加速、模型微调等十五个大类下的数十个细分话题 [12] - 社区汇总了丰富的知识资源,包括:近40+开源项目、近60+具身智能相关数据集、行业主流仿真平台 [18][33][39][41] - 社区汇总了国内外具身智能知名高校实验室,供成员读研、申博、博后参考 [20] - 社区汇总了大模型、人形机器人等行业相关研报,帮助了解行业发展与工业落地情况 [25][26] - 社区汇总了机器人导航、概率机器人、动力学与运动学、路径规划、视觉控制等多个方向的PDF书籍,供基础学习 [28][29] - 社区汇总了国内外知名ToF厂家、相关产品与技术资料 [35] - 社区汇总了数据采集相关的遥操作、动作捕捉、AR等方案,以及多个领域的开源数据集 [37][39] 社区功能与成员福利 - 社区实现了产业、学术、求职、问答交流的闭环,拥有技术路线分享、直播、问答、求职、赛事等多个板块 [9] - 社区与多家具身公司建立岗位内推机制,可帮助成员将简历第一时间送达心仪公司 [17] - 社区邀请了数十位活跃在一线产业界和学术界的具身领域嘉宾,可为成员答疑解惑 [17] - 社区成员可以自由提问,无论是工作选择还是研究方向选择,都能得到解答,例如有研一学生咨询研究方向选择并获得详细指导 [77] - 社区致力于为行业培养人才,提供展示机会,目前已有近3000名成员 [9][17][85] - 加入社区的福利包括:第一时间掌握学术与工业进展、与行业大佬交流、优良学习环境、结识同行、专属学习视频、工作岗位推荐、行业机会挖掘与投资项目对接等 [21]
E0:离散扩散新框架,大幅提升 VLA 模型泛化与操控精度
具身智能之心· 2025-11-29 10:07
文章核心观点 - 提出一种名为E0的新型视觉-语言-动作模型,通过创新的“连续化离散扩散”范式,旨在解决现有VLA模型在泛化能力、细粒度动作控制和建模范式兼容性方面的关键瓶颈 [1][3] - 该模型在三大基准测试和真实世界实验中均达到最先进的性能水平,平均超过基线10.7% [21] 出发点与背景 - 机器人在开放环境中的操作需要具备复杂视觉场景感知、自然语言指令理解和精准可靠的动作生成三大核心能力 [1] - 现有VLA模型作为统一框架,仍面临泛化能力不足、动作控制粗糙和建模范式矛盾等关键瓶颈 [1][3] E0核心创新点 - 针对泛化能力不足问题,难以适配多样的任务指令、环境配置和相机视角 [3] - 针对动作控制粗糙问题,生成的动作不够精细,在插装、抓取特定图案物体等细粒度操作中易失败 [3] - 针对建模范式矛盾,离散建模受限于动作词汇量,连续扩散建模与预训练backbone的符号结构语义错位 [3][4] 技术框架介绍 - 架构以PaliGemma开源VLM为backbone,新增3亿参数的动作专家网络 [6] - 核心逻辑是将连续动作离散化后,通过扩散模型实现迭代优化,同时保留与预训练视觉语言模型的兼容性 [6] - 动作表示采用分位数离散化策略,过滤异常值以保证机器人推理稳定性 [8] 性能表现 - 在LIBERO基准测试中平均成功率达到96%,超过基线模型 [21] - 在ManiSkill基准测试中平均成功率为55.2%,显著优于π₀、RDT等基线模型 [24] - 在真实世界实验中,基于Franka Research 3机械臂,在8类任务中平均成功率为45.6%,高于π₀(43.1%)和π₀ FAST(10.0%) [28] 技术优势 - 连续化离散扩散范式将动作生成建模为对量化动作token的迭代去噪,避免分布失配问题 [11] - 支持任意数量的离散分箱(最高可达2048及以上),突破自回归模型256分箱的限制,提升动作分辨率 [11] - 球面视角扰动增强通过模拟相机在观测球面上的运动生成扭曲图像,提升模型对相机视角变化的鲁棒性 [11] 局限与未来方向 - 特定任务语义对齐不足,在VLABench的Select Painting任务中表现较弱 [35] - 复杂协调任务存在瓶颈,双臂协同、长时程时序依赖任务性能不及单臂任务 [35] - 机械交互建模不足,对需要精细力矩控制的任务存在操作精度短板 [35]
RoboTidy即将开源:让机器人在家庭场景“游刃有余”
具身智能之心· 2025-11-29 10:07
文章核心观点 - 香港大学与原力无限等联合团队发布了业内首个基于3D Gaussian Splatting技术的家庭整理基准RoboTidy,该基准构建了500个照片级逼真的交互式3D环境并提供了超过8000条专家演示轨迹,其核心突破在于通过高保真仿真环境显著提升了真实机器人长序列任务的成功率,将真实机器人的任务成功率提升了近30% [4][17] - 研究标志着具身智能研究范式的转变,重点从算法能力转向环境真实性,并通过学术界与产业界的深度协同(“研-产”闭环)来加速通用人形机器人的产业化落地 [5][24] 技术突破:3D Gaussian Splatting的应用 - 传统仿真器(如Habitat, AI2-THOR)基于3D网格建模,虽速度快但画质失真,导致训练出的机器人在真实复杂环境中“水土不服” [7] - RoboTidy引入3D Gaussian Splatting技术,能以超过100 FPS的渲染速度重建照片级真实场景,克服了NeRF计算成本高和Mesh几何生硬的问题 [8][9] - 团队通过手持设备扫描500个真实家庭场景(卧室、客厅、餐厅等),并利用3DGS管道将其“克隆”进仿真器,使机器人能感知真实的光照变化、材质质感(如地毯绒毛、不锈钢反光) [11][12] 数据集与算法框架 - RoboTidy提供了500个高多样性家庭布局场景资产和8000多条专家示范轨迹,这些轨迹不仅记录坐标移动,更包含了人类整理房间的隐性逻辑(如语义理解和常识推理) [15] - 基于此数据集,团队提出了分层控制框架,包含“语义规划器”和“底层策略”,使机器人能像人类一样执行“识别物体-规划归属地-执行整理”的长序列规划任务 [14][15] 仿真到现实的工程化验证 - 原力无限团队重点攻克了Sim-to-Real Gap(虚实迁移鸿沟),通过高保真环境预训练结合自研控制算法,在真实机器人测试中显著提升了对未见物体和复杂背景的鲁棒性 [17] - 实验结果显示,RoboTidy模型在真实环境中的任务成功率相比传统方法提升29.4%,证明高质量仿真数据可直接转化为真实世界的生产力 [17][18] 行业标准化与开源贡献 - RoboTidy建立了统一的标准化评测系统和Leaderboard,解决了以往家庭整理任务缺乏可比性基准的问题(如各实验室测试场景不同导致成功率无法横向对比) [20] - 通过开源这套基准(包括统一API接口和多维度Metric),为全球开发者提供了更真实、严苛、标准的研发起跑线,推动家庭服务机器人技术进化 [20][22][27]
VLA+RL方案:具身的“关键突破”,如何更好地部署落地?
具身智能之心· 2025-11-29 10:07
直播活动概览 - 活动主题为VLA与RL的真机部署及如何更好落地 [5] - 直播时间定于12月6日19:30 [16] - 活动形式为线上直播 [5] 分享嘉宾阵容 - 隋伟担任地瓜机器人算法副总裁 [9] - 张强为北京人形机器人首席研究员及学术委员会主任 [11] - 汪天才担任原力灵机合伙人 [11] - 于超为清华大学博士并将加入清华深研院任助理教授 [13] - 主持人包括Gloria(具身智能之心联创)和刘斯坦(知乎大V、深度流光CTO) [15] 核心讨论议题 - VLA的架构和模型现存痛点分析 [8] - 提升机器人全身运动控制方案的进化空间探讨 [8] - VLA+RL上真机的实践方法、硬件选型及轻量化解决方案 [8] 过往活动与深度内容 - 具身智能之心已举办多场高质量圆桌讨论涉及本体、数据、仿真等方向 [3] - 知识星球提供完整版深度内容涵盖技术细节、QA及未公开彩蛋 [19] - 深度解析主题包括灵巧手设计、Agent技术、Spec-VLA推理加速框架及跨实体世界模型等 [19]
首个面向求职+工业级的VLA实战教程!真机+各类VLA算法部署+量化+世界模型
具身智能之心· 2025-11-29 10:07
文章核心观点 - 视觉语言动作模型领域技术迭代迅速但实践门槛高,初学者在数据采集、模型训练与部署等环节面临显著挑战[1][6] - 行业强调真机数据的重要性,仿真与互联网数据在泛化性能上存在不足[2] - 为解决学习痛点,业内推出结合硬件与软件的全栈VLA实战课程,旨在通过真机实验提升学员的工程实践能力[14][16][19] VLA技术发展现状 - 近2年来VLA算法快速迭代,从ACT到OpenVLA,再到π0、π0.5、π0.6系列,模型性能持续提升[4] - 基于强化学习的优化方案显著改善了VLA模型的操作流畅度[4] - 开源技术框架如LeRobot降低了入门门槛,开源硬件本体如SO-100机械臂、openarm双臂、XLeRobot移动操作平台支持多样化研究需求[4] VLA落地实践的关键模块 - 数据采集主要依赖模仿学习与强化学习,模仿学习通过遥操作、VR、全身动捕捉方式实现,机械臂领域侧重前两种[7][8] - 模型训练需借助Mujoco、Isaac Gym等仿真框架进行调试,sim2real技术在真机数据不足时尤为重要[10] - 模型部署面临参数量大的挑战,即使2B规模也对边缘芯片构成压力,需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量[12] VLA实战课程内容 - 课程涵盖机械臂硬件、数据采集、VLA算法、模型评测、仿真、主流模型部署、VLA+世界模型、真机实验及产业讲解等全栈内容[16] - 学员将获得SO-100机械臂硬件套装,课程设计面向求职者、进阶学习者、高校学生及跨行业转型人员[22][27] - 课程要求学员具备Python和PyTorch基础,推荐使用3060及以上显卡进行推理,2张以上3090ti显卡进行训练[27] - 完成课程后学员可掌握真机调试与数据采集、VLA算法部署、模型量化等技能,达到1-2年算法工程师经验水平[30]
那些坚持具身智能泡沫论的人.......
具身智能之心· 2025-11-28 12:00
行业增长前景 - 以人形机器人为代表的具身智能产业规模正以超50%的增速跨越式发展 [2] - 市场调研机构预测行业市场规模在2030年将达到千亿元级别 [2] 产业发展阶段与特征 - 技术路线、商业模式、应用场景均未成熟,产业发展仍有很大空间 [4] - 一级市场投资依然火热,出现过亿元的大额融资案例 [6] - 当前阶段存在一定的估值泡沫,但有助于资本推动行业发展 [6] - 资本参与有助于更多产业(如制造、医疗、娱乐等)加持行业发展 [6] 行业发展建议 - 行业健康发展需关注商业模式差异,避免重复造轮子和无效的内卷价格竞争 [4] - 在打磨出稳定的业务场景和产品后,行业将进入大刀阔斧的发展阶段 [6]
OpenReview大瓜!原来我的评审低,是好友打的分
具身智能之心· 2025-11-28 09:10
学术评审系统漏洞事件 - OpenReview平台出现系统级漏洞,允许用户通过替换网址字符查看ICLR、NeurIPS、ICML、ACL等AI顶会论文的审稿人身份及评分[4] - 漏洞暴露了学术评审过程中的潜在问题,包括审稿人未理解论文出发点、个人恩怨和恶性竞争导致的低分现象[2] - 平台统计显示存在196个可疑审稿人、120个频繁合作关系和81,782个写作风格相似配对[5] 可疑审稿行为数据 - 评分极端不一致的审稿人平均分在2.67-5.33之间,评分标准差高达3.16-3.77[5] - 存在异常高置信度的审稿行为,其中一个审稿人给出8.00平均分且标准差为0.00[5] - 最高可疑度评分(5分)的审稿人普遍表现出极端不一致评分、异常高置信度和过度评分范围等行为特征[5]
InternData-A1开源:纯合成数据性能比肩顶级真实数据,效果媲美官方π0模型
具身智能之心· 2025-11-28 08:04
文章核心观点 - 由上海人工智能实验室、北京大学等团队推出的InternData-A1,通过其“高保真合成数据 + 模块化生成pipeline”的创新方案,首次实现了仅使用纯合成数据预训练的视觉-语言-动作模型在性能上比肩使用顶级真实数据集训练的模型,为突破机器人学习的数据瓶颈提供了全新路径 [1] 当前VLA模型训练的数据困境 - 当前机器人视觉-语言-动作模型训练面临“两难困境”:真实数据保真度高但采集成本极高、规模有限;传统合成数据则存在技能覆盖窄、物理真实性不足等问题,无法同时兼顾规模、多样性、保真度、迁移性、成本与效率 [2] - 具体而言,真实机器人数据(如π-dataset、Agibot World)采集需专业设备与人工,成本高、场景覆盖有限且多为闭源 [2] - 传统合成数据(如GraspVLA、RoboCasa)则技能单一(以抓取为主)、物理模拟与视觉渲染保真度低、生成效率低下 [2] InternData-A1的核心设计与特性 - InternData-A1的核心设计是通过模块化、自动化的生成pipeline,产出具备“多形态机器人 + 全场景任务 + 高保真交互”的大规模合成数据,以直接支撑VLA模型的端到端预训练 [4] - **核心特性1:超大规模与全维度多样性**:数据集覆盖4类机器人形态、70项任务、227个场景,累计包含63万条轨迹、7433小时交互数据 [4][6] - 机器人形态涵盖单臂(如Franka Emika Panda)和双臂(如AgiBot Genie-1)等主流机型 [6] - 任务类型包括抓取放置(占30.61%)、关节操作(占11.67%)、基础复合任务(占35.95%)和长序列任务(占21.77%) [6] - 资产库包含3185个刚性物体、321个关节物体、20种柔性衣物,场景覆盖227个真实室内布局 [6] - **核心特性2:高保真模拟**:通过物理引擎优化与视觉渲染升级,最小化模拟与现实间的迁移差距 [6] - 物理模拟采用Vertex Block Descent模拟柔性物体,用粒子动力学建模流体,精准还原关节物体物理参数 [6] - 视觉渲染支持照片级真实感,结合174种环境地图与随机光照调节 [6] - 通过域随机化自动随机化物体位姿、相机视角(±5°旋转 / ±5cm平移)等,增强模型鲁棒性 [6] - **核心特性3:模块化生成pipeline实现低成本高效量产**:采用“环境构建-技能组合-域随机化-轨迹生成”四阶段解耦流程 [6][8] - 环境构建阶段从资产库自动调用并标注机器人、场景和物体 [8] - 技能组合通过模块化原子技能(抓取、放置等)拼接任务,仅需调整参数即可适配不同场景 [8] - 轨迹生成基于CuRobo运动规划器生成无碰撞轨迹,仅保留成功案例以确保数据质量 [8] - 通过架构优化,该pipeline在8块RTX 4090 GPU上日均可产出209.7小时数据,大幅降低数据获取门槛 [9] InternData-A1的性能验证与对比 - **与真实数据集对比实现性能平权**:在相同π₀模型架构下,仅使用InternData-A1预训练的模型在模拟任务中全面超越基于真实π-dataset训练的官方模型,在真实场景中实现性能持平 [10] - 在模拟场景的49项任务中,Easy模式成功率达60%(超过官方π₀模型5个百分点),Hard模式成功率达26.5%(超过官方π₀模型6.5个百分点) [10][11] - 在真实场景的5项基础与4项灵巧任务中,性能与基于真实π-dataset的模型持平,部分任务(如“放置马克笔”)成功率超过90% [11] - **模拟-现实迁移效率高**:在10项代表性任务中零样本迁移成功率超过50%,仅需1600条模拟数据即可匹配200条真实数据的效果,部分基础任务实现1:1性能对标 [11] - 对于基础任务(如垃圾分类),200条模拟数据性能比肩200条真实数据 [20] - 对于复杂任务(如包裹翻转),1600条模拟数据即可匹配真实数据效果,数据成本仅为真实采集的1/10 [20] - **与开源数据集对比全维度领先**:相较于RoboCasa(合成数据)、Agibot World(真实数据)等开源方案,InternData-A1预训练模型在模拟任务中成功率领先10%-27.5个百分点,在真实任务中平均领先57.7个百分点 [14][15] - **消融实验验证数据多样性关键性**:禁用不同数据组件后模型性能显著下降,证明任务多样性对预训练至关重要 [16] - 移除长序列任务导致Hard模式成功率下降6个百分点 [16] - 移除关节操作任务导致整体成功率下降7个百分点 [16] 核心结论与行业意义 - 合成数据的规模化是VLA模型通用化的关键,InternData-A1证明足够规模、多样性与保真度的合成数据可完全替代真实数据进行预训练,打破数据采集瓶颈 [21] - 模块化pipeline是数据量产的核心,其解耦架构与自动化流程实现了“低成本、高质量、大规模”的数据生成,为社区提供了可复用的工具链 [21] - 模拟-现实迁移的关键在于“保真度 + 域随机化”,照片级渲染与多维度随机化设计大幅缩小了模拟与真实环境的差距 [21] - 该数据集及生成pipeline的开源,降低了机器人预训练数据的获取门槛,揭示了合成数据在机器人领域的巨大潜力,有望推动VLA模型向“低成本、高泛化、可规模化”方向快速发展 [22] 未来发展方向 - 扩展任务与形态覆盖,例如新增高精度灵巧任务(如精细装配)和更多机器人形态(如人形机器人) [19] - 进行多模态数据增强,融入触觉、声音等模态信息以提升复杂场景适应性 [25] - 端到端pipeline优化,通过强化学习自动优化任务组合与参数配置,进一步降低人工干预 [25]
读了 40 篇 VLA+RL之后......
具身智能之心· 2025-11-28 08:04
文章核心观点 - 强化学习在视觉语言动作模型领域的应用趋势正从监督微调转向结合强化学习,其核心价值在于提升模型在真实环境中的适应性和任务完成效率[1] - 强化学习在单一任务上已表现出色,当前最大挑战在于实现多任务间的正向迁移,以提升预训练模型的基础性能,这关系到该技术路径的上限[3] - 行业研究重点集中在解决奖励稀疏性、大规模策略网络特性以及多任务学习等关键问题上,这些方向代表了潜在的技术突破点和投资机会[5] 强化学习在VLA中的应用分类与现状 - 强化学习优化方法呈现多样化,包括在线强化学习、离线强化学习、迭代式强化学习及推理时改进等,不同方法在效果上可相互转化[1] - 行业已出现代表性算法案例:What can RL brings to VLA generalization采用在线强化学习,CoRFT采用离线强化学习,pi-star-0.6采用迭代式强化学习,V-GPS采用推理时改进[1] - 强化学习在完成单一复杂任务方面效果显著,例如pi-star-0.6模型仅需约1千条轨迹即可完成叠衣服长程任务[3] 技术部署与基础设施 - 技术部署的核心考量是真实环境的可用性,重点解决安全性与数据采集效率问题,例如SafeVLA项目专注于安全性设计[2] - 模拟环境可能发挥重大价值,存在大规模强化学习预训练的可能性,世界模型与强化学习结合的预训练模式是未来方向[2] - 强化学习基础设施成为关键支撑,RLinf、RLinf-VLA、SimpleVLA-RL等项目在基础设施方面表现突出[2] 多任务学习与技术挑战 - 多任务学习是当前最大技术挑战,目标在于实现任务间正向迁移而非相互干扰,MoRE项目采用混合专家模型应对多任务相互影响问题[3] - 强化学习能否像大语言模型中的RLVR技术那样提升预训练模型基础性能,目前仍不确定,是领域内终极问题[3] - 行业关注多任务学习能否相互促进以及在预训练规模上强化学习能否提供帮助,这些问题的答案将决定技术发展路径[3] 奖励函数设计与技术演进 - 奖励函数或价值函数的必要性存在争议,一方面能降低优化方差,另一方面随着VLA模型性能提升,对密集奖励的需求可能降低[4] - 技术演进参考大语言模型中的GRPO方法已取消批判网络,预示奖励函数设计可能趋向简化[4] - 实际应用中出现两种路径:小奖励函数如SERL中的专用神经网络,大价值函数如VLAC中的视觉语言模型级神经网络[5] 研究方向与课题机会 - 当前主要研究方向包括:奖励稀疏性问题解决方案、大规模策略网络特性研究、多任务学习核心问题[5] - 具体课题机会体现在:DSRL针对扩散模型特性设计强化学习方案,SERL-HIL利用人类干预解决奖励稀疏问题,iRe-VLA专注于稳定性解决方案[5] - 行业已积累大量技术文献,涵盖RIPT-VLA、VLA-RL、pi_RL等30余个关键技术项目,为后续研究提供丰富基础[6]
NeurIPS 2025奖项出炉,Qwen获最佳论文
具身智能之心· 2025-11-28 08:04
会议概况 - NeurIPS 2025会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] 最佳论文奖 - **论文1:Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)** - 研究核心为解决大语言模型生成内容同质化问题,提出了Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [7] - 提出了首个用于刻画语言模型面对开放式提示的综合分类体系,包含6个顶层类别和17个子类别 [7] - 基于该数据集的研究揭示了语言模型在开放式生成中存在显著的“人工蜂群思维”效应,包括模型内重复和模型间同质化 [8][14] - 该数据集包含31,250条人工标注,每个样本由25位独立标注者参与 [9] - **论文2:Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free** - 论文首次系统性分析了门控机制对大语言模型的有效性,证明其通过增强注意力机制的非线性和提供输入相关的稀疏性来提升性能 [13] - 研究显示,在SDPA之后进行门控取得了最佳效果,在15B MoE模型上提升了测试集PPL和MMLU性能 [17] - 门控机制实现了更低的最终训练损失,并大幅增强了训练稳定性,有效缓解了损失尖峰,允许使用更高学习率 [17] - 该技术已成功应用于Qwen3-Next模型,显著提升了模型性能与鲁棒性 [13][18] - **论文3:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities** - 论文证明将网络深度增加到1024层可显著提升自监督强化学习性能,在模拟任务上性能提升了2倍至50倍 [20] - 该方法在无监督的目标条件设定下进行,智能体从零开始探索,增加模型深度不仅提升了成功率,还改变了学到的行为 [20] - **论文4:Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training** - 研究揭示了扩散模型训练动力学中的隐式正则化机制,识别出模型开始生成高质量样本的时间点t_g和出现记忆化的时间点t_m [22] - 关键发现是t_m随训练集大小N线性增长,而t_g基本不变,随着数据集变大,会出现一个越来越宽的泛化训练时间窗口 [22] 最佳论文亚军 - **论文1:Reinforcement Learning with Verifiable Rewards is Insufficient for Novel Reasoning in LLMs** - 论文给出了关键否定性结论,挑战了“带可验证奖励的强化学习能够激发LLM全新推理能力”这一广泛接受的假设 [28] - **论文2:Optimal Mistake Bounds for Transductive Online Learning** - 该研究解决了传导式在线学习领域一个长达30年的公开难题,精确刻画了最优错误上界为Ω(√d),并给出了与之匹配的O(√d)上界 [32] - **论文3:Superposition Yields Robust Neural Scaling** - 论文论证表征叠加是支配神经网络缩放定律的主要机制,超越了现象性描述,为缩放定律提供了机制性解释 [35] 时间检验奖 - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》获奖 [2][38] - 该论文是计算机视觉领域里程碑工作,奠定了现代目标检测框架的核心范式,截至现在已被引用超过56,700次 [38][42] - 论文实现了第一个完全可学习的两阶段目标检测pipeline,取代了selective search和手工设计候选框的方法 [43] Sejnowski-Hinton奖 - 获奖论文为2016年发表的《Random synaptic feedback weights support error backpropagation for deep learning》 [45] - 该论文提出了著名的反馈对齐机制,证明多层网络可在无需对称反馈权重下有效学习,推动了生物可行学习规则的研究方向 [48]