具身智能之心 - 财报，业绩电话会，研报，新闻 - Reportify

具身智能之心

搜索文档

招募VLA+RL&人形运控&数采相关的合作伙伴！

具身智能之心· 2025-12-14 00:02

文章核心观点 - 公司正在招募具身智能领域特定方向的合作伙伴共同研发课程或实战项目旨在为行业从业者提供更多见解 [1][2] 合作方向与内容 - 合作聚焦于具身VLA+RL 机器人运控以及数采相关领域 [2][4] - 具体合作内容包括相关课程的设计与PPT制作 [4] 合作伙伴资质要求 - 潜在合作伙伴需正在从事具身智能领域研究 [5] - 要求至少发表过一篇CCF-A级别会议论文或拥有1年以上的工业界经验 [5] 合作形式与激励 - 合作形式灵活可兼职 [6] - 公司提供高于行业水平的薪资以及资源共享机会 [6] 联系方式 - 有意者可添加指定负责人微信进行进一步沟通 [3][6]

数采相关实战项目

数采相关实战项目

用SO-100，竟然完成这么多VLA实战......

具身智能之心· 2025-12-13 09:02

文章核心观点 - 文章指出，视觉语言动作模型在从理论到实际部署的落地过程中存在显著障碍，许多初学者和研究者即使拥有开源模型和硬件，也难以复现演示效果或成功部署[2][4] - 文章认为，打通数据采集、模型训练优化与部署的全流程存在高门槛，涉及大量未公开的实践技巧，导致学习曲线陡峭，效果难以保证[4][7] - 文章旨在推广一门名为《面向实战与求职的VLA小班课》的付费课程，该课程宣称提供从硬件到算法的全栈实战培训，以解决上述落地难题[10][12] VLA模型落地的主要挑战 - **模型复现与效果达成困难**：即使如GR00T、PI0等模型已开源，依据其代码也难以展示出良好的演示效果[2] - **训练与推理存在鸿沟**：训练过程类似“炼丹”，损失函数虽已降低，但部署到实体机器人进行推理时任务常失败，且原因难以定位[2] - **世界模型应用模糊**：业界讨论世界模型已一年多，但学习者不清楚如何在训练和推理中具体应用[2] - **全流程打通门槛高**：将数据、VLA模型、训练优化、部署整套任务打通对初学者非常困难，有人踩坑半年仍无法入门[4] - **模型训练依赖技巧与细节**：π0、π0.5、GR00T等模型的训练存在许多“trick”，对细节和技巧要求很高[4][7] VLA落地的关键模块与技术难点 - **数据采集**：主要方法包括基于模仿学习的遥操作、VR、全身动捕捉，以及强化学习，在机械臂领域多采用前两种，如何保证数据质量及实现sim2real是关键[5][6] - **模型训练与仿真调试**：在真机数据不足时，仿真和sim2real尤为重要，常使用mujoco、Isaac Gym等框架，训练技巧是关键，例如如何微调模型、在小数据量下取得好结果[7] - **模型部署与轻量化**：训练完成后需对模型进行“瘦身”，因具身模型参数量大，即使2B规模对边缘芯片部署挑战也大，需采用量化、蒸馏等轻量化操作以保证性能并最小化参数量[9] 课程内容与结构 - **课程定位**：课程由具身智能之心平台联合VLA专家开发，宣称是国内首个面向实战与求职的VLA小班课[10] - **课程内容覆盖面广**：涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解[12] - **课程硬件配套**：购买课程即赠送一套SO-100机械臂，包含示教臂和执行臂[17] - **讲师背景**：讲师为某机器人公司VLA高级研究员，拥有5年以上机器人行业实战经验，熟悉全栈技术，并在顶级期刊发表论文10余篇[20] - **面向人群**：包括正在具身领域求职者、VLA入门进阶者、相关领域学生、希望从传统CV/机器人/自动驾驶转行者，以及对领域感兴趣的其他人员[22] - **技术要求**：建议推理使用3060及以上显卡，训练使用2张以上3090ti显卡，学员可自租云服务器，并需具备一定的Python和PyTorch基础[22] - **课程收获承诺**：学员将掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术，对产业落地有清晰认识，简历可获得足够项目支撑，学完可达1-2年以上算法工程师经验水平[25] 课程时间安排 - **开课时间**：课程于2025年12月30日正式开课[23] - **课程章节时间表**： - 第一章：2025年12月30日[26] - 第二章：2026年1月7日[26] - 第三章：2026年1月10日[26] - 第四章：2026年1月25日[26] - 第五章：2026年1月30日[26] - 第六章：2026年2月6日[26] - 第七章：2026年2月16日[26] - 第八章：2026年2月21日[26] - 第九章：2026年2月25日[26]

《面向实战与求职的VLA小班课》

SO - 100机械臂

《面向实战与求职的VLA小班课》

SO - 100机械臂

看一次就能执行！VLA的零样本学习是伪命题吗？

具身智能之心· 2025-12-13 09:02

文章核心观点 - 北京理工大学与LimX Dynamics联合提出的ViVLA框架，通过“统一动作空间构建-并行解码优化-大规模数据生成”的三层技术体系，首次实现了机器人从单段专家示范视频中高效学习新技能，为通用机器人策略学习提供了全新范式 [1] - ViVLA的核心目标是“单样本视频模仿学习”，旨在解决现有视觉-语言-动作模型难以泛化到训练分布之外任务的核心瓶颈 [1] - 该框架在多个基准测试和真实场景中验证了其有效性，特别是在未见过的任务上实现了显著的性能提升，并成功将人类视频知识迁移至机器人动作 [14][16][25] 问题根源与挑战 - **细粒度动作识别能力不足**：现有视觉语言模型侧重语义级视频理解，难以分辨示范视频中精细的操纵动作，导致无法提取关键操作知识 [4] - **动作表征与模态差异**：人类示范视频缺乏动作标注，且专家与目标机器人的动作空间存在本质差异，传统方法无法实现有效知识迁移 [5] - **数据稀缺**：机器人学习领域缺乏丰富多样的专家-智能体配对数据，现有数据集规模小、场景单一，难以支撑通用模型训练 [7] 方案设计：ViVLA的三层技术闭环 - **第一层：统一动作空间**：提出基于动作中心循环一致性的A3C框架，构建跨专家与智能体的统一潜在动作空间，以解决形态鸿沟与动作表征问题 [8][10] - **第二层：模型训练优化**：对视觉-语言-动作模型架构进行两大核心优化，包括并行解码机制与时空掩码策略，以提升推理效率与视频理解能力 [8][12] - **第三层：大规模数据生成**：设计了可扩展的数据生成流程，将人类视频转化为高质量配对数据，最终整合生成了超过89万条专家-智能体训练样本 [8][13][17] 验证逻辑与性能表现 - **LIBERO基准测试**：在包含130个语言条件操纵任务的LIBERO基准测试中，ViVLA在未见过的任务上实现了超过30%的性能提升，成功率从基线模型的0.13提升至0.65 [14] - **跨形态迁移**：在“UR机械臂示范-Franka机械臂执行”的跨形态实验中，ViVLA的未见任务成功率仍保持63%，较基线模型提升超过35% [15] - **真实世界验证**：在12项真实世界操纵任务中，ViVLA从单段人类示范视频中学习技能，未见任务成功率达74%，较AWDA的36%提升超过38%，部分任务成功率高达100% [16][19] 数据生成与规模 - 通过整合7421个人类示范视频，生成了89,736条人类-机器人配对样本，并结合公开数据集，最终形成了总计892,911条专家-智能体训练样本 [13][17] - 使用的数据集包括Fractal、Bridge、Droid、Language Table、BC-Z、FMB Dataset、Ego4D、EgoDex以及生成的Human2Robot数据集 [13] 技术细节与优化 - **并行解码机制**：摒弃自回归生成，采用单次前向传播同时生成所有动作token，大幅降低了推理延迟 [12] - **时空掩码策略**：对输入视频进行时间与空间维度的随机掩码，强制模型从部分观察中预测动作，强化了全局视频理解能力 [12] - **循环一致性约束**：引入动作缓冲池和局部-全局判别器，强制跨模态动作语义对齐，确保动作表征的鲁棒性 [11] 鲁棒性与消融分析 - **环境鲁棒性**：面对物体数量变化、空间布局调整、相机视角切换与光照变化，ViVLA整体成功率保持在70%以上 [20][23] - **组件有效性**：消融实验表明，A3C循环一致性、时空掩码、并行解码均为关键贡献模块，移除后未见任务成功率最高下降38% [24] 局限与未来方向 - **感知局限**：静态相机难以捕捉精细的机器人-物体交互细节，部分场景因遮挡导致抓取精度不足，未来可引入腕部相机提升视角 [27] - **误差恢复**：当前模型缺乏系统的错误恢复能力，未来可通过在数据生成阶段添加轨迹扰动与恢复序列来增强鲁棒性 [27] - **数据规模**：现有数据依赖人工收集的人类视频，未来可探索互联网级人类视频的自动过滤与配对，以进一步扩大数据多样性 [27] 范式价值与行业影响 - ViVLA建立了“数据生成-模型优化-知识迁移”的完整技术链路，通过3D高斯splatting破解配对数据稀缺难题，通过A3C框架与并行解码解决动作表征与推理效率问题 [25] - 其超过89万规模的专家-智能体数据集与模块化架构，为通用机器人策略学习提供了可复用的技术底座，推动机器人从“特定任务训练”向“零样本技能迁移”转型 [25]

单样本视频模仿学习

零样本学习

单样本视频模仿学习

零样本学习

全球强化学习+VLA范式，PI*0.6背后都有这家公司技术伏笔

具身智能之心· 2025-12-13 09:02

文章核心观点 - 视觉-语言-动作模型与在线强化学习结合是具身智能领域一个极具前景的技术方向，能够解决仅靠模仿学习导致的泛化能力不足问题，使机器人更鲁棒、更通用 [4][8][50] - 清华大学与星动纪元团队提出的iRe-VLA方法，通过“分阶段冻结参数”和“探索-内化”的循环迭代，有效解决了对大模型直接进行强化学习时面临的稳定性、算力与模型坍塌三大难题，为VLA+RL的落地提供了可行方案 [16][19][48] - 实验证明，iRe-VLA方法在仿真与真实机器人任务中均显著提升了任务成功率与泛化能力，例如将抓取新物体的成功率从35%提升至80%，并在未训练过的物体上实现从37%到61%的成功率提升 [38][43] VLA+RL的重要性与挑战 - **重要性**：仅靠监督微调的模仿学习在遇到未见情况或数据不完美时，机器人会不知所措，而在线强化学习允许机器人通过试错发现更优解，是实现机器人**非常鲁棒、持久工作**的关键 [8] - **挑战一：环境差异**：物理机器人任务周期长、奖励稀疏，与在离线数据集上训练的聊天机器人不同，学习更为困难 [12] - **挑战二：模型坍塌与不稳定性**：直接对数十亿参数的VLA模型进行在线强化学习，极易出现“灾难性遗忘”或训练崩溃，性能可能倒退 [12] - **挑战三：算力负担**：在本地对几十亿参数模型进行全量梯度更新，硬件要求极高，常超出机器人控制器算力极限 [12] 行业解决方案路径 - **第一种：外挂式干预**：训练额外价值函数或小型RL策略来引导冻结的VLA模型生成动作，VLA本身参数不变，**没有真正发生质变** [19] - **第二种：暴力美学**：直接使用PPO等算法全量微调VLA，勇气可嘉但易导致模型坍塌且算力要求高 [19] - **第三种：从探索到内化的循环**：以iRe-VLA为代表，利用监督微调将RL探索出的高价值行为稳定内化为模型的原生能力，是更可行的路径 [13][19] iRe-VLA方法核心架构与流程 - **模型架构**：VLA模型分为**VLM主干**和轻量级**Action Head**，采用LoRA技术避免全量微调 [17][18] - **第一阶段：在线强化学习**：**冻结VLM主干**，仅训练轻量级的Action Head和Critic Head，使训练稳定且计算量小，可在单张4090显卡上运行，让机器人安全探索 [21][26] - **第二阶段：监督学习**：**解冻VLM主干**，对整个模型进行全参数微调，训练数据混合了RL探索出的新成功轨迹与原始专家数据，防止灾难性遗忘，此阶段计算量大，通常在云端A100集群进行 [32] - **循环迭代**：两个阶段交替进行，形成“探索-内化”的持续学习循环 [30] 实验结果与分析 - **训练稳定性**：iRe-VLA训练曲线稳步上升，而标准PPO直接微调VLA则震荡剧烈，甚至性能下降，证明分阶段冻结参数至关重要 [35] - **仿真环境表现**：在MetaWorld和Franka Kitchen基准测试中，iRe-VLA在已学任务上表现大幅提升，例如将成功率从43%提升到83%，并能学会完全没见过的任务 [38] - **真实世界表现**：在Panda机械臂抓取新物体任务中，仅靠SFT的成功率约为35%，经iRe-VLA在线学习后，成功率**飙升到了80%**，且在完全未参与训练的第三类物体上，成功率也从37%提升至61%，显示出强大的泛化能力 [40][43] - **消融实验**：若第二阶段不解冻VLM，模型性能提升将遇到瓶颈，证明解冻大模型参数对掌握复杂技能和提升泛化性是必要的 [45] 方法的意义与优势 - **经济性**：巧妙分配算力，本地进行轻量级探索，云端进行重量级消化，符合实际部署场景 [54] - **持续学习**：使机器人能通过自我探索，在不遗忘旧技能的前提下，不断掌握新物体和新任务的操作技能 [54] - **行业影响**：iRe-VLA是**全球最早将在线RL引入VLA的工作之一**，被Physical Intelligence的π*0.6论文引用，代表了该方向的前沿进展 [19][50]

效率提升25%，灵巧操作数采困境被「臂-手共享自主框架」解决

具身智能之心· 2025-12-13 09:02

编辑丨机器之心点击下方卡片，关注" 具身智能之心 "公众号更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球（戳我），这里包含所有你想要的! 实现通用机器人的类人灵巧操作能力，是机器人学领域长期以来的核心挑战之一。近年来，视觉 - 语言 - 动作 (Vision-Language-Action，VLA) 模型在机器人技能学习方面展现出显著潜力，但其发展受制于一个根本性瓶颈：高质量操作数据的获取。 ByteDance Seed 团队最新的研究论文《End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy》[1]，针对这一关键问题提出了解决方案。该研究的核心贡献在于提出了共享自主 (Shared Autonomy) 框架，通过合理划分人类操作员与自主 AI 系统的控制职责——人通过 VR 遥操作控制机械臂 (负责高层定位和避障)，DexGrasp-VLA 自主控制灵巧手 (负责精细抓握)，消除了同时遥操作臂和灵巧手的需求，大幅降低操作员认知负荷，有效解决了机器人部署中最关键的数据采集成本问题。通过将数据采集 ...

共享自主框架

星动 XHAND1 灵巧手

RY-H2 灵巧手

共享自主框架

星动 XHAND1 灵巧手

RY-H2 灵巧手

具身智能之心论文辅导正式推出了，国内最专业的师资来啦！

具身智能之心· 2025-12-12 15:59

公司业务与服务 - 公司正式推出具身智能之心论文辅导服务，提供专业师资支持 [1] - 公司服务覆盖大模型、视觉语言模型、机器人技术等多个前沿研究方向，包括VLA、强化学习、3DGS等 [1] - 公司提供论文全流程指导、实验指导以及申博指导等服务 [4] - 公司服务范围涵盖从顶级会议期刊到毕业设计等多种论文级别，包括CCF-A/B/C类会议、SCI各分区、EI等 [5] 市场表现与成果 - 公司辅导的论文中标率很高，已有多篇被CVPR、AAAI、ECCV等顶级会议和期刊收录 [4] - 公司根据不同论文级别设定不同的辅导价格 [4] 客户咨询与联系 - 公司支持带课题或研究方向进行咨询 [2] - 客户可通过指定微信联系公司进行更多咨询或获取论文辅导内容 [2][6][7]

具身智能之心论文辅导

具身智能之心论文辅导

大摩预测了25家人形机器人公司将主导行业，没有宇树、智元

具身智能之心· 2025-12-12 15:59

摩根士丹利报告核心观点 - 摩根士丹利发布报告预测25家人形机器人企业将主导该行业其中中国有7家企业上榜[2] - 报告名单的侧重点并非常规理解的整机制造商而是隐藏在背后的关键“零部件/模组供应商” 包括AI芯片、视觉传感器、精密执行器和电源管理芯片等领域的公司[3][4] - 报告认为这些基础部件供应商是人形机器人发展浪潮中沉默却关键的基石[4] 上榜企业名单与领域分布 - 报告列出了25家全球公司涵盖综合科技、半导体、软件、电子制造、汽车智能解决方案、激光雷达等多个细分领域[2] - 中国上榜的7家企业具体为：百度（综合）、阿里巴巴（综合）、地平线机器人（汽车智能解决方案）、均胜电子（汽车智能解决方案）、科大讯飞（智能翻译）、德赛西威（电子制造）、禾赛科技（激光雷达）[2][3] - 全球其他代表性公司包括英伟达（美国/半导体）、ARM（英国/软件）、三星电子（韩国/半导体）、意法半导体（欧洲/半导体）、英飞凌（德国/半导体）等[2] 报告引发的行业讨论 - 报告名单未包含宇树、智元等国内知名的人形机器人整机制造商引发了部分从业人员对其“专业性”的质疑[4] - 报告选择标准强调核心基础部件供应商的重要性而非终端产品制造商[3][4] - 目前中国国内已形成近150家人形机器人创业公司无论行业是否存在泡沫或泡沫多大基础部件都被视为刚需[4]

人形机器人

视觉传感器

人形机器人

视觉传感器

GLaD：知识蒸馏将3D几何先验注入VLA模型，任务成功率突破94%

具身智能之心· 2025-12-12 09:22

研究背景与核心问题 - 视觉-语言-动作模型是具身智能的关键技术，能让机器人根据视觉和语言指令生成动作 [2] - 现有模型大多依赖2D视觉编码器，擅长语义对应但缺乏对深度、物体位姿等3D空间信息的编码能力 [2] - 此缺陷导致模型在操作任务中注意力分配错误，无法精准定位相关物体，影响任务完成精度 [2] 解决方案：GLaD框架 - 核心思路是通过知识蒸馏将3D几何先验注入VLA模型，使其同时具备语义理解和空间推理能力 [4] - 该框架无需依赖额外的深度传感器或3D标注 [4] - 整体架构分为几何蒸馏模块和分阶段训练策略两部分 [7] 几何蒸馏模块设计 - 模块核心是通过将LLM视觉token的隐藏状态与几何感知教师模型的特征对齐，实现几何知识深度融合 [9] - 训练采用组合损失函数，同时优化动作预测和几何对齐 [10] - 动作预测使用交叉熵损失，几何对齐使用MSE损失，通过超参数平衡两者权重 [10] 分阶段训练策略 - 第一阶段为几何蒸馏预训练：基于Bridge数据集，在8张A100 GPU上训练45个epoch（约9天），学习率5e-7 [12] - 第二阶段为下游任务微调：针对LIBERO等任务，采用LoRA进行参数高效微调，在8张A100 GPU上训练60k步，学习率3.5e-5 [12] - 训练中使用冻结的VGGT作为教师网络，从视觉观测中推断3D几何属性 [11] 实验数据集与基准 - 预训练选用Bridge数据集，因其多样化操作演示可让模型学习基础视觉-运动技能，且计算效率高 [13] - 评估使用LIBERO基准，包含130个语言条件化操作任务，分为SPATIAL、OBJECT、GOAL、LONG四个套件 [17] - 引入LIBERO-PRO基准，通过物体、位置、语义、任务四类扰动来检验模型是“记忆”还是“理解”任务 [17] 核心实验结果 - 在LIBERO基准上，GLaD平均成功率达94.1%，超过使用相同预训练数据的UniVLA的92.5% [14] - GLaD在OBJECT套件上表现最优，成功率达97.4% [14] - 在LIBERO-PRO的物体扰动场景下优势显著：在GOAL套件成功率81%，UniVLA为62%；在LONG套件成功率54%，UniVLA为47% [16] - 在特定任务如"Put(bowl, plate)"中，成功率差距达60个百分点（GLaD 84% vs UniVLA 24%） [16] 消融实验与关键设计验证 - 几何编码器选择：VGGT相比PI3编码器，在SPATIAL套件成功率提升29.8个百分点（95.0% vs 65.2%），整体平均成功率94.1%远超PI3的86.1% [25] - 特征对齐层：对齐LLM最终层（32层）相比对齐24层，在OBJECT套件成功率提升6.8个百分点（97.4% vs 90.6%） [25] - 几何融合策略：LLM表征空间的晚期融合相比视觉特征空间的早期加权融合，平均成功率提升10.1个百分点（94.1% vs 84.0%） [25] - 注意力图分析定性佐证了上述结论，GLaD能精准聚焦任务目标 [22] 关键讨论与结论 - GLaD通过几何对齐，使模型同时掌握“物体是什么”和“物体在何处”，这是其在OBJECT套件取得高成功率的核心原因 [23] - 消融实验证实，LLM最终层的晚期对齐方案显著优于早期融合，可实现任务自适应的几何-语义整合 [26] - LIBERO-PRO结果体现不对称鲁棒性：GLaD对物体外观扰动抗性强，但对位置扰动提升有限，验证了几何特征能让模型锚定空间结构而非表面视觉特征 [26] - 整体上，GLaD框架在LIBERO基准取得94.1%的平均成功率，在物体扰动场景中表现出显著鲁棒性，且无需额外3D标注或传感器，为高性能VLA模型构建提供了新范式 [28]

视觉-语言-动作（VLA）模型

视觉-语言-动作（VLA）模型

被拒≠失败！这些高影响力论文都被顶会拒收过

具身智能之心· 2025-12-12 09:22

Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客，阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客，并重点介绍了Waymo使用的蒸馏方法，该方法与创建Gemini Flash模型的思路类似，旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史，许多支撑起万亿级产业的基石技术在最初问世时，都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人，但在面对过于超前或离经叛道的研究时，存在系统性认知滞后，包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明，同行评审善于识别错误，但往往拙于鉴别天才，真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下，其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次，并在2010年代随算力与数据爆发，于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅，不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表，统治计算机视觉领域长达15年，其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑，并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键，论文引用量超过60,231次，并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人（包括Jeff Dean）关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐，认为工作“不科学”、“定义模糊”，且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及，成为NLP领域基石，论文引用量超过50,855次，并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿，理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义，即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表，开启了模型压缩领域，目前引用量已超过28,600次，并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代，评审因其定位精度（mAP）不如当时最优方法而拒绝，忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架，其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限，只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线，论文引用量超过23,479次，揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足，且未能在所有任务上全面超越Transformer[37] - 尽管被拒，该架构在社区引发巨大反响，基于Mamba的变体大量涌现，成为2024年最具影响力的架构创新之一，论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见，尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明，一项研究的最终价值取决于其解决问题的能力及历史回响，而非短暂的评审决定[47] - 许多具有深远影响的研究者，包括图灵奖和诺贝尔奖得主，都曾经历过论文被拒[48]

NeurIPS'25! AutoSeg3D：在线完成任意3D分割，只需1张4090

具身智能之心· 2025-12-12 09:22

点击下方卡片，关注" 具身智能之心 "公众号编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。前沿在大模型时代都在拼scaling，对于具身自驾这种任务似乎都想要8卡起步训练一个模型，今天借助分享的机会也给大家推荐可以1张4090就能发顶会的方向，就是本文写的具身场景点云实例分割。当然不是说推荐给大家一个用少量资源"水论文"的方式，当时让学生做这个方向也是因为觉得是可以真实落地的技术，也没特别出乎意料，这篇论文已经开始在两家公司进行技术转化切实落地。对于具身来说，VLA或者各种所谓世界模型是很fancy，但是还有很多听起来不那么fancy的方向既能发论文又能真实落地，也希望能看到更多底层技术可以被研究优化支撑真正的产业化。也欢迎大家来无界-AutoLab联合实验室（上海）实习，一起共创各种有意思的技术方向：） -- Dylan老师论文总结（1）作者发现现有的在线 VFM 辅助方法通常先用 SAM 等 VFMs 预测 2D ...

在线3D实例分割

在线3D实例分割