YOLOv12

搜索文档
放榜了!NeurIPS 2025论文汇总(自动驾驶/大模型/具身/RL等)
自动驾驶之心· 2025-09-23 07:34
自动驾驶 - FutureSightDrive提出时空思维链技术用于自动驾驶视觉思考[2] - AutoVLA开发端到端自动驾驶视觉-语言-动作模型 具备自适应推理和强化微调能力[4] - 阿里与西交联合研发FSDrive系统 论文编号2505.17685[6] - UCLA团队推出AutoVLA框架 论文编号2506.13757[7] - 清华AIR与北航等机构开发双边网格驾驶场景高斯泼溅技术[13] 视觉感知推理 - OmniSegmentor构建多模态语义分割灵活学习框架[16] - 水牛城大学与中科院研发YOLOv12注意力中心实时目标检测器 论文编号2506.05280[18] - 南开大学程明明团队提出DFormer模型 论文编号2509.15096[19] - PixFoundation 2.0研究视频多模态大模型在视觉定位中的运动使用机制 论文编号2509.02807[20][33] 视频理解 - DeepTraverse采用深度优先搜索网络实现算法化视觉理解 论文编号2506.10084[25] - 英伟达与台湾大学开发ThinkAct视觉-语言-动作强化推理系统 论文编号2507.16815[27] 图像视频生成 - Fast and Fluent Diffusion通过卷积解码和拒绝微调提升扩散语言模型效率 论文编号2509.15188[34][63] - AutoEdit实现图像编辑超参数自动调优[31] - OmniSync通过扩散变换器实现通用唇形同步 论文编号2505.21448[36][38] 具身智能 - DeepMind推出自改进具身基础模型 论文编号2509.15155[46][50] - 复旦与上交等机构开发ForceVLA力感知混合专家模型 用于接触式操作 论文编号2505.22159[48][51][64] 大模型训练 - Scaling Offline RL通过高效表达捷径模型扩展离线强化学习 论文编号2505.22866[40][44] - 研究发现在机械推理中LLM世界模型存在输出层脆弱性 论文编号2507.15521[40][62] 大模型微调 - 卷积解码和拒绝微调技术提升扩散语言模型性能 论文编号2509.15188[42][63] - 联邦学习框架实现自适应LoRA专家分配与选择 论文编号2509.15087[42][55] - 康奈尔大学开发差分隐私联邦低秩适配技术 论文编号2507.09990[44] 医疗诊断评估 - 构建3D肿瘤中心视觉问答医疗基准测试VLM诊断能力 论文编号2505.18915[39][44][57] - DeepTumorVQA项目评估视觉语言模型临床诊断准备度[39][44][57] 文档理解与安全 - STEM-POM评估语言模型在文档解析中的数学符号推理能力 论文编号2411.00387[55][65] - AgentMisalignment测量基于LLM智能体的行为错位倾向[55] - 概念级可解释性技术用于审计和引导LLM响应 论文编号2505.07610[54] 代码生成 - SBSC逐步编码方法提升数学奥林匹克竞赛性能 论文编号2502.16666[60] - 卷积解码和拒绝微调技术优化扩散语言模型代码生成 论文编号2509.15188[60][63] 强化学习 - 强化视觉潜在规划实现视觉-语言-动作推理 论文编号2507.16815[23][27][65] - 扩展离线强化学习通过高效表达捷径模型 论文编号2505.22866[40][44] 持续学习 - 持续学习技术改进多模态大语言模型 论文编号2410.19925[53][56] - 研究分布外泛化在ARC类任务中的挑战 论文编号2505.09716[66] 人机交互 - 实时直观AI绘图系统整合形式与上下文意图增强人类创造力 论文编号2508.19254[54] - 公平摘要技术平衡提取式摘要的质量与多样性 论文编号2411.07521[66]