Workflow
MoCo
icon
搜索文档
单个LLM已不够?华盛顿大学开源多模型协同框架MoCo
机器之心· 2026-02-16 08:06
多模型协同研究趋势与愿景 - 研究趋势正从训练单一通用大语言模型转向关注多模型协同,即由不同群体、基于不同数据、以不同目的训练的多个大语言模型,通过多样化的协同算法与系统架构形成组合式人工智能系统 [2] - 多模型协同揭示了一种AI新未来的可能:由去中心化训练的多样化小模型通过协同算法构建模块化、组合式的AI系统,使得人人都能参与共建一种不为任何人单独所有的公共人工智能系统 [2] MoCo框架概述 - 华盛顿大学冯尚彬团队联合斯坦福大学、哈佛大学等研究人员提出了MoCo,一个针对多模型协同研究的Python框架,旨在支持研究并加速未来愿景的实现 [3] - MoCo支持26种在不同层级实现多模型交互的算法,研究者可以灵活自定义数据集、模型以及硬件配置,比较不同算法,优化自身算法,以此构建组合式人工智能系统 [3][6] - MoCo为设计、评估与分享新的模型协同算法、组合式智能以及协同开发策略提供了重要基础 [3] 多模型协同算法分类 - 多模型协同算法按模型间信息传递的层级主要分为四大类:API层级、文本层级、logit层级和权重层级 [5] - API层级协作将多个模型视为多个备选的API,根据不同任务与需求选择不同的模型,主要方法包括routing、cascading、switched generation等 [5] - 文本层级协作指多个模型通过生成文本的交互而协作,从而分工解决问题、优化模型输出,主要方法包括debate、feedback、response aggregation、structured interaction等 [5] - Logit层级协作指多个模型的next-token distribution之间进行代数运算,再根据共同的distribution进行decoding以生成文本,主要方法包括logit aggregation、contrast等 [5] - 权重层级协作指多个模型在权重空间进行信息传递与交互,以获得对当前任务更有效的新模型或系统,主要方法包括model merging、parameter arithmetic等 [5] MoCo框架功能与特点 - MoCo汇集众多模型协同研究者的力量,将分散在不同代码库中且使用不同框架的多样方法统合到一个框架与Python package中,解决了系统性研究与对比算法的阻碍 [10] - 使用MoCo非常简便:下载代码库或通过`pip install modelco`安装Python包,通过config文件设置参与协同的模型、目标数据集、硬件配置以及各类超参数,再通过一个命令就能执行从简单到复杂的各式协同算法 [10] - MoCo自带25个评估数据集,囊括问答、数学、推理、代码、安全等应用场景,用户也可轻松引入自己的评估数据集,或者仅用MoCo生成回答而另做评估 [12] - MoCo中的绝大部分算法采用了极为灵活的实现方式,支持任何数量的任何模型通过任何数量的常见GPU进行执行,从而使得小模型与少资源的研究场景也被充分支持 [12] 基于MoCo框架的研究发现 - 扩大模型协同系统的规模,将模型数量从2个扩充至16个,发现了普遍的向上趋势,这揭示了一种新的AI system的可能性,即很多小模块自底向上组成大系统 [13] - 在同等规模下,模型多样性具有重要作用:在模型数量均为8的情况下,8个多样的大语言模型协作显著优于8个同质的大语言模型协作,揭示了多个模型之间取长补短、互相成就的重要性 [13] - 多模型协作系统能够解决此前单一模型所不能解决的问题:在所有单一模型都不能解决的问题中,其协同系统平均能够解决18.5%的问题,揭示了模型协作在交互过程中涌现了单一模型所不具有的能力 [15]
他们认识香蕉也认识黄色,却不知道香蕉是黄色的
36氪· 2026-01-16 15:25
研究核心发现 - 语言系统与视觉感知系统在大脑中存在深刻交互,语言不仅影响知识的存储与提取,甚至能影响实时视觉感知[1][2][5] - 前颞叶是存储抽象概念知识的关键脑区,它通过白质纤维束与视觉皮层连接,实现语言系统与感觉系统的沟通[1][2] - 连接前颞叶与视觉皮层的白质纤维受损的特殊卒中患者,视觉功能完好但无法判断灰度图片中物体的颜色,且损伤越严重,颜色判断能力与大脑颜色编码越差[1][2][3] - 先天性失明者通过语言习得的颜色知识,其大脑前颞叶的活动模式与视力健全者高度相似,证明语言是独立于感官体验的知识获取途径[2] - 利用AI模型进行对照实验发现,接受过文本训练的模型其内部特征与人类视觉皮层中由语言引发的活动模式相似,而纯视觉模型及特殊卒中患者、猴子的大脑活动模式则更接近[5][7][8][9] - 无论是通过语音、文字还是手语习得的语言,都可能深刻影响视觉感知,早期失聪但熟练使用手语的听障者,其大脑活动也更接近接受文本训练的AI模型[9] 实验方法与模型 - 研究团队通过对比先天性/早期失明受试者与视力健全者的大脑活动,探究非感官途径的知识表征[2] - 为解决人类研究中语言与视觉输入高度耦合的难题,团队采用AI模型作为分离研究手段,严格控制输入数据类型[5][7] - 研究选取了三个架构相同、仅训练时语言输入不同的AI模型进行对比:纯视觉模型MoCo、通过图像标签训练的ResNet-50模型、通过图像对应完整描述文本训练的CLIP模型[7][8] - 将人类实验中使用过的图片输入AI模型,观察其内部反应模式,并与人类受试者观看同样图片时的大脑活动进行对比[8] 理论意义与学科交叉 - 研究挑战了“语言仅是交流工具、不影响基础感知”的传统神经科学观点,认为语言作为抽象编码系统已深度重塑人类认知[10] - 认知科学与人工智能研究正在相互靠近、相互启发,利用AI模型可检验人脑机制,反之亦然[12]
「走出新手村」十次 CV 论文会议投稿的经验总结
自动驾驶之心· 2025-06-30 20:33
论文生产发表流程 - 深度学习论文生产流程包括从想法到实验扩充、撰写修改、投稿审稿、反驳修改等环节,通常需要经历多次打磨和修改[3] - 论文投稿后若未因格式等问题被直接拒绝,将进入审稿阶段,由三位审稿人给出意见反馈,作者需撰写一页反驳并等待最终结果[4] - 论文录用率通常在六分之一到四分之一之间,大多数论文会经历多次投稿和修改过程,形成所谓的"斐波那契投稿法"[4][5] 写好论文的意义 - 论文是传达思想的载体,帮助作者严格完成工作并明确创新点,同时为后人提供改进基础[7] - 高质量论文具有长期影响力,可能成为学者科研成就的代表作,而低质量论文可能误导他人或成为黑历史[7] - Simon Jones推荐通过写论文来监督研究进程,在写作过程中发现问题并补充实验[7] 创新点和论文核心 - 创新性(novelty)是论文关键,可表现为新问题、新发现或颠覆理论,MXNet作者李沐提出创新性=影响范围×有效性×新颖性[10] - 衡量创新性常见错误包括:认为复杂即创新、混淆前人工作、说不清创新点等[10] - 论文应明确核心想法并不断打磨,避免"从多个方面改进算法"等模糊表述,理想状态是"一条巨龙,一招制敌"[11] 论文的写作要点 - 深度学习论文常用"八股文"结构,同一故事在摘要、介绍和正文中分层次讲述三遍[13] - 标题和摘要最关键,影响检索和审稿人匹配,流行做法是为方法起好记名字如ShuffleNet、Transformer等[13][14] - 好论文标准:问题重要新颖、思路有理有据、实验超越前人、消融实验扎实;差论文则呈现混乱、拼凑或选择性展示结果[15] - 写作技巧包括:用图表串联故事、优化详略分布、先求严谨再求美观、统一符号定义等[16] 投稿经验与审稿意见 - 作者存在知识盲区,需通过他人反馈修正错误认知,写作时要考虑不同读者群体[18][19] - RIFE论文经历五次投稿,前四次分别因基准错误、动机不明、亮点不突出被拒,最终通过调整内容结构获得录用[20] - CoNR论文因跨领域问题遭遇多样化审稿意见,通过裁剪内容和凝练创新点改进;DMVFN论文因突出优势一次投稿即中并被选为CVPR亮点论文(占接收论文10%)[21] - 常见负面审稿意见包括:缺少重要参考文献、结果不可信、不尊重前人工作、创新性差、呈现质量差、路线分歧等[22][24]