Workflow
感知先验
icon
搜索文档
读万卷书,大模型就能「看」懂视觉世界?Meta揭秘LLM视觉先验的起源
机器之心· 2025-10-11 12:18
一个只见过文本的大语言模型(LLM),在从未直接看过图像的情况下,竟然能学到可迁移到视觉任务的先验能力 —— 这是 Meta Superintelligence Labs 与牛津团 队新论文的发现。 近日, Meta 超级智能实验室(Meta Superintelligence Labs)与牛津大学的研究者 发布了一篇长达 33 页的重磅论文,通过超过 100 组受控实验、耗费 50 万 GPU 小时的庞大研究,系统性地揭开了 LLM 视觉先验的来源。 作者提出,视觉先验可分为「推理先验」和「感知先验」,并给出了一套预训练的数据混合配方,用于 在只用文本预训练阶段就「播下」视觉能力的种子。 这项研究 不仅解释了 LLM 无师自通学会看的秘密,更提出了一套预训练的数据配方,旨在从语言预训练阶段就有意地培养模型的视觉能力,为下一代更强大的 多模态大模型铺平道路。 论文标题: Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training https://junlinhan.github.io/proj ...