百模竞发的 365 天：Hugging Face 年度回顾揭示 VLM 能力曲线与拐点

2024年伊始，我们还在为大模型的"百亿参数竞赛"惊叹，转眼间，"小而强大"的多模态架构已如雨后春笋般涌现。从Meta Chameleon到Qwen2.5-Omni，从DeepSeek Janus-Pro再到Gemma 3，新一代模型不仅参数更小、推理更强，还涌现出如多模态推理、智能体能力、长视频理解等突破性进展。与此同时，"多模态检索增强生成（RAG）" "多模态智能体"等全新范式也初具雏形。每一次模型发布、每一个技术节点，都在不断刷新我们对"视觉+语言"这一领域可能性的想象空间。 Hugging Face团队回顾并解析了过去一年视觉语言模型领域的关键事件与最新趋势：这一年最值得关注的关键进展包括：整体来看，过去一年视觉语言模型领域主要呈现出如下发展趋势：锦秋基金（公众号：锦秋集；ID：jqcapital）认为，无论你关心的是模型结构的突破、能力的进阶，还是新基准的建立和实际落地的工具，这文章都将为你提供一个不错的起点。 01 新模型趋势在本节中，我们将探讨新型 VLM。虽然有些是全新的，但其他则是先前研究的改进版本。任意到任意 (Any-to-any) 模型任意到任意模型，顾名思义，是 ...