Workflow
「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?

Meta挖角「CV铁三角」与多模态AI演进 - Meta近期高薪挖走OpenAI苏黎世办公室的「CV铁三角」(Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai),三人曾在GoogleBrain/DeepMind共事并主导多项视觉AI里程碑研究 [4][5] - 「CV铁三角」的五项核心成果构成多模态AI基础框架: - S4L(2019年5月):通过自监督+半监督学习减少图像分类对人工标注的依赖 [5] - BiT(2019年12月):验证视觉领域大规模预训练→微调范式的可行性,被CLIP/SAM等沿用 [6] - ViT(2020年10月):首次将纯Transformer应用于视觉任务,打破CNN垄断并实现跨模态特征关联 [6][7] - MLP-Mixer(2021年5月):用双层MLP替代卷积/自注意力机制,简化架构同时保持性能 [7] - PaLI系列(2022年9月起):谷歌多模态统一尝试,将图像+语言任务转化为文本生成 [7] - 研究轨迹覆盖从图像分类到多语言对话,为Omni-LLM全模态模型奠定技术路径 [5][7] Multi-Agent协作与RAG技术争议 - 检索增强生成(RAG)被质疑为过渡方案,需与持续状态memory机制互补以支持动态上下文迁移 [2] - 多智能体环境需解决多层级memory架构设计挑战,包括语义漂移、上下文污染及优先级管理 [2] Perplexity挑战谷歌搜索霸权 - Perplexity通过AI原生浏览器突破流量限制型AI瓶颈,创始人Aravind Srinivas构建资源效率型产品护城河 [3] - 谷歌因现有搜索业务模型限制,难以推出非流量受限的AI产品 [3] 行业动态统计 - 本期通讯覆盖30项AI&Robotics要闻,含技术进展10项、国内动态8项、国外动态12项 [3]