ViT

搜索文档
「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
机器之心· 2025-07-19 13:49
Meta挖角「CV铁三角」与多模态AI演进 - Meta近期高薪挖走OpenAI苏黎世办公室的「CV铁三角」(Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai),三人曾在GoogleBrain/DeepMind共事并主导多项视觉AI里程碑研究 [4][5] - 「CV铁三角」的五项核心成果构成多模态AI基础框架: - **S4L(2019年5月)**:通过自监督+半监督学习减少图像分类对人工标注的依赖 [5] - **BiT(2019年12月)**:验证视觉领域大规模预训练→微调范式的可行性,被CLIP/SAM等沿用 [6] - **ViT(2020年10月)**:首次将纯Transformer应用于视觉任务,打破CNN垄断并实现跨模态特征关联 [6][7] - **MLP-Mixer(2021年5月)**:用双层MLP替代卷积/自注意力机制,简化架构同时保持性能 [7] - **PaLI系列(2022年9月起)**:谷歌多模态统一尝试,将图像+语言任务转化为文本生成 [7] - 研究轨迹覆盖从图像分类到多语言对话,为Omni-LLM全模态模型奠定技术路径 [5][7] Multi-Agent协作与RAG技术争议 - 检索增强生成(RAG)被质疑为过渡方案,需与持续状态memory机制互补以支持动态上下文迁移 [2] - 多智能体环境需解决多层级memory架构设计挑战,包括语义漂移、上下文污染及优先级管理 [2] Perplexity挑战谷歌搜索霸权 - Perplexity通过AI原生浏览器突破流量限制型AI瓶颈,创始人Aravind Srinivas构建资源效率型产品护城河 [3] - 谷歌因现有搜索业务模型限制,难以推出非流量受限的AI产品 [3] 行业动态统计 - 本期通讯覆盖30项AI&Robotics要闻,含技术进展10项、国内动态8项、国外动态12项 [3]
刚刚,OpenAI苏黎世办公室被Meta一锅端,三名ViT作者被挖走
机器之心· 2025-06-26 12:35
核心观点 - Meta近期从OpenAI苏黎世办公室挖走三名核心AI研究员(Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai),三人曾共同参与ViT等突破性研究 [3][4][5] - Meta通过高薪策略(最高1亿美元待遇)和CEO扎克伯格亲自招募(每日联系数百名顶尖人才)加速AI人才争夺,目标组建超级智能实验室 [6][7][8] - OpenAI CEO山姆·奥特曼公开淡化影响,称核心团队未流失,但公司已采取反制措施(增加研究资金与资源) [9] 人才流动 - 三名研究员均从谷歌DeepMind跳槽至OpenAI(2024年12月),仅半年后转投Meta [5][12][19][24] - 三人学术影响力显著: - Xiaohua Zhai(翟晓华)Google Scholar被引量超8万,h指数45,ViT论文被引65,568次 [15][16] - Lucas Beyer被引量超8万,ViT论文被引65,200次 [20][21] - Alexander Kolesnikov被引量超9万 [26] Meta的AI战略 - 近期动作: - 投资AI初创公司Scale AI 140亿美元并挖走其CEO [7] - 尝试招募OpenAI联合创始人Ilya Sutskever和John Schulman(未成功) [8] - 扎克伯格亲自参与招聘,通过邮件/WhatsApp直接联系候选人,部分offer包含股权等综合价值达1亿美元 [6] 行业竞争动态 - OpenAI回应称Meta的激进招聘是"疯狂行为",强调核心团队稳定性,但承认需加强人才保留措施 [9] - 三方背景:三名研究员均曾在谷歌DeepMind主导多模态、ViT等前沿研究,后集体加入OpenAI建立苏黎世办公室 [5][12][18][24]
对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”
晚点LatePost· 2024-06-04 18:05
马毅的学术观点与研究方向 - 马毅认为当前AI大模型仅实现局部记忆功能,本质是数据压缩而非真正智能,知识不等于智能,智能应能自我纠正和发现新知识[4][5][51] - 反对Scaling Laws路线,认为单纯扩大数据、算力和参数规模无法实现AGI,现有模型依赖记忆和统计而非因果推理[16][17][22] - 提出智能的简约与自洽原则:规律表达需简洁高效(简约),预测需与外部世界一致(自洽),引用爱因斯坦名言作为理论依据[52][53][54] 白盒大模型技术路径 - 团队开发白盒框架CRATE,用数学解释深度学习网络的压缩过程,目标提升效率并超越黑盒模型[33][34][35] - CRATE在同等参数下性能接近ViT(如CRATE-L参数77.64M,ImageNet-1K准确率71.3%,ViT-S参数22.05M准确率72.4%),新版本CRATE-α通过编码优化已媲美ViT[41][43][47] - 白盒模型可降低试错成本,训练资源仅为经验方法的1/3-1/4,算子更稳定且可解释[38][39][49] 行业现状与批判 - AI行业存在同质化问题,过度追逐Scaling Laws导致研究趋同,国内投入规模大但创新不足[19][21][22] - 批评AI威胁论是"无知或别有目的",指出当前模型无自主意识,危险论调可能阻碍创新[26][28][29] - 工业界更关注实用效果而非理论突破,学界与工业界算力差距加剧模型效果分化[8][9][10] 商业化与教育实践 - 创立忆生科技推动白盒路线产业化,公司定位"下一代智能系统",聚焦完整记忆和闭环学习[83][84][85] - 在香港大学设计AI通识课程,面向所有专业学生教授计算思想,强调正确理解AI基础[81][82] - 认为资源应投向有创造力的年轻人,中国需建立支持年轻团队的创新机制[94][95][96] 历史视角与跨学科启发 - 梳理AI历史发现理论重复现象,如去噪扩散模型本质是250年前的拉普拉斯方法[69][70] - 借鉴神经科学发现,猴子大脑的低维编码与白盒压缩结构相似,闭环反馈机制受生物智能启发[70][71][72] - 区分科学家与工程师思维,前者追求必要性(简约),后者接受冗余(经验试错)[73][74][75]