联合嵌入预测架构(JEPA)
搜索文档
种子轮10.3亿美元!谢赛宁加入,LeCun的世界模型公司太吸金了
机器之心· 2026-03-10 15:23
AMI Labs公司概况 - 公司全称为先进机器智能实验室,由图灵奖得主Yann LeCun牵头创办,于2026年1月在巴黎正式启动[1][6] - 公司完成了10.3亿美元的种子轮融资,估值达到35亿美元,融资额超过最初寻求的5亿欧元,最终筹集约8.9亿欧元[1][4][19] - 公司初始团队约12人,全球分布四个地点:巴黎、纽约、蒙特利尔和新加坡,有意发掘硅谷以外的人才[13] 公司核心技术与愿景 - 核心目标是构建一种新型AI系统,该系统能理解世界、拥有持久记忆、能够推理和规划,并且是可控和安全的[4][14] - 技术路线是开发“世界模型”系统,让模型学会将现实世界数据压缩成抽象表示,忽略随机细节,在“表示空间”进行预测和规划[11] - 判断当前AI从语言开始存在局限,真正的智能应从“世界”开始,以处理来自摄像头和传感器的高维、连续、充满噪声的真实世界数据[11] - 技术基础基于Yann LeCun在2022年提出的联合嵌入预测架构[17] 团队核心成员 - 执行董事长为图灵奖得主、前Meta AI负责人Yann LeCun[1][6] - 首席执行官Alexandre LeBrun同时也是医疗AI独角兽Nabla的CEO,并强调公司从基础研究开始,产品化需要时间[17] - 首席科学官为顶尖青年华人科学家谢赛宁,其Google Scholar文献被引用次数达9.8万,h-index为50,其关于Diffusion Transformers的工作是OpenAI Sora的基石[20][21][24][25] - 其他高管包括Meta欧洲副总裁Laurent Solly任首席运营官,Pascale Fung任首席研究与创新官,Michael Rabbat任世界模型副总裁[19] 市场定位与竞争格局 - 公司定位为前沿AI研究实验室,并非传统的实验室或典型的AI应用初创公司[2][3][17] - 2026年AI圈迎来世界模型的“终极对决”,此前李飞飞的World Labs获得了10亿美元融资,欧洲初创公司SpAItial也筹集了1300万美元天使轮融资[6][18] - 公司高管预测世界模型将成为下一个热门词汇,并认为六个月后每家公司都会自称世界模型以筹集资金[17] 应用场景与发展规划 - 目标应用领域包括对可靠性、安全性和可控性要求很高的场景,如工业过程控制、自动化系统、可穿戴设备、机器人以及医疗[12] - 首个合作伙伴将是医疗AI独角兽Nabla[17] - 公司预计在推出首个实际应用前,至少需要一年的研究时间,从理论到商业应用可能需要数年[17]
自回归也能做强视觉模型?NEPA开启「下一嵌入预测」时代,谢赛宁参与
机器之心· 2026-01-02 13:00
研究背景与范式转变 - 视觉预训练的核心传统目标是学习表征,将原始像素映射到固定维度表征以供下游任务微调[8][9] - 自然语言处理领域的成功建立在根本不同的范式上,其预训练目标是作为生成式和预测式系统,通过因果目标对数据分布本身进行建模[13] - 研究表明,生成式预测而非表征学习,可能为扩展预训练提供更直接的途径[15] NEPA核心方法与架构 - 研究团队提出“下一嵌入预测自回归”方法,核心是让模型以过去图块嵌入为条件,学习预测未来的图块嵌入,类似于语言模型的下一词预测[2][16] - 该方法采用带有因果注意力掩码的标准视觉Transformer主干网络,无需单独的解码器,使用单个主干同时进行上下文编码和预测[22] - 训练中对目标嵌入使用停止梯度以创建稳定的预测任务,方法极简,无需像素级解码器、视觉分词器或对比学习中的工程化组件[17][20] 性能表现与实验结果 - 仅在ImageNet-1K上预训练,NEPA的ViT-B和ViT-L模型分别达到83.8%和85.3%的Top-1准确率,优于MoCo v3、BEiT,与MAE和JEPA处于同一水平[29][31] - 在ADE20K语义分割任务上,NEPA的ViT-B和ViT-L模型分别取得48.3%和54.0%的mIoU,证明了纯粹嵌入预测的强大迁移能力[31][32] - 可视化分析显示,模型自动学会了长距离且以对象为中心的注意力模式,预测出的嵌入在语义上与同一物体的其他图块高度相似[37] 研究意义与影响 - 该方法实现了从学习表征到学习模型的范式转变,是视觉预训练领域的一种新探索[2] - NEPA证明了极简的因果预训练可以产生强大的视觉学习器,为跨模态的统一预训练范式提供了无需复杂手工设计的通用视角[16][37] - 该论文在发布时成为arXiv上热度第一的论文,显示了学术界对此方向的关注[4]
图灵奖得主 Yann LeCun:大模型是“死胡同”,下一步押在哪一条路?
36氪· 2025-11-28 09:43
核心观点 - 图灵奖得主Yann LeCun宣布离开Meta,创办专注于先进机器智能的新公司,标志着AI技术路线可能发生重大集体转向[1][2] - Yann LeCun和OpenAI前首席科学家Ilya Sutskever在一周内先后质疑大语言模型主流路线,认为“拼算力”时代结束,后LLM时代正在成形[3][8][31] - 下一代AI的竞争焦点将从模型规模和训练数据转向新架构的发明以及系统的强大与可控性[31][32][39] 对LLM的批判 - LLM被Yann LeCun称为通往人类智能的“死胡同”,因其缺乏对真实世界的理解、常识和因果关系,仅是统计相关性的堆叠[3][5] - 模型规模增大带来语言流畅度提升,但世界理解力未同步跟上,Meta的Llama 4在真实场景中表现远不如基准测试即为例证[5] - LLM能力在实验室显露天花板,性能趋于饱和,更大模型不一定带来更高真实智能,继续堆算力边际收益越来越低[6][7][8] - LLM的核心缺陷在于无法进行多步骤推理、长期规划和具身交互,智能本质是行动能力而非语言能力[12][13] - 语言被视为人类智能的副产品而非核心机制,真正的智能应源于对物理世界的建模、预测和行动[9][10][11] 世界模型与JEPA架构 - Yann LeCun提出的下一代AI路径是构建“世界模型”,让AI能从多模态输入中构建对世界的内部理解,并基于此预测和行动[14][15] - 世界模型的关键在于让AI具备类似人类和动物的抽象内部投影能力,以理解重力、速度、距离等物理概念[15] - LeCun推动的新架构是联合嵌入预测架构,其与LLM的核心差异在于处理多模态数据、预测抽象状态变化及结合表征学习与因果建模[16][17][26] - JEPA架构的学习模式是让AI在模拟环境中自主互动,从中提取因果关系并形成持续记忆,最终具备规划行动能力,不依赖更多token而依赖更好的世界模型[19][20][21] 后LLM时代的技术路线分歧 - Yann LeCun押注世界模型方向,目标是让AI具备对物理世界的理解和行动能力,判断10年内会出现具身AGI原型[25][28] - Ilya Sutskever押注安全超智能方向,关注点在解决AI系统的泛化脆弱性,确保AI能力提升过程中的安全可控[25][29] - 两位先驱代表了后LLM时代的两个主要方向:架构创新派和安全优先派[30] 工业界的动向与影响 - 工业界出现悄然转向迹象:OpenAI确认首个AI硬件原型已完成,计划2年内发布无屏幕AI设备[34] - Google挖来波士顿动力前CTO,推动Gemini成为通用机器人控制平台,目标是让同一模型适配任何形态的机器人[34] - 李飞飞的World Labs融资2.3亿美元后发布商业产品Marble,Figure AI估值达390亿美元,Tesla Optimus计划2026年量产,显示下一代AI将不局限于对话框[35][36][37] - 新架构的突破需要时间,LeCun预估需几年到十年,Sutskever预估需5到20年,当前LLM仍是主流应用基础[38][39][40] - 对创业者和开发者的启示包括:不要迷信模型规模、垂直场景存在机会、开源路线重要以及需做好长期准备[41][42][43][44]
图灵奖得主LeCun:人类智能不是通用智能,下一代AI可能基于非生成式
量子位· 2025-04-14 17:09
核心观点 - 人类智能并非通用智能,而是高度专业化的进化产物 [1][2] - 下一代AI突破可能基于非生成式模型而非当前热门的生成式AI [3][6][14] - 实现人类级AI需解决物理世界建模、推理规划、持久记忆等关键技术 [17][22][23] - AGI概念具有误导性,建议使用"高级机器智能(AMI)"替代 [18] - 开源策略是推动AI生态发展的关键,Meta的LLaMA开源案例已验证其价值 [25][27][33] AI技术发展方向 - 当前AI局限:无法解决新问题、缺乏真实推理能力、依赖语言而非物理理解 [20][21] - 未来突破方向:JEPA架构(联合嵌入预测)可避免像素级生成,转向抽象表征空间推理 [13] - 智能眼镜被视为AI技术落地的重要载体,需整合多感官交互与环境感知能力 [29][32] 行业生态与商业模式 - Meta开源LLaMA系列的战略逻辑:通过开放基础模型扩大广告业务生态而非直接技术变现 [25][27] - 开源模式推动学术研究,使大学等资源有限机构能参与前沿AI开发 [26] - 创新分布全球化,DeepSeek等开源项目崛起证明技术突破可来自任何地区 [27][31] 时间框架预测 - AGI(或AMI)在未来两年内不可能实现,但十年内可能取得重大进展 [18][24] - 历史表明AI突破周期长于预期,如深度学习从理论提出到爆发间隔30年 [20] 技术应用场景 - 未来AI助手特征:全天候响应、多模态交互、专业化分工的虚拟团队 [32][34] - 当前AI优势领域:通过律师考试(信息检索)、代码生成(严格语法)、文本摘要等结构化任务 [20]
杨立昆“砸场”英伟达:不太认同黄仁勋,目前大模型的推理方式根本是错的,token 不是表示物理世界的正确方式|GTC 2025
AI科技大本营· 2025-03-21 14:35
英伟达GTC 2025大会核心观点 - 杨立昆从视觉派角度否定当前主流语言派AI技术路线 认为token不是表示物理世界的正确方式 [8][9] - 杨立昆提出联合嵌入预测架构(JEPA)作为替代方案 强调需要在抽象表示空间而非像素层面进行预测 [14][15] - 杨立昆预测高级机器智能(AMI)可能在十年内实现 但当前大模型扩展路线是错误的 [19][20] AI技术发展方向 - 当前大语言模型已进入产业优化阶段 未来重点应转向机器理解物理世界、持久记忆、推理规划四大方向 [10][11][12] - 世界模型概念被提出 认为人类通过内部物理世界模型处理现实 未来AI需要完全不同架构 [13] - 系统1(快思考)与系统2(慢思考)的区别被强调 当前大模型仅实现系统1水平 [36][37] 硬件与计算技术 - 神经形态硬件和光学计算近期难有突破 量子计算应用前景受质疑 [39][43] - 内存计算技术在边缘设备如智能眼镜上有应用潜力 [40][41] - 视网膜处理机制被作为高效感知系统的生物参考 [43] 开源与创新生态 - Llama系列模型下载量超10亿次 开源模式推动行业创新 [30] - 全球分布式训练开源基础模型被认为是未来趋势 [32] - 中国科学家贡献被肯定 DeepSeek和ResNet案例显示创新可来自任何地方 [8][27] AI应用前景 - AI在医疗影像、自动驾驶等感知领域已产生实际价值 [20] - 科学研究和药物设计是AI最具潜力的应用方向 [20] - AI助手多样化发展需要开源平台支持 未来人机关系将转向管理者-虚拟员工模式 [32][58] 技术挑战与突破 - 残差连接等工程技巧对深度学习发展至关重要 [51] - 为JEPA架构寻找有效"配方"是当前主要挑战 [56] - 视频预测任务显示联合嵌入架构相比重建方法更具优势 [45]