Workflow
世界模型
icon
搜索文档
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
量子位· 2025-06-12 16:17
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 物理学正在走向人工智能—— Meta开源发布 V-JEPA 2 世界模型:一个能像人类一样理解物理世界的AI模型。 图灵奖得主、Meta首席AI科学家 Yann LeCun 亲自出镜宣传,并称: 我们相信世界模型将为机器人技术带来一个新时代,使现实世界中的AI智能体能够在不需要大量机器人训练数据的情况下帮助完成家务 和体力任务。 那什么是世界模型呢? 简单说,就是能够对真实物理世界做出反应的AI模型。 它应该具备以下几种能力: V-JEPA 2 (Meta Video Joint Embedding Predictive Architecture 2 ) 是首个 基于视频训练 的世界模型 (视频是关于世界信息丰富且 易于获取的来源) 。 它提升了动作预测和物理世界建模能力,能够用于 在新环境中进行零样本规划 和 机器人控制 。 理解:世界模型应该能够理解世界的观察,包括识别视频中物体、动作和运动等事物。 预测:一个世界模型应该能够预测世界将如何演变,以及如果智能体采取行动,世界将如何变化。 规划:基于预测能力,世界模型应能用于规划实现给定目标的行动序列。 ...
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
量子位· 2025-06-12 16:16
核心观点 - Meta开源发布V-JEPA 2世界模型,该模型能够像人类一样理解物理世界,具备理解、预测和规划能力,被视为机器人领域的革命性突破[1][5][9] - V-JEPA 2采用自监督学习框架,利用超过100万小时互联网视频和100万图片进行预训练,不依赖语言监督,62小时训练即可生成规划控制模型[10][12] - 模型在运动理解和人类动作预测方面表现优异,在Something-Something v2上达到77.3的top-1准确率,在Epic-Kitchens-100上达到39.7的recall-at-5[23] - 与大型语言模型对齐后,在8B参数规模下多个视频问答任务中展示当前最佳性能,在PerceptionTest上达到84.0,在TempCompass上达到76.9[24][25] - 在新环境中拾取并放置新物体时成功率达到65%-80%[30] 技术架构 - V-JEPA 2采用联合嵌入预测架构(JEPA),包含编码器和预测器两个组件[14] - 编码器接收原始视频并输出捕捉观察世界状态的语义信息的嵌入[15] - 预测器接收视频嵌入及额外上下文,输出预测的嵌入[16] - 训练分为无动作预训练和额外的动作条件训练两个阶段[21] 应用场景 - 下游应用分为三类:理解与预测(行为分类、物体识别、行为预测)、语言对齐(视频问答)、规划(机器人操作)[18] - 短期任务如拾取或放置物体,以图像形式指定目标,通过模型预测控制重新规划并执行最高评分动作[25][26][27][28] - 长期任务如拾取并放置物体,通过视觉子目标实现,类似人类视觉模仿学习[29] 性能表现 - 在运动理解方面,V-JEPA 2 ViT-g384达到77.3 top-1准确率(Something-Something v2)[23] - 在人类动作预测方面,V-JEPA 2 ViT-g384达到39.7 recall-at-5(Epic-Kitchens-100)[23] - 在视频问答任务中,V-JEPA 2 ViT-g384 + Llama 3.1 8B组合达到84.0(PerceptionTest)和76.9(TempCompass)[24][25] 未来发展 - 计划发展分层次JEPA模型,实现跨多个时间尺度的学习、推理和规划[45][46][47] - 探索多模态JEPA模型,整合视觉、音频和触觉等多种感官进行预测[48] 行业影响 - 该技术有望为机器人技术带来新时代,使AI智能体能在现实世界中完成家务和体力任务,且不需要大量机器人训练数据[2] - Meta发布三个新基准测试(IntPhys 2、MVPBench、CausalVQA)评估模型从视频中理解和推理物理世界的能力,当前模型与人类表现(85%-95%)仍有明显差距[32][36][42][43]
被“网暴”两个月后,Yann LeCun 携最新世界模型杀回!小扎千万美元激励抢人,Meta AI 内部权利之争开始
AI前线· 2025-06-12 14:07
Meta推出V-JEPA 2世界模型 - Meta推出新一代世界模型V-JEPA 2,旨在提升AI在物理世界中的视觉理解与预测能力,实现高级机器智能(AMI)[1] - V-JEPA 2被描述为"现实的抽象数字孪生",使AI能够预测行为后果并规划行动方案[1] - 该模型比英伟达Cosmos模型快30倍,并已开源[1][5] - V-JEPA 2基于100多万小时视频数据训练,无需标记视频片段即可执行推理[3][4] - 模型赋予AI三大核心能力:理解、预测与规划,帮助机器构建现实内部模拟[3] 技术特点与应用场景 - V-JEPA 2可帮助AI模拟人类物理直觉,如理解重力影响、预测物体运动轨迹[2][4] - 在实验室测试中,机器人借助V-JEPA 2成功执行抓取、拾取和放置物体等任务[5] - 适用于自动驾驶汽车、仓库机器人和无人机配送系统等需要实时空间理解的技术[3] - Meta发布三项新基准测试(IntPhys 2、MVPBench和CausalVQA)评估模型物理推理能力[5] - 潜在应用领域包括医疗、农业和救灾等需要AI在陌生环境自主运行的场景[18] 行业竞争与战略布局 - Meta将V-JEPA 2视为实现通用人工智能(AGI)的关键里程碑,与OpenAI、谷歌等展开竞争[11] - 行业趋势显示AI研究正向世界建模发展,李飞飞初创公司World Labs获2.3亿美元融资,谷歌DeepMind测试Genie项目[19] - 英伟达在CES上发布Cosmos World Foundation模型系列,提供物理感知视频预测与生成能力[5] - Meta称V-JEPA 2依赖简化空间推理而非大量数据输入,可能比现有AI模型更高效和可扩展[17] Meta内部AI战略调整 - Meta首席执行官扎克伯格亲自领导新成立的"超级智能"团队,计划招募约50名顶尖AI专家[14] - 公司向Scale AI投资140亿美元以获取高质量训练数据,应对Llama 4表现不佳的挑战[13] - 时隔两年Meta再次重组AI团队,提供数千万美元薪酬方案吸引人才[14] - 公司试图挖角谷歌和OpenAI顶级研究员未果,显示行业人才竞争加剧[15] Yann LeCun的AI理念 - Meta首席AI科学家LeCun认为AI需要世界模型而非仅大语言模型,此理念已研究20年[7][8] - LeCun批评大语言模型(LLM)不足以实现人类水平智能,称其为"token生成器"[8] - V-JEPA 2的发布被视为LeCun长期坚持的世界模型理念的重要突破[11]
刚刚,LeCun亲自出镜,Meta推出新世界模型!
机器之心· 2025-06-12 08:53
Meta的AI战略布局 - 公司组建"超级智能团队"以实现通用人工智能 并提供9位数薪酬吸引人才[3] - 推出基于视频训练的世界模型V-JEPA 2 旨在开发能像人类一样认知世界的AI系统[4][5] - 首席AI科学家Yann LeCun强调世界模型是物理世界的数字孪生 可帮助AI理解物理规律并进行任务规划[6] V-JEPA 2技术特性 - 模型架构包含12亿参数 基于联合嵌入预测架构(JEPA)构建[8] - 包含编码器和预测器两大组件 通过自监督学习无需人工标注[16][18][19] - 训练分两阶段:使用超100万小时视频和100万张图像进行预训练 再用62小时机器人数据微调[20][21][25] 模型性能表现 - 在抓取任务(Grasp)成功率从8%提升至45% 放置任务(Pick-and-place)从13%提升至73%[12] - 动作预测任务(Epic-Kitchens-100)准确率达39.7% 超越前最佳27.6%[12] - 在Hugging Face物理推理榜单排名第一 超越GPT-4o等模型[34] 应用场景拓展 - 适用于辅助技术、混合现实指导、个性化教育等场景[6] - 在机器人领域实现零样本规划 新环境物体操作成功率65%-80%[26] - 对自动驾驶和家庭服务机器人具有重大意义[7] 新发布的基准测试 - IntPhys 2测试物理合理性判断 人类准确率85%-95%而当前模型接近随机水平[28] - MVPBench通过最小变化对减少模型作弊 评估真实物理理解能力[29] - CausalVQA专注视频因果关系理解 揭示模型在反事实推理方面的不足[32][33] 未来研究方向 - 开发跨多时间尺度的分层JEPA模型 应对复杂任务分解需求[36] - 探索多模态JEPA模型 整合视觉、听觉和触觉等感官信息[36] - 持续优化在物理推理和因果理解方面与人类表现的差距[28][33]
星尘智能来杰:具身智能 “超级助理” 如何走进真实世界? | Deep Talk
锦秋集· 2025-06-11 20:22
具身智能行业与星尘智能的核心观点 - 具身智能的核心价值在于创造"增量市场",而非简单替代人类岗位,通过机器人放大人类智慧与创造力[2][66] - 星尘智能定位为"超级助理",致力于将AI与机器人技术结合,打造服务于真实世界的产品[2][20] - 技术路径选择"非共识"方向:以力控为第一性原理,采用绳驱传动方案,强调纠错能力而非单次成功率[4][31][32] 技术架构创新 硬件设计 - 首创"为AI设计"的绳驱人形机器人,传动效率达0.03毫米重复定位精度,类比生物肌腱结构[30][33][40] - 硬件性能对标人类动态表现,调酒场景验证其超越传统协作机械臂的运动能力[58][59] - 下半身采用四自由度仿生设计(踝/膝/髋/腰扭转),平衡移动稳定性与商业化落地效率[60][61] 算法模型 - "快慢脑"协同架构:快脑处理实时动作(如追移动物体),慢脑负责策略重构(如抽屉关闭后重新规划)[26][49][50] - VLA(视觉-语言-动作)框架解决"同观测多行为"问题,通过语言标签实现长序列任务规划[51][53] - 数据策略强调迁移学习,新任务数据需求从1000条降至20条,结合模仿学习与强化学习提升泛化能力[45][56][57] 商业化路径 产品理念 - 对标早期苹果公司,追求软硬件一体化产品,而非单纯技术展示[18][20] - 分阶段推进能力进化:1-2年实现基础功能,3-5年扩展家务场景,最终发展为"智能管家"[25] 落地场景 - 首选养老院等非结构化环境,验证交互能力并采集真实物理世界数据[63][65] - 聚焦商业服务与家庭场景,避开工业领域以积累人类生活相关数据[44] 成本控制 - 供应链分两阶段优化:上游厂商参与零部件标准化,设计端根据实际需求调整性能指标[23][62] - 中国供应链优势有望率先催生消费级机器人产品[24] 行业趋势判断 - 具身智能与世界模型形成共生关系:机器人提供物理世界数据反哺AI,AI增强机器人决策能力[67][68] - 未来应用场景包括科学家实验助手(并行执行千次实验)和厨艺数字化(云端复现五星级菜品)[1][66]
Z Potentials|专访陈羽北,Aizip打破效率瓶颈,让AI进入真实产品,推动On-Device AI的未来革命
Z Potentials· 2025-06-11 10:21
在当今 AI 行业,技术的迭代速度与应用的广泛程度正在以前所未有的方式深刻改变着我们的生活。从早期的基础算法研究到如今的智能硬件应用, AI 的 革命已悄然展开,然而,尽管 AI 潜力巨大,其高昂的能耗、庞大的模型和复杂的学习机制仍是行业亟待突破的难题。在这种背景下,致力于突破 AI 效率 瓶颈的创新型公司正引领着一股变革潮流。 在本期的专访中,我们有幸邀请到了 Aizip 的联合创始人陈羽北。 Aizip 作为一家专注于 On-Device AI 模型的创新公司,凭借其高效、紧凑的 AI 模型和 跨领域技术突破,正在推动 AI 技术在硬件设备上的广泛应用 。 Aizip 在多模态感知、语言推理及行为控制等领域取得的成绩,不仅为智能设备带来了更高 效的性能,还使得 AI 融入我们的日常生活成为可能。 在这场对话中,我们将一同探讨陈羽北如何突破传统 AI 模型的效率瓶颈、如何构建具有全球竞争力 的 AI 产品,并深入了解他如何通过 Aizip 实现将 AI 技术从学术研究转化为商业化应用的宏大愿景。让我们一起走进这场精彩的对话! 01 长期研究 AI ,期望提升 AI 能量效率、模型效率及学习效率 ZP: 请先 ...
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 16:41
3D场景生成技术综述 核心观点 - 南洋理工大学S-Lab系统梳理300+篇论文,将3D场景生成方法划分为四大技术范式:程序化生成、基于神经网络的3D表示生成、图像驱动生成、视频驱动生成 [2] - 领域自2021年起进入爆发期,主要驱动力为扩散模型、NeRF、3D Gaussians等新技术涌现 [4] - 当前技术面临生成能力不均衡、3D表征缺陷、数据瓶颈、评估标准缺失四大挑战 [16] - 未来发展方向聚焦高保真生成、物理约束引入、交互式场景、感知-生成一体化四大方向 [12][18] 技术路线分类 程序化生成 - 通过预定义规则/LLM先验自动构建复杂环境(如城市、地形),具备空间一致性优势 [8] - 细分方法包括基于规则生成(地形)、约束优化生成(室内)、LLM辅助生成(布局控制) [8] 神经网络3D表示生成 - 直接生成场景图/参数或3D表征(点云/NeRF/3D高斯),具备强三维理解能力 [8] 图像驱动生成 - 基于2D图像生成模型重建3D结构,包括整体生成(全景图)和迭代生成(图像序列) [9][14] 视频驱动生成 - 融合时空一致性,分为一阶段(端到端)和两阶段(时空分离控制)方法 [9][15] 性能评估维度 - 七大关键指标:真实感、多样性、视角一致性、语义一致性、效率、可控性、物理真实性 [7] - 不同方法在可控性/真实性/效率/一致性之间存在显著权衡关系 [7] 下游应用领域 - 覆盖3D场景编辑、人-场景交互、具身智能、机器人、自动驾驶等关键场景 [2] 未来技术突破方向 - 高保真生成需协调几何/纹理/光照/多视角一致性,提升材质建模与细节捕捉能力 [12] - 物理约束引入需结合可微分物理模拟器,保障物体移动/摆放符合真实规律 [18] - 交互式场景需实现动态响应能力,理解物体可用性/因果关系/多智能体逻辑 [18] - 感知-生成一体化需构建统一架构,双向增强场景理解与生成准确性 [18]
让你的公司像大脑一样思考、连接与成长
36氪· 2025-06-09 19:51
企业预测与适应机制 - 公司成功关键在于建立准确"世界模型"并快速适应变化 而非依赖僵化流程和KPI管控 [2] - 大脑通过持续修正认知最小化意外 企业需模仿神经网络特性实现联通性、适应性和实时反馈 [2][3] - 领导者需训练组织像"超级大脑"一样减少意外、快速反应、持续进化 [4] 组织设计方法论对比 - "笨办法"依赖规章制度和KPI审批 导致组织迟钝脆弱 [5] - "聪明办法"采用神经自适应方式 拥抱变化、实时学习、持续修正 提升灵活性 [5] - 零售案例通过每日销售复盘会议发现需求下降20% 快速调整策略避免损失 [11] 共同认知构建 - 部门间"世界模型"不统一会导致决策矛盾 如市场/销售/产品部对客户需求理解分歧 [6] - 需通过领导团队协作统一客户理解、竞争格局判断和内部摩擦认知 [7] - 谷歌AlphaZero案例显示统一且可更新的世界模型对复杂环境应对至关重要 [7] 神经网络式组织设计 - 打破部门孤岛 采用四象限模型整合客户前线/运营/研发/支持 某案例转化率提升15% [10] - 分散决策权至区域层面 快消公司价格策略反应时间从30天缩至3天 市场份额增10% [12] - 医疗连锁通过单点试验将候诊时间缩短30% 推广后全国客户投诉率下降50% [13] - 电商自动化价格调整流程在供应链混乱时保持60%毛利率 优于被迫降价的竞争对手 [14] 学习型组织建设 - 建立每周战略微调机制 替代传统季度调整节奏 [11] - 将失败视为训练机会 测试广告投入产出比达5:1即快速推广至全品牌 [13] - 动态调整机制优于固定结构 通过灵活流程应对变化而非依赖审批表格 [14]
李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型
量子位· 2025-06-09 17:27
文章核心观点 - 李飞飞因角膜损伤暂时失去立体视觉的经历,促使她认识到空间智能对AI系统的重要性,并坚定了构建世界模型(LWM)的决心 [1][2][3] - 世界模型是AI发展的下一里程碑,其核心在于让AI获得类似生物的空间认知能力,真正理解三维物理世界 [15][23][24] - 当前AI系统在语言处理方面取得突破,但在空间智能方面仍存在明显不足,这是未来需要重点攻克的方向 [10][20][29] 构建能真正理解物理世界的AI模型 - 李飞飞早在大语言模型(LLM)兴起前就意识到构建世界模型的重要性,这与她的学术经历和生病经历有关 [6][7] - 她创建的ImageNet收录超过1000万张精确标注图片,彻底改变了计算机视觉和深度学习的研究格局 [8] - 数据驱动范式所爆发的能量远超李飞飞最初想象,但当前AI仍缺乏对物理世界的理解 [9][10] - 语言对三维物理世界的表征存在天然缺陷,真正的通用智能必须建立在对物理空间结构和物体组合关系的理解上 [12][14][15] 创立World Labs的契机 - 李飞飞与a16z合伙人Martin Casado在关于LLM的学术聚会上达成共识,认为世界模型是当前AI缺失的关键部分 [17][19][21] - Martin指出语言对物理空间的转译低效且失真,自动驾驶行业投入上千亿美元仍未能完美解决二维导航问题 [20] - 李飞飞表示世界模型才是智能的下一里程碑,一旦取得突破将创造无限虚拟宇宙,应用于建筑设计、材料合成等领域 [22][24] 技术突破与团队优势 - 实现世界模型需要集结产业级的算力、数据和人才密度,World Labs组建了全球顶尖的跨学科团队 [25][34][35] - 技术突破点在于让AI从单目视觉输入中重建完整三维场景理解,这是机器人精准抓取和虚拟宇宙生成的基础 [39][40] - World Labs团队在计算机视觉领域有深厚积累,包括神经辐射场(NeRF)技术和高斯泼溅表示法等创新成果 [31][32][33]
对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
21世纪经济报道· 2025-06-08 19:49
AI技术发展趋势 - AI技术从数字世界加速向物理世界转化,重点应用于人形机器人训练和落地[1] - 大语言模型性能提升遇到瓶颈,强化学习优化推理能力、合成高质量数据替代人类标注、激活海量多模态数据成为三大解法[1] - 多模态数据规模可达文本数据的"百倍乃至万倍",将成为未来技术突破的关键[1] 世界模型技术路线 - 大模型技术路线从大语言模型转向原生多模态世界模型,以实现对物理世界的感知和理解[2] - 智源研究院推出"悟界"系列大模型,包括Emu3、见微Brainμ、RoboOS 2.0、RoboBrain 2.0和OpenComplex2[2] - Emu3的核心突破在于建立对物理因果关系的理解,而非简单的多模态信息拼接[2] 具身智能发展现状 - 人形机器人长期价值显著,因其更易融入社会基础设施且利于模型训练,但短期内四足、轮式等形态将共存[3] - 具身智能面临"硬件能力不足限制数据采集,数据稀缺制约模型进化"的循环困局,可通过互联网视频数据训练基础能力再微调解决[3] - 工厂场景成为具身智能优先落地领域,因其封闭环境可规避安全风险且存在重复任务刚需[3] 大小脑融合与泛化性 - 当前具身智能数据量不足以支持大小脑融合模型训练,预计5-10年内可能成熟[3][4] - 具身智能VLA模型泛化性不足,未来需突破专有任务达到跨领域泛化性[4] - 具身大模型发展处于早期阶段,类似GPT-3前的探索期,面临技术路线分歧和产业落地挑战[5][6] Agent与产业应用 - Agent成为产业界发力领域,类比移动互联网APP,基于可用基础大模型开发[4][5] - 基础大模型竞争已收敛至少数玩家,未来可能出现基于基座模型+垂类数据的"千模大战"[5] - 具身智能需解决"感知-决策-行动"协同、多模态数据融合等基础问题才能实现大规模商用[6] AGI发展里程碑 - 物理AGI的重要标志是机器人能真正理解物理因果关系,如"咖啡杯放桌沿会摔碎"[7] - 当前AGI刚过起跑线,具身智能仍需突破技术路线共识和产业落地障碍[5][6]