Workflow
世界模型
icon
搜索文档
“今天的OpenAI,就是昨天的Sun!” 杨立昆最新长谈:像Linux击溃微软一样,开源AI终将统治世界
AI科技大本营· 2026-05-18 20:09
文章核心观点 - 当前主流的大型语言模型技术路线并非通向人类级或类人智能的道路,其根本缺陷在于缺乏预测行动后果、形成计划和建模真实物理世界的能力 [5][7] - 行业存在明显的“羊群效应”,几乎所有大公司都押注于同一种LLM技术范式,这导致高质量公共语料枯竭、训练成本暴涨、闭源加剧,技术边界日益清晰 [3][5][22] - 下一代人工智能的发展方向应是“世界模型”,其核心是让系统具备预测自身行动后果的能力,并通过规划与搜索来完成任务,这比当前依赖海量数据模仿学习的LLM路径数据效率更高,泛化能力更强 [12][13][19][20] - 联合嵌入预测架构是构建世界模型的关键技术路径,其通过在学习到的抽象表征空间中进行预测,避免了生成像素等低效方式,是比生成式架构更有效的学习世界表征的方法 [15][17][18] 对当前LLM技术范式的批判 - LLM是“有用的产品”,擅长处理语言、代码、数学等符号系统,但在处理高维、连续、充满噪声的真实物理世界时存在根本局限 [5][7][8] - LLM缺乏构成智能行为的关键特征:预测行动后果的能力,以及通过优化搜索进行规划的能力 [12][13] - LLM本质上是不安全且不可靠的,因其无法阻止幻觉,也无法保证其作为智能体时不会采取未预测到后果的行动 [49][50] - LLM的能力提升严重依赖为每个特定任务收集大量训练数据,数据效率低下,且无法实现可靠的零样本任务解决 [19][20][44] JEPA与世界模型的技术路径 1. **核心理念** - 世界模型的核心是让智能系统能够预测自身行动的后果,并据此进行规划以完成任务 [12][13] - 目标是构建“为真实世界打造的AI”,其学习速度应像人类一样高效,例如一个17岁青少年能在约20小时内学会开车 [20][21] 2. **技术优势** - 基于世界模型的系统泛化程度远高于模仿学习系统,能以更少的训练数据覆盖更广泛的任务,并有望实现零样本问题解决 [19][20] - 联合嵌入预测架构通过在学习到的抽象表征空间中进行预测,被证明是比预测原始像素更有效的学习图像和视频表征的方法 [17][18] 3. **应用前景** - 短期应用集中在工业领域,如复杂系统(喷气发动机、化工厂、生产线)的过程控制与优化,以及医疗保健领域的疗程设计等 [25][26][53] - 长期目标是实现家用机器人、L5级别自动驾驶汽车等通用具身智能应用 [25] 行业生态与公司战略 1. **行业趋势与问题** - 硅谷出现“羊群效应”,几乎所有公司都在追逐同一条LLM技术路线,导致创新同质化 [5][22] - 高质量公共文本数据已耗尽,公司转向授权商业版权数据或使用合成数据训练,加剧了闭源趋势 [38] - 大公司内部,短期产品化压力与竞争导致探索性长期研究失去优先级,研究和开发之间出现“阻抗失配” [9][10][58] 2. **Meta案例与离职原因** - 公司在2023年将战略重心重新集中在LLM以追赶行业,导致许多探索性研究(如JEPA和世界模型)不再被赋予高优先级 [10] - 尽管高层支持,但公司中下层将精力全部集中于LLM,且JEPA技术的应用场景多属Meta不感兴趣的工业领域,因此不再是推进该研究的合适环境 [8][10][67] - 对Llama系列没有技术贡献,主要贡献在于力排众议推动了Llama 2的开源,以启动整个AI行业 [70] 3. **开放与闭源之争** - 闭源模型公司(如OpenAI、Anthropic)被类比为过去的Sun Microsystems等专有系统巨头,而开源力量最终可能像Linux一样抹平专有优势 [37][38] - Tapestry项目旨在通过联邦式协作,让美国和中国之外的国家共同训练一个开放的全球基础模型,各国可在其上基于自身文化、语言和价值体系进行微调,以实现AI主权 [34][35][36] 对研究社区的建议与展望 - 建议在读博士生不要研究当前的LLM,因为难以做出贡献,而应致力于研究下一代AI系统 [61][63] - 取得突破性研究的最佳方法是雇佣最优秀的人才,给予资源,然后不加以干涉 [60] - 预测到2027年初,行业将普遍认识到需要改变现有技术范式 [30] - 未来智能系统的蓝图将是具备世界模型的、能够思考的系统,LLM将主要作为语言接口存在 [29]
百度Create 2026具身智能专场论坛成功举办 产学研共探技术落地新路径
机器人大讲堂· 2026-05-18 20:00
行业迈入关键拐点 - 全球AI产业核心命题已转向让AI在物理世界安全、可靠、低成本行动,产业机会从软件延伸至制造、物流、交通、民生服务等国计民生产业[2] - 具身智能是涵盖模型、数据、本体、芯片、传感器、控制、安全及供应链的系统工程[4] - 百度智能云将从三大维度深耕:夯实AI基础设施、深化场景链接、推动行业标准建设[4][5] 星动纪元:全栈系统驱动规模化 - 人形机器人从“可用”迈向“可规模”需构建AI Native全栈系统,覆盖数据、大脑、本体、应用四层闭环[6] - 规模化落地四大核心前提:场景价值、产品市场匹配、稳定交付能力、可控成本[6] - 构建五级数据金字塔,从互联网数据到真机数据,其中长尾故障数据价值远超常规成功数据,真机数据是最高质量数据源[8] - 大脑端,世界模型是突破泛化上限的核心;本体端,坚持核心硬件全栈自研、模块化设计,重点突破五指灵巧手技术[8] 智平方:VLA范式进化与开源 - VLA范式正持续迭代,其本质是语言、视觉、行为三要素的端到端对齐[9] - 自研NeuroVLA模型融合类脑计算,实现毫秒级实时响应与强逻辑推理,适配物理世界动态复杂需求[11] - 联合百度智能云开源AlphaBrain Platform,开放自研VLA模型、测评工具、数据服务及场景化工具链,旨在降低行业研发门槛[11] 浙江大学熊蓉:SPIRE知行融贯体系 - 提出SPIRE知行融贯发育体系,构建“大脑+小脑”分层架构,破解VLM识别不准、物理交互薄弱、算力依赖高、跨场景泛化不足四大痛点[12][13] - 力、触、重量、摩擦力等物理信息必须纳入模型训练核心环节[15] - SPIRE体系已在多场景规模化落地:与杰克科技签订2000台订单攻克柔性布料操作;联合方太发布全球首个机器人总厨;在康养场景完成喂饭、陪护等服务[15] 百度百舸:全栈AI基础设施 - 百度百舸已升级为具身智能专属全栈AI Infra,覆盖数据准备、训练、仿真、推理、真机部署全链路[16] - 2026年行业两大趋势:世界模型分布式训练进入爆发期;运动控制策略走向统一范式并向大规模Scaling演进[18] - 针对性优化技术:提供5B–20B中型模型高性价比算力配置,解决世界模型推理延迟瓶颈,优化运动控制策略多机训练[18] - 已累计支撑30余家具身企业完成模型研发与真机落地,平台预置多种数据集、仿真环境与框架,集成英伟达Isaac生态等[18] 逆矩阵科技:世界模型核心在Action - 世界模型核心价值在于搭建物理世界的因果推理体系,动作是建立因果关联、解构物理规律的关键[19] - 首创世界模型W0至W5分级理论,W0为视频生成阶段,W5是能自主完成复杂任务的真实世界通用推理阶段[21] - 通用世界基座模型是各垂直场景规模化落地的核心基础,各类真机与仿真数据可跨场景互补赋能,构成双向飞轮[21] 日冕机器人:构建Scaling飞轮 - 提出具身世界模型的Scaling飞轮:表征、数据、训练范式三者相互驱动形成闭环[22] - 下一代表征体系需具备离散性、普世性、结构性,以降低对重人力采集数据的依赖,开启数据Scaling曲线[24] - 提出世界模型奖励系统方案,将世界模型泛化性优势融入真机强化学习,降低对现场部署训练和人在环的依赖[24] - 将高速增长的AI基础设施制造业作为重点突破方向,该行业具备多批量快迭代、精细操作丰富、扩产需求旺盛特征[25] 英伟达:Compute is Data新范式 - 行业正从“计算资源处理数据”走向“以高性能计算驱动高质量数据生产”的新范式[26] - NVIDIA的Physical AI Data Factory Blueprint旨在统一自动化训练数据的生成、增广与评估流程[26] - Cosmos可用于合成数据生成、视觉推理和动作仿真,加速通用机器人智能开发[28] - NVIDIA已构建完整产品栈覆盖仿真、训练、评测到部署,Isaac Sim/Lab和GR00T模型已在百度智能云上线[28] 北京人形机器人创新中心:开源生态 - 作为国家队推动技术普惠,已开放天工1.0通用人形机器人硬件设计、RoboMIND多模态数据集、运动控制框架TienKung-Lab、VLA及世界模型等核心资产[29] - RoboMIND数据集累计40万条,下载量600万+[29] - 发布基于通用平台“慧思开物”的低代码开发平台和领先的VLA仿真平台,降低开发者门槛[31] - 联合百度智能云开启首届具身智能黑客松大赛,设立运动控制、VLA模型微调两大赛道,开放硬件、数据集、仿真平台与算力资源[31][33] 圆桌论坛:行业共识与挑战 - 具身智能已走完从0到1,正迈入从1到100的规模化发展周期,世界模型与VLA技术路线可融合互补[38] - 2026年将迎来行业格局剧变,技术路线从多元分散走向收敛,应用场景转向规模化落地,搭建完整数据闭环是核心[40] - 清晰的任务界定与轻量化评测体系是搭建数据闭环、支撑技术规模化发展的基础[42] - 情感共生成为共识,人形机器人终极落点面向消费端,硬件形态终将收敛到仿人构型[44] - 行业首要解决泛化能力弱、优质数据稀缺、物理世界理解不足等痛点,商业化落地需循序渐进[46] - 把2026年定义为具身智能落地元年,主张从开发者生态场景切入,打造具备成长进化能力的产品[48] - 硬件形态会向人体构型靠拢,开源本体搭配小脑系统能有效降低行业准入门槛[50] - 具身智能是复杂系统工程,数据加工的重要性远超原始采集,高质量的数据编译是模型训练核心[52]
贾跃亭FF中国公司近一年6次增资;如祺出行首度公开AI数据资产版图丨汽车交通日报
创业邦· 2026-05-18 18:32
如祺出行AI数据资产 - 公司旗下数据业务板块首次完整披露AI数据资产版图,覆盖标注数据、行为数据、合成数据及多模态训练数据集四大类[1] - 公司基于真实出行场景长期积累的数据,将支持自动驾驶、具身智能、世界模型等面向真实物理世界的AI技术发展[1] 法拉第未来(FF)中国公司动态 - 公司在贾跃亭重新出任全球CEO后获得新的资金加持,近期累计完成7000万美元机构募资[2] - 公司中国关联公司法法汽车(中国)有限公司自去年1月以来,注册资本由4.2亿人民币增至4.81亿人民币,增幅约15%,近一年内完成6次增资[2] 小米汽车产品定位 - 小米公司发布视频,雷军解释小米YU7 GT与Ultra的定位差异:Ultra是极致性能体验,用于赛道;GT是适合长途旅行的跑车级SUV[3] - YU7 GT需要在高性能、豪华舒适和长续航间取得平衡,更适合长途旅行和日常使用[3] 零跑汽车新产品信息 - 零跑汽车公布首款MPV车型D99的内饰,其最大亮点是支持多种空间模式[4] - 具体模式包括:一二排纯平放倒成床、三排180度放倒成床、二三排放倒成床,且三排支持钓鱼座功能;二排座椅支持90°、180°旋转并配备小桌板[4] 文远知行对无人驾驶技术的观点 - 文远知行创始人兼CEO韩旭在论坛上表示,更倾向于用数字而非名词来评估技术进展[11] - 韩旭指出,高阶辅助自动驾驶与无人驾驶之间的可靠性要求相差1000倍(三个数量级),并认为达不到百万公里级MPI(平均无干预里程)就别自称做无人驾驶[11]
如祺出行首度公开AI数据资产版图:以真实出行数据切入具身、世界模型赛道
IPO早知道· 2026-05-18 17:10
公司AI数据业务版图与战略 - 如祺出行旗下数据业务板块于5月18日首次完整披露其AI数据资产版图,该资产已覆盖标注数据、行为数据、合成数据及多模态训练数据集四大类[2] - 公司正加快将其AI数据服务向具身智能、世界模型等高增长领域拓展,以开辟新的增长曲线[2][3] - 2025年,以AI数据服务为主要收入来源的技术服务板块录得营收1.60亿元,同比大幅增长487.4%,是公司增长最快的业务板块[2] 数据资产的核心价值与优势 - 公司在真实出行场景长期积累的数据,天然包含驾驶员行为、道路交互、空间关系、时间序列等深层信息,符合当前AI行业、尤其是世界模型训练最稀缺的优质数据要求[3] - 公司凭借每年数亿的出行订单规模和庞大的车辆运行数据,持续积累海量多模态数据,这些数据记录了“司机决策-车辆响应-环境反馈”的完整链条,具备因果关联与交互逻辑,尤其适用于训练世界模型和具身智能系统[5] - 公司通过“一边常态运营、一边合规采集”的模式,显著降低了数据获取的边际成本,且采集场景丰富,有机会快速形成差异化竞争优势[6] 数据采集与生产能力 - 公司自2023年开始布局AI数据解决方案,通过将智驾数据采集车投入常态化运营,同步合规采集真实驾驶及道路数据[5] - 截至2026年5月,公司已在广州、上海、重庆、沈阳等城市部署超过300辆智能驾驶数据采集车,每日可产出1600小时、130TB的合规数据[5] 业务能力与商业化进展 - 公司正从单纯的“卖标注”向“数据集+全栈能力”升级,已形成涵盖数据采集、规模化处理、精准标注、合成数据及多模态处理等全链路能力[8] - 公司已具备将包括数据集及服务能力在内的整套AI数据服务封装为标准化产品的综合能力,通过“数据即服务”模式,客户可直接获取开箱即用的数据产品,显著降低使用高质量真实数据的门槛[9] - 目前,公司的AI数据服务已进入智能驾驶、具身智能、大模型、消费电子、医疗等多个领域,客户包括腾讯、小马智行、理想、火山引擎、百度智能云、广汽集团等头部企业[9] 行业背景与市场机遇 - 当前全球AI产业正经历深刻范式转移,以具身智能为核心应用场景的世界模型被公认为下一个主战场,但相关训练面临百亿小时级数据缺口,且采集成本极高[3] - 物理世界数据正成为AI产业最稀缺、最有价值的战略资产,据艾瑞咨询预测,中国具身智能产业2030年将突破4000亿元,2035年超万亿元[5] - 可供具身智能背后世界模型训练的高质量数据,目前全球总量仅约50万小时左右,而头部厂商单年需求量即达百万小时级别,供需严重失衡,数据缺口已取代算法,成为具身智能发展的最大障碍[5]
10 天 3000 元,一人造出全球 AI 爆款!好莱坞导演抢人、游戏版引爆期待,合作细节首次披露
AI前线· 2026-05-18 15:42
AI视频创作与个人创作者崛起 - 中国29岁、中专毕业的AI视频创作者Mx-Shell(刘梓瑜)独立创作的AI原创短片《丧尸清道夫》在海内外引发关注,该片在B站播放量超过210万,在抖音播放量超过348万 [2][3] - 该短片成功吸引了海外知名AI原生创意工作室Genre.ai创始人兼CEO PJ Ace的注意,PJ Ace个人AI视频内容累计观看量已超过3亿次,他公开称赞该片并隔空向作者抛出合作橄榄枝 [3][5] - 创作者Mx-Shell并非专业影视科班出身,其本职工作是房地产公司宣传部门员工,负责平台运营和宣发物料 [9] - 《丧尸清道夫》整部片子由Mx-Shell一人独立完成,耗时约10天,Token成本折算人民币约3000元,且其表示“没掏钱,全靠平台扶持” [9] - 该案例证明在AI工具加持下,个人创作者的“野生想象力”更容易实现,并能跨过平台、语言和地域壁垒被全球看到,普通人可凭借才华颠覆传统影视和游戏行业 [10] AI视频创作的技术与成本 - 《丧尸清道夫》综合使用了SeeDance 2.0、GPT Image 2、Nano Banana Pro、Midjourney、Flux Max 2等AI工具制作,其中80%到90%的部分由小云雀Seedance 2.0的“沉浸式短片”模式完成 [7] - 该片的成功展示了用低成本、快速批量生产高冲击力内容的可能性,有社区伙伴用300元成本复刻了一段相似视频 [9] AI互动视频游戏的商业化与IP开发 - 《丧尸清道夫》已启动商业化,短片已和影视公司达成合作,大银幕版本即将面世 [11] - 基于《丧尸清道夫》世界观改编的AI互动视频游戏已进入制作阶段,创作者Mx-Shell是AI互动视频游戏平台Yoroll的合作创作者 [11] - 该游戏在抖音相关话题下获得大量用户关注,留下超过2549条评论,用户询问游戏开发进度、是否上架Steam等 [12] - Yoroll平台是一个面向AI原生游戏和互动视频的创作平台,整合了世界模型、视频生成、分支叙事和游戏玩法组件,旨在降低创作门槛 [12] - 该平台背后团队吸引了《完蛋!我被美女包围了》主创成员和好莱坞顶级动画工作室及互动叙事游戏公司的获奖创意总监加入 [13] AI对游戏行业生产方式的变革 - 生成式AI和世界模型的价值在于可能为游戏行业提供第三条路,让创作者绕开传统重资产流程,用更轻的方式做出有沉浸感、有互动、有传播力的游戏体验 [18] - 真正的变化不是简单降低成本,而是生产方式的变化:从“先生产资产,再把资产放进引擎里运行”变为“先定义世界、角色、规则和交互,再由模型实时或半实时生成对应的视觉表现” [21] - 创新同时发生在四个层面:技术层面,视频和世界模型成为新的表现层;玩法层面,玩家可以和动态生成的内容互动;内容层面,一个IP可以生成大量个性化版本;生产方式层面,创作者从“手工制作资产”变成“编排世界、剧情和规则” [22] - 生产方式改变是核心,一旦生产方式变化,谁能做游戏、什么内容能成为游戏、游戏如何分发和变现都会随之改变 [23] “世界模型+互动视频”作为当前最优形态 - 当前世界模型暂无法支撑高确定性开放世界,因此“世界模型做视觉表现,传统游戏逻辑定规则”的“视频+游戏逻辑”是现阶段最易落地、规模化的最优形态 [13] - 世界模型最先落地的场景不一定是完整替代传统游戏,而是从“互动媒体”开始,互动视频处在影视和游戏之间,是当前技术条件下最现实、最容易规模化、也最能体现AI原生能力的第一形态 [20] - 互动视频不是妥协,而是一个很好的中间形态,它既不是纯视频,也不是传统游戏,而是“视频作为表现层,游戏系统作为逻辑层”的新形态 [25] - 越依赖复杂工程和长线运营的游戏品类,护城河越持久;越依赖内容生产和叙事表达的品类,被AI改造得越快 [13] AI互动游戏的核心特征与设计 - 判断内容是“游戏”还是“互动视频”的核心标准在于是否有“系统性反馈”,即玩家行为是否改变系统状态、系统是否根据状态持续反馈、玩家是否能通过选择、操作和策略影响结果 [29][32][33][34] - 处理世界模型的概率生成能力与游戏系统确定性之间的矛盾,关键在于分工:模型负责“表现”,系统负责“规则”,不能把游戏的确定性交给模型本身 [38] - 具体路径包括:把世界状态外置管理;通过Prompt、参考图等方式约束模型输出;用VLM等模块对生成结果进行判定校验;把高风险、高精度玩法交给传统游戏逻辑处理 [38] - 实时生成剧情需避免无限发散,通过剧情图、状态表、长期记忆和模型上下文等多个层次进行约束,实现“有限边界里的无限变化” [40][41][42][43][44][45] - 玩法组件短期内更倾向于“预设组件+AI生成内容+人工可视化调优”,以保证游戏可控和可通关 [47] AI互动游戏的技术实现与成本平衡 - 采用“预生成+缓存+局部实时生成”的方式平衡推理延迟和算力成本,核心内容预生成缓存,需要即时反馈的部分做近实时生成 [50] - 平衡质量、延迟和成本的关键在于分层,优先保证交互节奏顺畅,再逐步提升实时生成比例 [51] AI时代游戏行业格局与人才需求变化 - 短期冲击最大的是互动影游、视觉小说、短剧式内容和UGC平台,而非传统3A游戏 [72] - 传统游戏公司的护城河会重新分层:越依赖复杂工程和长线运营的品类护城河越持久;越依赖内容生产和叙事表达的品类被AI改造速度越快 [73] - AI游戏开发流程从传统的“资产驱动”变为“生成和编排驱动”,工程重点从资产生产转移到生成工作流、状态管理、自动测试和内容一致性控制 [57][60] - 专业游戏开发者的价值不会消失,而是迁移到更高层,如系统设计、玩法节奏、数值平衡、叙事结构、体验调优、工程稳定性及商业化运营等 [61] - 最先被AI改造的岗位是内容生产链条里的执行型岗位和重复性工作,而测试岗位会变得更重要,跨学科能力和将AI能力转化为稳定用户体验的能力将更稀缺 [62][63][64] AI互动游戏的商业模式与价值 - AI互动游戏的商业价值同时来自“游戏消费”和“IP放大”,可能来自章节付费、广告、内购,也可能来自IP孵化、粉丝社群、二创传播、品牌合作和后续改编 [66][67][68] - AI互动游戏非常适合在自媒体平台实现“刷到即玩”,收入模式多元化,包括买断制、内购、广告、章节付费、短剧分账、订阅、工具收费及平台抽成等 [69] - 商业化难点在于:内容质量要足够高;互动链路要足够顺滑;付费点设计要像游戏而非粗暴照搬短剧付费 [70] - 真正的机会在于结合短剧的传播效率和游戏的复玩、内购、成长、收藏、二创 [71] 未来行业展望:从工业生产到创作者生产 - 世界模型可能推动游戏行业从“少数公司开发爆款大作”走向“大量创作者生成可玩的互动世界”,行业格局可能变为“平台提供工具和分发,创作者持续生产互动内容,玩家同时也是参与者和二创者” [76] - 这将类似于Roblox、TikTok、Steam创意工坊和短剧平台的结合,但内容形态进一步走向“可玩的生成式视频世界” [77]
LeCun炮轰Hinton:他认可LLM就是想摆烂退休了!
量子位· 2026-05-18 12:16
文章核心观点 - 图灵奖得主Yann LeCun认为大型语言模型不是通往人类水平智能或通用人工智能的正确路径,其根本缺陷在于缺乏预测行为后果和进行规划的能力,因此无法实现可靠的零样本任务解决[24][48][73] - LeCun主张并致力于开发基于联合嵌入预测架构的世界模型,该模型在抽象表征层面进行预测和规划,是未来智能系统的蓝图,预计将在未来五年内成为主导范式[20][45][92][95] - LeCun因Meta公司战略全面转向大型语言模型竞赛,导致探索性研究优先级降低,其世界模型项目缺乏合适的发展环境与应用场景,故而选择离开并创办新公司AMI[8][32][41][43] 对大型语言模型的看法与批评 - **根本性局限**:大型语言模型仅是语言操作的有效工具,但无法处理高维、连续、有噪声的真实世界数据,不具备预测自身行为后果和真正规划的能力,因此不是通往人类或动物水平智能的路径[24][30][48][49] - **可靠性问题**:大型语言模型本质上不可靠,无法完全消除幻觉或危险行为,因为其训练与测试误差之间存在固有差距,总存在某些提示会引发错误输出[145][170][187] - **数据效率低下**:大型语言模型及其相关的模仿学习方法需要海量训练数据,但泛化能力有限,例如,拥有数百万小时数据仍无法实现L5级自动驾驶,而人类仅需十几二十小时就能学会[75][76] - **能力天花板**:尽管在数学证明和代码生成等语言本身就是推理载体的领域表现出色,但大型语言模型缺乏创造性,无法提出新概念或成为软件架构师,其能力存在上限[128][129][131][143] 1. **数据耗尽**:公开可用的高质量文本数据已耗尽,行业依赖购买商业版权或使用合成数据,限制了模型进一步扩展[124][125] 2. **安全与监管争议**:不认同Anthropic等公司利用恐惧推动人工智能监管的做法,认为其夸大了末日风险[25][167] 世界模型与JEPA架构的愿景 - **核心定义**:世界模型是智能体预测自身行为后果的能力,在此基础上通过优化和搜索进行规划,以完成新任务或达成目标,这是实现通用人工智能的关键[46][47][48] - **JEPA架构优势**:联合嵌入预测架构是一种非生成式方法,在抽象表征空间而非像素或标记空间进行预测,避免了生成像素的困难,是学习世界模型的有效框架[58][65][66][138] - **预期影响**:基于JEPA的世界模型能实现高效的零样本任务解决,用更少的数据覆盖更广泛的任务谱,将彻底改变人工智能发展路径[71][73][95] 1. **应用前景**:首要应用方向是“真实世界的人工智能”,包括家用机器人、L5自动驾驶,以及在工业领域(如复杂系统控制、医疗方案设计)有海量应用场景[83][87][90][188] 2. **发展时间表**:预计到2027年初,大型语言模型的局限性将变得完全显而易见;JEPA类世界模型有望在五年内成为主导范式[100][92] 离开Meta的原因与行业趋势 - **战略分歧**:Meta自2023年起将战略重心全面转向追赶大型语言模型竞赛,导致公司内部大量的探索性研究被降低优先级,创新环境发生变化[39][40][226] - **组织与文化变化**:Meta为推进Llama等模型成立了Gen AI组织,该组织面临巨大的短期产品压力,变得保守,与研究部门出现断层,许多优秀人才流失[9][200][205][206] 1. **项目不适配**:LeCun的世界模型研究在2024年初至2025年期间,已不符合Meta聚焦大型语言模型的新方向,且其大部分应用场景是Meta不感兴趣的工业领域[8][43][229] 2. **领导层变动影响**:Scale AI的收购可能是Meta全面聚焦大型语言模型的催化剂之一,新任领导层可能影响了公司的技术方向[15][230] 3. **创新模式转变**:行业整体趋势是研究越来越封闭,大公司对发表论文限制增多,短期导向加强,使得纯粹的突破性研究难以在大公司内进行[25][207][208] 对开源与未来生态的展望 - **开源必然性**:类比Linux取代Windows NT成为互联网基础设施的历史,当前闭源的人工智能模型公司将是下一个Sun Microsystems,开源模式最终将胜出[117][121][122] - **Tapestry项目**:旨在通过联邦学习构建一个开放的全球模型,作为全世界知识和文化的存储库,允许各地区贡献者微调以适配本地语言、文化和价值观,对抗文化霸权[110][111][113] - **学术界建议**:建议在读博士生不要研究当前的大型语言模型,因为这在学术界难以做出贡献,应致力于下一代人工智能系统的研究[25][211][214]