世界模型
搜索文档
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录
36氪· 2025-10-13 18:46
对话一:语言对于智能到底意味着什么? - 语言模型在智能构建中扮演核心角色,其成功源于对语言在智能中核心作用的认知,ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度,总是在生成下一个词,而序列模型(如Transformer)可处理包括语言、蛋白质、音频在内的各种序列,时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势,互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念,例如在解决数学问题时,尽管用不同语言生成答案,但解题方式和错误类型相同,表明模型在抽象空间进行思考[10] - 然而,未经过大量多模态数据训练的模型,其概念(如"痛苦"或"爱")可能与人类植根于物理世界的真实感受有所不同[11] 对话二:多模态与世界模型的挑战 - 现代大语言模型(如GPT-4)已是多模态模型,能接收和生成图像、音频,并已取得巨大进展,例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式(如通过VQ-VAE将图像/音频编码为特殊代码)有效但不令人满意,未来需要更深入地将多模态融合到模型中,使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要,否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型,在文本和数学方面表现卓越,但作为物理模型的表现不如语言模型,部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据,结合像Sora、Genie和Veo这类从视频学习的模型,正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔"? - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作,但数学符号和编程语言作为沟通工具,在解释复杂概念时比纯自然语言更高效,因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象,而非特定语言,AI有望帮助更好地使用现有编程语言来改进系统,而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构,而非AI编程本身[20] 对话四:Agent的泛化困境:是方法问题,还是根本限制? - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具(如代码解释器、网络搜索)的推理模型,这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号,当模型使用未经训练的工具时,没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统,需要能够模拟整个环境进行训练,而这在当前难以实现,但即使没有大量训练,聪明的模型也能零样本完成许多任务[23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖? - 预训练的Scaling Law已带来巨大进展,但存在经济上的实践极限,因为用户不愿为每个token支付过高费用,且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题(如GSM-8K数学数据集)时速度不可行,而强化学习推理能用小模型解决相同问题,显示出更高的数据效率[26] - 推理模型的Scaling Law(通过强化学习让模型运行更长时间以提升性能)受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制,这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异? - 具身智能可能更接近于当前的大语言模型,数据效率正在提高,例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础,再结合强化学习进行推理训练,但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整,但未来会出现数据和计算更高效的新一代模型[31] 对话七:强化学习:是超级优化器,还是科学发现的引擎? - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式,能够从有限数据(如1000道数学题)中学习[32][33] - 强化学习只依赖一个奖励信号,若优化得当,模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法,推动科学发现[33] - 该范式仍处于早期阶段(社区广泛关注约一年),需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八:AI的组织跃迁:如何实现大规模Agent协作? - 实现大规模Agent组织(如成千上万个Agent协作)的最大挑战在于开发下一代推理模型,需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性,未来需要为并行过程提供更多信号,并结合新的架构来融入并行处理[36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远? - 通过将记忆作为工具(如访问互联网或记忆库)并结合强化学习训练,模型可以有效地解决记忆问题,当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制,如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重,但这仍是待研究的问题[40] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习? - 利用上下文学习作为持续学习的记忆是当前已实现的进展,模型将对话信息放入上下文进行处理,但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术,实质性修改权重已变得更加可行,为持续学习提供了基础,但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理,推动模型在科学发现等领域的应用,未来并不遥远[41]
Meta最新论文解读:别卷刷榜了,AI Agent的下一个战场是“中训练”
36氪· 2025-10-13 15:19
AI行业竞争焦点转变 - 2025年AI竞争焦点从跑分比拼转向Agent自主完成复杂长程任务的能力 [1] - 行业巨头如xAI和Anthropic发布新品时均强调同一能力 [1] - AI的下一战场被明确为通用Agent [2] Agent落地的现实瓶颈 - 除编程领域外,Agent落地应用寥寥无几 [2] - 核心瓶颈之一是反馈机制的困境 [2] - 现有反馈机制要么太弱要么太贵,阻碍预训练模型蜕变为强大Agent [2] 主流Agent训练方法的局限性 - 模仿学习(监督微调)依赖昂贵静态反馈,高质量专家数据难以大规模生产 [4] - 模仿学习导致模型泛化能力极差,无法适应训练数据外的情况 [4] - 强化学习依赖复杂动态反馈,在真实世界任务中奖励信号常缺失、稀疏或延迟 [5] - 强化学习应用高度依赖精心设计的奖励函数或人工调整的训练流程 [5] Meta提出的“中训练”范式 - Meta等机构在2025年10月论文中提出“早期经验”的“中训练”范式 [2][7] - 该范式利用Agent自己探索产生的状态变化作为宝贵的学习信号 [7] - 设计两种具体训练策略:隐式世界建模和自我反思 [7] 隐式世界建模策略 - 让Agent学会预测“如果我这么做,世界会变成什么样” [9] - 具体步骤包括自我尝试、记录数据、微调训练预测能力 [9] - 通过大量“作死”和观察后果,让Agent悟出世界运行规律 [10] 自我反思策略 - 让Agent学会解释“为什么专家的做法比我的其他想法更好” [11] - 具体步骤包括自我尝试、教练点评、微调训练预思考能力 [11] - 训练Agent学会先生成反思推理再输出正确动作 [11] “中训练”范式的有效性验证 - 在8个多样化环境中测试显示,平均成功率比传统模仿学习提升9.6% [15] - 在未见过的任务上表现提升9.4%,显示强大泛化能力 [15] - 作为强化学习初始化时,最终性能提升最多6.4% [15] - 提升在不同复杂度的环境中保持稳定 [17] “中训练”的理论基础与价值 - 谷歌DeepMind研究证明成功Agent内部必须拥有准确“世界模型” [18] - 传统模仿学习只学习从状态到行为的浅层映射 [20] - “早期经验”补上了建立世界因果理解的关键课程 [21] - 可能需“预训练+中训练+后训练”三段式训练范式通往通用Agent [23] 参数效率与新Scaling Law可能性 - “早期经验”展示通过自我递归训练释放参数潜力的可能性 [25][27] - 700M参数小模型经训练后可在某些任务上超越参数量大十几倍的大模型 [25] - 传统增加参数量的做法边际收益递减很快 [27] - 可能预示一个新的属于Test Time Compute的Scaling Law [28]
闻泰科技半导体资产被荷兰政府冻结;Windows 10系统明日起停服;特努斯成为苹果下一任CEO热门人选
搜狐财经· 2025-10-13 13:32
闻泰科技/安世半导体资产冻结 - 荷兰政府于9月30日指令冻结闻泰科技控股子公司安世半导体的资产与知识产权调整,为期一年 [4] - 安世半导体部分外籍高管要求闻泰科技转让股权并暂停其委派的CEO职务,荷兰企业法院已暂停张学政的CEO职务和职权 [4] - 安世半导体2024年收入规模约147亿人民币,闻泰科技要求荷兰政府撤销指令并停止对中国企业的系统性歧视 [4] 微软Windows 10停服 - 微软自10月14日起停止对Windows 10系统提供安全更新和技术支持,用户设备可能更易遭受网络攻击 [6] - 微软建议用户尽快升级至Windows 11系统,因部分应用程序功能可能随停服而减弱 [6] 苹果公司动态 - 硬件工程高级副总裁约翰·特努斯(50岁)成为接替库克的CEO热门人选,其在9月开发者大会负责介绍iPhone Air [7] - 苹果自10月10日起停用Clips应用,新用户无法下载,现有用户可继续使用但应用不再更新 [8] - 分析师郭明錤称折叠iPhone铰链量产后单价预计降至70-80美元,低于市场预期的100-120美元,主因设计优化及富士康参与 [9] - 富士康与新日兴合资公司占折叠iPhone铰链约65%份额,安费诺供应剩余35%,立讯精密最快2027年后可能成为新供应商 [9] xAI与英伟达 - xAI从英伟达招募研究员Zeeshan Patel与Ethan He,开发用于电子游戏与机器人领域的“世界模型” [13] - 英伟达CEO黄仁勋10月1日至10日通过多次交易减持公司股票,累计套现超1亿美元达1.13亿美元,减持后仍持有超7060万股股票 [14] 媒体行业并购 - 华纳兄弟探索公司以报价过低为由拒绝派拉蒙天舞传媒的初步收购提议,派拉蒙报价约每股20美元 [15] - 华纳兄弟探索公司股价收于每股17.10美元,市值达423亿美元,派拉蒙股价为每股17美元,市值为186亿美元 [15] 半导体产业链 - 台积电供应商万机仪器考虑出售价值10亿美元的特种化学品部门,以聚焦于为芯片制造商供货 [16] 战略合作 - 海尔集团与阿里巴巴集团签署全面战略合作协议,将结合海尔全生态布局与阿里全栈AI能力共建数字产业新生态 [5] 全球工程成就 - 2025全球十大工程成就发布,包括Blackwell GPU架构、DeepSeek开源大语言模型及人形机器人等 [17]
马斯克xAI投身“世界模型”竞赛,欲重塑AI与现实交互新体验
搜狐财经· 2025-10-13 12:45
【环球网科技综合报道】近日,科技界在人工智能领域又掀起一阵热潮,特斯拉CEO埃隆·马斯克旗下 的xAI公司正全力投入"世界模型"的研发,与Meta、谷歌等科技巨头一同在这场激烈的竞赛中角逐。 10月13日消息,据《金融时报》报道,xAI今年夏天从英伟达招揽了专家团队,专注于新一代人工智能 模型的打造。这些模型以视频和机器人数据为训练素材,旨在深入理解现实世界。与传统基于文本训练 的大型语言模型不同,"世界模型"有望突破现有局限,为人工智能赋予更强大的能力。 两位知情人士透露,xAI构建"世界模型"有着明确的应用方向,其中游戏领域是重点之一。该模型可生 成交互式3D环境,为玩家带来全新的游戏体验。同时,它也能应用于机器人的人工智能系统,推动实 体产品智能化发展。 《金融时报》指出,xAI聘请的泽尚·帕特尔和伊桑·何两位研究人员,在"世界模型"方面经验丰富。而英 伟达凭借其Omniverse平台在该技术领域处于领先地位,这无疑为xAI的研发提供了有力支持。 英伟达上月向《金融时报》表示,这一技术有望为人工智能在软件和计算机之外的应用开辟新途径,如 人形机器人等实体产品领域。 不过,"世界模型"的研发并非一帆风顺。 ...
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
创业邦· 2025-10-13 11:53
公司战略与布局 - 马斯克的xAI公司已正式入局世界模型领域,加剧了与Meta、Google DeepMind等巨头的竞争[3][9][10] - 公司计划在2026年年底前发布一款由世界模型驱动的AI生成游戏[3][29] - 公司正在组建全模态团队,专门研究图像、视频、音频的综合理解与生成,以支持世界模型开发[30] 人才招募与技术基础 - 公司于今年夏季从英伟达挖来至少两名资深研究员Zeeshan Patel和Ethan He,以增强世界模型研发实力[3][11] - 新招募的研究员此前均参与了英伟达Omniverse平台的核心开发,该平台是全球最成熟的物理一致性仿真系统之一[18][19] - 公司计划将英伟达在图形与物理模拟领域的积累应用到自家的世界模型体系中[20] 世界模型的应用前景 - 世界模型被视为AGI的核心底座,能让AI系统真正理解和推理物理3D世界,而不仅限于文本处理[23][25] - 该技术首批落地应用可能是电子游戏,旨在生成自适应、逼真的3D场景,并能根据玩家行为实时变化[29] - 世界模型技术未来可驱动智能体、自动驾驶乃至具身智能机器人,与特斯拉、Neuralink等马斯克旗下公司形成协同效应[35][36] 市场背景与行业动态 - 世界模型是近两年全球AI巨头和实验室的新战场,参与者包括Google DeepMind、Meta、英伟达和李飞飞团队等[9][28] - 视频游戏行业市场规模巨大,今年收入约2000亿美元,为AI生成游戏提供了广阔的市场空间[6]
马斯克AI公司开发“世界模型”,从英伟达挖专家将推游戏
凤凰网· 2025-10-13 11:21
根据英伟达的官方介绍,世界模型是一种生成式AI模型,能够理解现实世界的动态特征,包括物理属 性和空间特性。这类模型利用文字、图像、视频以及动作在内的输入数据来生成影片。 今年夏天,xAI从英伟达挖来了专家,研发这类新一代AI模型。这些模型通过学习视频以及来自机器人 的数据,理解现实世界。世界模型有望将AI的能力提升到超越大语言模型的水平。目前,大模型主要 接受文本训练,是ChatGPT以及xAI自家Grok等热门AI工具的技术基础。 凤凰网科技讯 北京时间10月12日,据《金融时报》报道,埃隆·马斯克(Elon Musk)旗下xAI公司正加紧 构建所谓的"世界模型",与Meta和谷歌等对手一同角逐下一代AI系统。这些系统能够实现对物理环境的 自主导航与设计。 当前,OpenAI旗下Sora等视频生成模型,主要通过从训练数据中学习到的模式进行预测,从而逐帧生 成视频图像。但是世界模型则会向前迈进一大步,因为它能实时理解物理世界的因果关系,掌握物体在 不同环境中的实时互动机制。 巨大挑战 除了xAI外,谷歌、Meta等领先的AI实验室也在研发这类系统。 然而,世界模型仍面临巨大的技术挑战。要找到足够的数据来模拟现 ...
马斯克从英伟达挖人做AI游戏,第一步:研发世界模型
36氪· 2025-10-13 10:14
马斯克的xAI也入局世界模型了! 想必听到这个消息的Meta、Google DeepMind一定会缓缓打出一个问号:冲我们来的? 据《金融时报》(FT)报道,为了增加这场"世界模型大混战"的赢面,今年夏天,xAI已经从英伟达挖来了多名资深研究员来助阵。 另一边,在悄然下场世界模型后,马斯克几天前又在上再次重申了去年定下的那个"小目标"—— 2026年年底前,xAI会发布一款伟大的AI生成游戏。 Stability AI创始人EMostaque在自己的上列出这样一组数字: OpenAI今年收入约100亿美元,视频游戏行业今年收入约2000亿美元。 马斯克呀马斯克,Attention is all you need(狗头)。 从英伟达那儿挖人,开搞! 而它的第一步,就选择了去英伟达挖老黄墙脚—— 今年夏天,xAI至少雇佣了两位来自英伟达的研究人员:Zeeshan Patel和Ethan He。 其中,Zeeshan Patel今年5月硕士毕业于UC伯克利,研究主要面向深度学习、生成模型和物理人工智能。 加入xAI前,他先在苹果AI/ML部门从事基础模型研究,后又加入英伟达研究院从事生成式世界模型研究。 在英伟达工 ...
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
量子位· 2025-10-13 09:35
xAI入局世界模型的战略举措 - 公司xAI正式进入世界模型领域,加入与Google DeepMind、Meta、英伟达等巨头的竞争[7][8] - 为增强实力,公司于2024年夏季从英伟达招募了多名资深研究员,包括Zeeshan Patel和Ethan He[9][18] - 新招募的研究员均曾参与英伟达Omniverse平台的核心开发,该平台是成熟的物理一致性仿真系统,与世界模型需求高度契合[21][23][24][25] 关键人才背景与专长 - Zeeshan Patel专注于大规模多模态模型与训练框架研发,拥有苹果AI/ML部门及英伟达研究院的生成式世界模型研究经验[10][11][12] - Ethan He在计算机视觉领域拥有深厚积累,Google Scholar被引数达8495,研究经历涵盖FaceBook AI的大规模视频自监督学习及英伟达的MoE模型、多模态模型[14][15][16][17] - Ethan He的代表作包括被引3483次的《Channel pruning for accelerating very deep neural networks》和被引1850次的《Amc: Automl for model compression and acceleration on mobile devices》[19] 世界模型的战略意义与应用方向 - 世界模型被视为AGI的核心底座,旨在让AI系统理解并推理物理3D世界,而不仅限于文本处理[26][27][29] - 公司xAI入局后的首批应用落点可能是电子游戏,团队正尝试开发能根据玩家行为实时变化的AI生成3D场景[33][34] - 公司目标是在2026年底前推出一款由世界模型驱动的伟大AI生成游戏[2][35] 业务布局与资源整合 - 公司内部正组建全模态团队,招聘岗位涵盖音频理解生成、多模态理解等方向,年薪区间为18万至44万美元[37] - 公司还公开招聘电子游戏导师,时薪45至100美元,旨在向模型传授游戏机制与叙事逻辑[38][39][40] - 世界模型有望将公司xAI、特斯拉的机器人及自动驾驶数据、Neuralink的脑机接口以及的平台资源整合,形成AI帝国闭环[41][43][44][45] 行业背景与市场机遇 - 世界模型已成为AI巨头和实验室的兵家必争之地,DeepMind、Meta、英伟达等均已布局相关项目[32][36] - 行业数据显示,视频游戏行业年收入约2000亿美元,远超OpenAI约100亿美元的年收入,揭示了巨大的市场潜力[4]
机器人核心技术之一,马斯克发力“世界模型”
选股宝· 2025-10-13 08:29
文章核心观点 - 马斯克的xAI公司从英伟达聘请人工智能专家,专注于研发旨在掌握真实世界物理规律的世界模型 [1] - 世界模型是理解现实世界动态的生成式AI模型,使用文本、图像、视频和运动等数据生成视频,物理AI和世界基础模型是该领域关键基础设施 [1] - 英伟达已推出相关工具产品,国内CAE厂商在物理场仿真数据和行业应用理解方面具有优势 [1] 世界模型技术 - 世界模型通过对海量视频和机器人数据进行训练,旨在掌握真实世界的物理规律,不同于依赖文本的大语言模型 [1] - 该技术在理解现实环境物理特性的前提下,对运动以及感知数据中的空间关系等动态进行表征和预测 [1] 行业应用与竞争格局 - 英伟达推出两款工具类产品,应用于智能驾驶、机器人训练以及工业数字孪生的开发 [1] - 国内CAE厂商依靠长期的物理场仿真数据积累,在物理学行业应用方面具有很大优势 [1] 相关公司动态 - 索辰科技的“天工·开物平台”基于生成式物理AI技术和实景渲染技术 [1] - 能科科技是提供工业数字孪生解决方案的厂商 [2]
全球要闻:美股指期货集体反弹贸易担忧情绪缓和 美股Q3财报季本周揭幕
搜狐财经· 2025-10-13 08:17
美股市场表现 - 上周五美股遭遇“黑色星期五”,纳斯达克指数下跌3.56%至22204.43点,标普500指数下跌2.71%至6552.51点,道琼斯指数下跌1.90%至45479.60点,纳指与标普均创半年最大跌幅 [1][2] - 周线表现来看,道琼斯指数一周跌幅为2.73%,纳斯达克指数一周跌幅为2.53%,标普500指数一周跌幅为2.43% [3] - 周一早盘美股期货反弹,标普500指数期货和道指期货均涨近1%,纳指期货涨超1% [1] 地缘政治与政策动向 - 美国副总统万斯释放缓和信号,表示特朗普愿意与中国进行理性谈判,市场将此视为TACO交易策略可能再次上演的迹象 [5] - 美国政府持续关门,原定本周公布的9月CPI数据推迟至10月24日,美股Q3财报季拉开序幕,上市公司的经济表述和裁员动作将受投资者密切审视 [6] - 美联储官员本周将频频发声,鲍威尔将于北京时间周三凌晨讲话,鲍曼和沃勒也将公开亮相 [6] 主要科技股表现 - 热门科技股普遍大幅下跌,英伟达跌4.89%,微软跌2.19%,苹果跌3.45%,亚马逊跌4.99%,Meta跌3.85%,台积电跌6.41%,特斯拉跌5.06%,超微半导体跌7.72% [9][10] - 英伟达CEO黄仁勋在10月8日至10日期间卖出22.5万股公司股票,套现逾4280万美元,10月以来累计套现超1.1亿美元 [10][16] - 马斯克的xAI公司从英伟达聘请人工智能专家,专注于世界模型的研发 [10][16] 中概股与全球市场 - 热门中概股大幅下挫,阿里巴巴跌8.45%,拼多多跌5.32%,百度跌8.09%,小鹏汽车跌8.25%,蔚来跌10.05% [11] - 欧洲股市方面,英国富时100指数跌0.86%,法国CAC40指数跌1.53%,德国DAX指数跌1.50% [10] - 亚洲股市方面,恒生指数跌1.73%,日经225指数跌1.01% [10] 大宗商品与外汇 - 国际原油价格重挫,WTI原油收跌5.43%至58.17美元/桶,创5个月新低,布伦特原油收跌4.8%至62.09美元/桶 [14] - 现货黄金价格创历史新高,一度冲上4060美元/盎司,周线录得八连阳,伦敦银现上周五收涨1.08%至49.537美元/盎司 [13][14] - 美元指数跌破99关口,收跌0.56%至98.978 [13] 其他重要公司动态 - 伯克希尔对日本五大商社的投资从约63亿美元飙升至超300亿美元,持股比例打破10%上限 [16] - 伦敦现货白银市场出现历史性逼空,流动性几乎枯竭,价格相对纽约期货出现史无前例的溢价 [17][18]