Workflow
世界模型(World Models)
icon
搜索文档
突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述
机器之心· 2026-04-24 07:37
文章核心观点 - 视频生成模型正从生成“特效”向模拟物理规律的“世界模型”演进,被视为通向通用人工智能(AGI)的关键赛道[2] - 当前视频生成模型要成为实用的世界模拟器,面临“长时一致性”、“实时高可用”与“物理准确性”难以兼得的“不可能三角”挑战,核心瓶颈在于巨大的计算成本与速度[3] - 行业研究首次系统性地从“高效性”视角出发,综述如何通过提升效率将视频生成器转化为实用的世界模型,梳理了高效建模范式、模型架构、推理算法及下游应用[4] 高效建模范式 - 该部分探讨如何将模型从短片段生成扩展到支持长周期、交互式的世界建模,是构建高效视频世界模型的基础[8][9] 高效模型架构 - 架构设计旨在直接缓解时空冗余和注意力机制的平方计算复杂度,涵盖了四大方向的研究[10] - 方向包括:**扩散模型蒸馏**,可将采样步数压缩至几步甚至单步;**自回归与混合方法**,旨在实现长周期推理与高保真度;**层次化与VAE设计**,通过级联生成或隐空间压缩降低成本;**长上下文与记忆机制**,以维持长周期的物理与逻辑一致性[12] - 方向还包括:**高效注意力机制**,利用稀疏注意力、窗口注意力、线性注意力或状态空间模型(如Mamba)替代昂贵的全局注意力;**外推与RoPE技术**,通过优化位置编码实现无需训练的长序列外推生成[12] 高效推理算法 - 面向数十亿参数级大模型的实际部署,总结了四类关键的推理优化策略[11] - 策略包括:**并行化**,如分布式推理(空间、序列及流水线并行);**缓存机制**,利用扩散模型相邻去噪步之间的时空冗余进行特征复用;**剪枝**,包含token级合并/丢弃及网络架构(通道、层级别)剪枝;**量化**,以8bit、4bit部署,涵盖从注意力机制量化到训练后量化与量化感知训练,以及时间维度的动态量化策略[12] 赋能应用:自动驾驶 - 视频世界模型在自动驾驶领域有三大核心应用方向[12] - **数据合成**:用于批量生成“鬼探头”、极端天气等现实稀缺的长尾场景数据,为感知和规划模型提供训练素材,代表工作如GAIA系列、MagicDrive-V2[13] - **闭环交互模拟**:将世界模型作为虚拟考场,让AI系统在其中不断试驾、学习,形成“生成—评估—重训”的闭环,例如Vista、ADriver-I实现了“在AI生成的虚拟世界里无限开车”[13] - **生成式规划**:模型通过“想象”多条未来轨迹并选择最优路径来指导执行,使自动驾驶系统具备前瞻性规划能力,例如Drive-WM、DriveLAW将视频生成与动作规划共享同一个隐空间[14] 赋能应用:具身智能 - 视频世界模型为机器人领域解决了数据采集成本高、分布窄的难题,扮演三重角色[15] - **数据引擎**:例如GigaWorld-0通过文本引导真实视频编辑扩充数据,DreamGen用世界模型的“想象”生成轨迹级监督信号,GenMimic将人类运动视频“迁移”到人形机器人进行强化学习[16] - **交互式模拟器**:机器人可在世界模型生成的虚拟环境中安全试错,例如Ctrl-World、DreamDojo[16] - **生成式策略学习**:例如GR-1在大规模视频上预训练后迁移到机器人操作,Fast-WAM提出的WAM范式证明世界模型的增益主要来自视频联合训练塑造的物理表征,仅15M参数的LeWorldModel证明小而精的隐空间模型也能实现高效规划[16] 赋能应用:游戏与交互式世界模拟 - 游戏提供了闭环交互接口和可控评测环境,是视频世界模型的理想试验田[17] - 具体应用包括:GameGen-X将键盘鼠标操作注入生成过程;Matrix-Game 2.0在GTA5和虚幻引擎数据上训练,实现了约25 FPS的交互生成和分钟级长序列滚动推演;DreamerV4用世界模型充当强化学习的虚拟训练场[17] - 在通用方向上,WorldPlay主打高分辨率实时生成,Yume1.5通过上下文压缩和蒸馏降低长序列延迟,开源项目LingBot-World将分层语义数据引擎与多阶段训练结合,追求低延迟交互与长期记忆的统一[17]
离开Meta,杨立昆两个月融了70亿
投中网· 2026-03-12 14:57
文章核心观点 - 以图灵奖得主杨立昆(Yann LeCun)创立的AMI Labs获得巨额融资为引,阐述了当前资本正在狂热追逐顶尖AI技术人才,并重点押注“世界模型”这一被视为继大语言模型(LLM)之后的新技术颠覆方向 [2][3][13] AI初创公司融资与估值 - 杨立昆创立的AMI Labs在2025年1月成立,两个月后官宣完成10.3亿美元(约70.87亿元人民币)融资,由凯辉创新、贝佐斯家族基金等领投,英伟达、丰田创投等战略投资 [2] - 该轮融资对AMI Labs的投前估值为35亿美元(约240.82亿元人民币),远超其原计划以30亿欧元(约241.17亿元人民币)估值募资5亿欧元的目标 [2] - 由李飞飞创立的空间智能公司World Labs于2月19日宣布完成10亿美元融资,市场预计其投后估值约50亿美元,投资方包括Autodesk、英伟达和AMD [10] - 前DeepMind首席科学家David Silver创立的Ineffable Intelligence,种子轮融资规模即达到10亿美元 [15] 世界模型技术路径与公司定位 - AMI Labs明确押注“世界模型”,不做LLM,其系统旨在从现实世界传感器数据中学习,理解物理规律,具备长期记忆和推理规划能力,应用于工业控制、机器人、医疗等高可靠性领域 [7] - 杨立昆认为以ChatGPT为代表的LLM无法通向通用人工智能(AGI),是一条死路,而世界模型学习的是“物理规律如何运行” [9] - World Labs发布的空间智能产品Marble,是一种能根据图像或文本提示生成三维世界的基础模型,旨在构建对物理空间的理解 [10] - Google DeepMind开发的Genie模型能生成并模拟三维交互环境,被视为迈向可交互世界模型的重要尝试 [11] 豪华团队与行业人才流动 - AMI Labs联合创始人阵容豪华,包括前Meta AI研究科学家谢赛宁(首席科学官)、香港科技大学教授冯雁(首席研究与创新官)、前Meta欧洲区副总裁Laurent Solly(首席运营官)等 [7] - 公司总部位于巴黎,并在纽约、蒙特利尔和新加坡设办公室,计划开源大量代码以加速技术进展 [8] - 当前AI浪潮中,顶尖技术人才离开大厂创业已成常态,除杨立昆外,案例包括前阿里贾扬清创立Lepton AI后被英伟达收购、前小度CEO景鲲创办Genspark快速成为独角兽等 [14][15] - 争夺大厂技术领军人物已成为投资机构的“必修课”,他们的项目在启动前就常被风投资本包围 [15][16] 产业资本动向与市场前景 - 英伟达CEO黄仁勋预测,面向现实世界的“物理AI”(即世界模型相关技术)将成为AI下一个重要前沿,潜在市场规模可能高达90万亿美元 [12] - 工业软件公司Autodesk对World Labs的重金押注,反映了软件行业在AI冲击下的转型焦虑,投资消息公布当天其股价上涨近2% [11] - 法国工业软件巨头达索系统(Dassault Systèmes)宣布与英伟达建立战略合作,共同推进世界模型技术 [12] - AI公司构建世界模型需要三维世界的感知与交互能力,这使得具备三维工业建模能力的软件企业重新获得关注,AI可能成为其新的增长契机 [11]
LeCun团队新论文:模仿人类智能搞AI,照猫画虎死胡同
量子位· 2026-03-09 18:05
文章核心观点 - 图灵奖得主Yann LeCun提出,AI发展的未来方向不应是模仿人类的通用人工智能,而应是追求**超人类适应性智能**,其核心是**系统适应新任务的速度**,而非掌握技能的数量[2][3][5] - 将人类智能作为AI发展的基准和目标是错误的,这限制了AI的能力发展,使其局限于以人类为中心的任务空间[10][11][12] - 人类的“通用”智能本质上是生物进化为生存而优化的结果,存在认知盲区,并非真正的通用,因此AI复制人类的“生存型智能工具箱”是一条错误的技术路线[18][20][30] - 智能进化的常态是**专业化**,通过任务特定的架构和训练实现超人类能力,强行追求通用性在工程和理论上往往是低效的[31][34][42] AI发展目标的转变 - 发展目标发生三个关键变化:**不再以人类为参照系**、**拥抱专业化以实现超人类能力**、衡量智能的核心指标变为**学习新技能的速度**[3][6] - 过去的发展逻辑是把人类当作智能标尺,例如图灵测试,但LeCun团队认为这限制了通往超人类能力的路径[8][9][10] - 更合理的路径是让AI围绕明确目标,通过**自我博弈、进化搜索和大规模仿真**持续优化能力[13] 对人类“通用性”的批判 - 人类智能是进化塑造的生存工具,擅长视觉感知、行走等对生存至关重要的能力,但在计算复杂概率、高维优化等任务上表现远不如计算机[19][20][23] - 莫拉维克悖论指出:人类觉得简单的事情对计算机很难,而人类觉得困难的事情对计算机却很容易[26][27][28] - 所谓“通用人工智能”很大程度上是一种错觉,源于人类无法看见自己的生物学盲区[25] 专业化是智能进化的常态 - 从生物学角度看,在资源有限、环境复杂的情况下,进化会推动系统向**特定能力方向优化**[32] - 在AI领域,如果某个领域的任务对成本、精度、可靠性要求高,任何不达标的模型都会被更专业的系统取代[34] - **AlphaFold**是专业化的典型成功案例,它通过任务特定的架构、数据和训练策略,在蛋白质结构预测上实现了巨大突破[35][37] - 机器学习的基本规律是:算法的成功来自于它与问题结构的匹配,强行让一个模型处理多个不同任务可能导致所有任务都表现平平[38][39] - 多任务学习可能存在**负迁移**问题,即不同任务的梯度互相冲突,拖累整体性能[40][41] 实现SAI的技术路线 - 技术路线基于三个关键词:**自监督学习**、**世界模型**、**模块化系统**[43] - **自监督学习**不依赖人类标注,而是从大量真实世界数据中学习底层结构[44] - **世界模型**让AI在内部构建一个“世界的模拟器”,使其能够预测未来、进行规划,从而在没有明确训练的情况下完成新任务[45][46] - **模块化架构**意味着未来AI更可能是一系列相互协作的系统,而非一个万能模型,论文明确反对“统治一切”的单一模型架构,尤其是自回归范式的下一个token预测[47][48]
国产AI大模型企业密集上市:资本狂欢下的技术博弈与产业未来
搜狐财经· 2026-01-22 17:54
文章核心观点 - 2025年见证了国产AI大模型企业的密集上市潮,标志着中国在全球人工智能竞赛中进入了全新的资本化阶段[2] - 国产AI大模型企业在技术突破、政策支持、市场需求及国际竞争等多重因素驱动下快速发展,但同时也面临严峻的商业化盈利挑战和成本压力[6][7][8][14][16] - 资本市场对AI企业的估值逻辑正在发生变化,更看重技术壁垒、生态价值和长期潜力,而非短期财务表现[18] - 未来几年,AI大模型行业将经历商业化验证、产业成熟到生态繁荣的演进,技术将持续向多模态融合、边缘计算和具身智能等方向突破,并深刻重塑产业生态与社会结构[22][23][24][26][28][29] 上市潮全景:哪些AI大模型企业正在登陆资本市场? - **头部企业资本化**:2025年第一季度以来,超过十家中国大型语言模型研发企业提交招股书,上半年IPO募集资金总额超过300亿元人民币[2] - **深度求索**:2025年3月向港交所提交上市申请,估值突破120亿美元,2024年研发投入42亿元人民币,占总收入的85%,其下一代模型DeepSeek-V3参数规模达3.2万亿[3] - **智谱AI**:选择科创板上市,其GLM-4 Turbo模型在中文任务上表现超越国际同类产品,采用“B2B2C”轻资产商业模式[3] - **月之暗面**:以支持128K tokens的“长上下文窗口”技术建立壁垒,最新一轮融资获8亿美元,投后估值达65亿美元[4] - **垂直领域先锋**:医疗AI领域的推想科技和科亚医疗、金融AI领域的蚂蚁智科、教育AI领域的作业帮“银河大模型”和好未来“MathGPT”等均寻求上市或独立融资[13] - **地域与政策**:企业上市聚集于北京、上海、深圳,三地政府分别推出“AI大模型创新示范区”、“大模型算力补贴”、“AI芯片与大模型协同发展基金”等扶持政策[5] 资本热度攀升:数据背后的驱动逻辑 - **投资数据**:2024年中国AI领域投资总额达2150亿元人民币,其中大模型及相关应用占比超60%,投资规模较2023年增长75%[6] - **投资结构变化**:Pre-IPO轮平均融资额从2023年的5.2亿元增至2024年的8.7亿元,增幅67% 早期投资占比从2022年的35%降至2024年的18%,而成长期和Pre-IPO投资占比从45%升至62%[6] - **技术突破驱动**:国产大模型在中文理解评估基准CLUE榜单前十中占据八席,部分模型代码生成任务HumanEval通过率超85%,接近GPT-4水平[7] - **政策红利释放**:2024年7月国家发改委等五部门发文支持AI企业上市融资,10月证监会优化了科技企业上市标准[7] - **市场需求增长**:预计2025年中国AI大模型市场规模达147亿美元,2023-2027年复合增长率38.5% 企业端AI技术采纳率从2022年的22%快速提升至2024年的47%[7] - **地缘政治因素**:美国对高端GPU出口限制升级,加速了资本向国产大模型及AI芯片的倾斜,创造了国产替代的战略窗口期[8] 技术博弈:国产大模型的核心竞争力分析 - **架构与算法创新**:百度ERNIE架构将知识图谱与预训练结合 阿里Qwen系列引入“稀疏注意力”机制,将长文本处理效率提高3倍[9] - **训练方法创新**:智源研究院“FlagAttention”技术将万亿参数模型训练成本降低40% 商汤科技“SenseNova”框架支持混合精度与动态弹性计算[9] - **多模态能力融合**:腾讯“混元大模型”在视觉-语言多模态任务突出 字节跳动“云雀大模型”支持长达1小时视频的语义分析[10] - **AI芯片突破**:华为昇腾910B芯片性能达英伟达A100的80% 寒武纪“思元590”芯片针对大模型训练优化[11] - **算力集群建设**:国家超算中心联合企业建立的国产算力训练集群总算力规模达10EFLOPS 上海人工智能实验室“OpenXLab”平台降低中小企业算力门槛[11] - **软件栈生态**:华为MindSpore、百度飞桨、阿里巴巴灵积等框架初步形成全栈国产AI生态[11] - **中文数据与场景优势**:国产模型通过大规模高质量中文语料预训练和文化常识注入,在中文处理上建立优势 普遍采用“通用底座+行业精调”策略深耕金融、法律等垂直领域[12] - **隐私与安全合规**:国产大模型设计符合《网络安全法》、《数据安全法》等中国法规,在政企市场形成重要竞争优势[12] 商业化挑战:盈利之路与可持续发展 - **主流盈利模式**:API服务收费(如智谱AI的GLM-4 Turbo API价格约为GPT-4 Turbo的60%) 企业级定制化解决方案(客单价数百万元至数千万元) 开源基础模型+商业版授权模式[14] - **硬件一体化方案**:将大模型与AI服务器、边缘计算设备结合,在智能制造、智慧医疗等场景具有优势[15] - **高昂的训练成本**:训练一个万亿参数大模型需约5000-8000张高端GPU运行2-3个月,仅电力成本超2000万元人民币,采用英伟达H100集群单次训练成本可能高达1.2亿元[16] - **持续的推理成本**:以月活1亿的对话应用为例,若用户日均交互10次,每次消耗500 tokens,每日推理成本可能超300万元[16] - **攀升的人才成本**:大模型算法工程师平均年薪80-150万元,首席科学家薪酬包普遍在500万元以上[16] - **商业化进度差异**:已提交上市申请的AI大模型企业中,仅15%在最近财年实现盈利,亏损企业平均亏损额达收入的1.8倍[17] 资本市场反应:估值逻辑与投资风险 - **新兴估值框架**:技术壁垒评分法(技术得分权重超40%) 生态价值评估(如GitHub star数) 算力资产重估 商业化潜力折现(通常采用30-50%高折现率)[18] - **二级市场表现**:百度、阿里股价在AI概念推动下,2024年以来分别上涨42%和38% AI芯片企业寒武纪上市首日涨156%,随后三个月回调65% AI算力指数在2024年累计上涨72%[19] - **企业梯队划分**:领先梯队(百度、阿里、腾讯等巨头,年收入10-50亿元,多处于亏损或微利) 成长梯队(智谱AI、深度求索等初创企业,年收入1-10亿元,亏损率30-50%) 早期梯队(垂直领域初创企业,年收入不足1亿元,依赖融资)[20] 未来趋势:技术演进与产业重塑 - **技术发展方向**:模型架构可能向“神经符号AI”和“世界模型”变革 多模态融合向“全感知AI”发展 边缘计算与轻量级大模型结合,“端云协同推理”成主流 “具身智能”将大语言模型与机器人技术结合[22] - **产业生态重构**:算力民主化进程加速,分布式算力网络出现 高质量数据要素市场形成 基于大模型的“AI原生应用”大量涌现 “自然语言编程”降低开发门槛,推动全民开发者时代[23] - **社会影响与挑战**:大模型将替代部分脑力劳动,同时创造提示工程师、AI训练师等新职业 可能扩大数字鸿沟,需确保技术普惠性 AI伦理与治理需求凸显,可解释AI、AI对齐等技术将更重要[24] - **行业阶段展望**:2025-2026年为商业化验证期,行业整合加速 2027-2028年为产业成熟期,AI成为企业基础设施,可能出现千亿美元市值平台企业 2029年及以后为生态繁荣期,AI深度融入经济社会,通用人工智能愿景初步显现[26][28][29]
还是谷歌懂程序员?Demis 采访首提“氛围编程”,Gemini 3 彻底戒掉“爹味”说教
AI科技大本营· 2025-11-21 18:03
文章核心观点 - 谷歌通过Gemini 3展示了其在AI模型性能与成本效率上的重大突破,标志着公司从防御姿态转向积极进攻[12] - 模型的核心优势体现在极致的推理成本控制、工具化定位以及推理能力等关键技术的显著进步[4][15] - 公司对AGI的实现路径保持清晰认知,认为仍需5-10年并依赖推理、记忆等领域的根本性突破[11][17][22] 模型性能与效率突破 - 通过极致的“蒸馏技术”将顶尖模型的运行成本大幅降低,使其能处理数十亿次日均搜索请求而不破产[4] - 公司在成本与性能的帕累托前沿保持领先,实现了“比我聪明的没我便宜,比我便宜的没我聪明”的竞争优势[5][6] - 模型效率的提升使得其能应用于“AI概览”等极端场景,服务数十亿用户,并为云客户和企业客户带来成本效益[22] 模型能力与交互体验 - 模型在推理能力上表现出色,能够同时思考多个步骤,避免了以往模型思绪断片或跑偏的问题[15] - 提供了全新的生成式界面,能真正给用户提供定制化的设计和答案,是创建新型交互界面方面最强的模型[15] - 模型风格更简洁、切中要点、更具表现力,采用“去人格化”设计,专注于成为高效的信息处理器和逻辑推理机[7][9][10][16] 技术发展方向与AGI路径 - 实现AGI预计仍需5到10年,并且可能需要一两个本质上的研究突破,而非仅靠堆算力和数据[11][17] - 下一阶段AI战争的主战场将围绕推理、记忆以及世界模型这三个关键领域展开[11] - 公司认为当前处于规模化基础模型持续进步的阶段,但要通往AGI仍需研究突破[22] 产品整合与市场战略 - 公司正将AI能力深度整合到现有产品矩阵中,包括地图、YouTube、安卓、搜索等,并以AI为先的视角重新构想这些产品[19] - 新产品如Gemini App、NotebookLM等AI原生产品,旨在让AI成为用户工具箱里的超能力工具,专注于任务完成[18] - 公司关注用户满意度等产品体验指标,并将基准测试的进步转化为有意义的产品体验[23] 行业竞争与市场定位 - AI领域处于极其惨烈的竞争环境,公司关注自身进步速度,并对其进展感到满意[19] - 公司不仅是AI研究的先驱,更致力于将研究成果转化到下游所有产品中,并认为在这场进化中才走到一半[19] - 行业部分领域存在泡沫迹象,但公司同时在投资未来蓝海领域如机器人、游戏、药物研发,并看好其长期潜力[25][26]
谷歌DeepMind CEO哈萨比斯:世界模型是未来,AI泡沫真实存在
搜狐财经· 2025-11-20 16:14
产品发布与定位 - 谷歌正式推出最新大模型Gemini 3 Pro,其研发目标是打造综合性能最强的基础模型,并弥补前代在编程、逻辑推理及数学能力等方面的短板[1] - 谷歌DeepMind首席执行官将Gemini 3 Pro描述为构想的通用人工智能(AGI)系统的关键组成部分[1] 产品性能与用户规模 - Gemini 3在多步骤任务中展现出更强的推理连贯性,能更稳定地维持思维链条,并可动态生成定制化交互界面如互动式教程或嵌入式计算器[3] - Gemini应用月活跃用户已突破6.5亿,若计入通过搜索中"AI概览"功能接触Gemini的用户,月活跃人数达20亿[3] - 为扩大影响力,公司宣布全美高校学生将获赠一年期Gemini高级版免费使用权[3] 技术前沿与未来规划 - 研究重心已转向世界模型,并援引SIMA 2及视频生成模型Genie 3等项目作为代表性案例,这些模型已在内部用于机器人及其他智能体的训练,未来将成为实现AGI不可或缺的核心组件[3] - 预测世界模型将迎来一个"ChatGPT时刻",但最大障碍是成本和当前的技术难题,例如让稳定性维持超过一分钟等挑战[4] - 真正的通用人工智能(AGI)实现尚需5至10年时间,仍需一到两项关键突破,尤其在模型可靠性、复杂推理能力及长期记忆机制等方面[5] 行业竞争与市场观点 - 明确指出私募市场显然存在泡沫,举例称某些尚无实质性产出的初创企业在种子轮融资阶段即被赋予数百亿美元估值,认为这不可持续且缺乏基本逻辑[4] - 强调此类风险不适用于谷歌,回溯了将AI研究打造为谷歌产品"引擎室"的长期战略已显成效,Gemini深度赋能搜索、YouTube、云服务等核心业务并迅速实现商业回报[4] 技术发展与投资回报 - 承认仅靠扩大模型参数量已出现收益递减现象,但强调进展远未停滞,相关投入依然极具价值,当前虽不再每代都实现性能翻倍,但仍持续带来显著提升,具备高投资回报率[5] - 警示模型能力的增强如接入外部工具的"函数调用"能力亦带来新型风险,特别强调在网络安全领域必须加倍审慎,严防技术被恶意滥用[5]