Workflow
Transformer
icon
搜索文档
AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪· 2025-12-17 19:43
这意味着,智能的提升并不是"想象空间"问题,而是绕不开能量、带宽、存储、制造和成本的物理限 制。 AGI 会不会到来? 这是AI 行业里反复被讨论、却一直始终缺乏清晰论证的问题。 最近,西雅图艾伦人工智能研究所(AI2)的研究员蒂姆·德特默斯(Tim Dettmers)在一篇文章,题目很 直接——《为什么 AGI 不会实现?》。 蒂姆·德特默斯 在这篇文章中,他提出了一个被长期忽视、却至关重要的前提: 计算并不是抽象概念,而是一件彻底受物理规律约束的事情。 德特默斯认为,当下市场对AGI 的判断普遍偏乐观,一个关键原因在于: 很多讨论只停留在模型、参数和算法层面,却忽视了支撑这些能力的物理基础正在逼近极限。 在文章中,德特默斯第一次从物理约束的角度,系统性地解释了为什么AGI 面临一系列难以回避的现 实。这些判断,也有助于我们更好地理解当前的AI行业。 他在文章中总结了几条关键判断: 1)Transformer 的成功并非偶然,而是在当前物理约束下接近最优的工程选择,继续通过架构改进获得 的边际收益正在快速下降。 2)当下大量所谓"创新",本质仍是既有框架上的渐进改进,很难带来结构性跃迁。 3)AI 过去的 ...
布林坦承谷歌低估Transformer,“还被OpenAI挖走了Ilya”
36氪· 2025-12-15 19:02
我们在AI方面犯了错误,而OpenAI抓住了机会。 最近谷歌创始人谢尔盖・布林回母校斯坦福演讲,公开复盘谷歌的奋斗史: 从诞生、崛起,再到AI比拼中大意掉队,以及靠Gemini 3逆风翻盘…… 他重新审视谷歌这些年的幸运与失误,并对AI未来冷静判断: 一开始没想创业,想要卖技术结果没人买。 Transformer发布后,我们错误地低估了AI,把机会拱手让给了OpenAI。 谷歌的学术积累和全栈技术为谷歌重回世界一流AI提供了保障。 我从谷歌眼镜中得到的教训是,不要过早地将想法商业化。 量子计算和材料科学是被低估的未来技术,不建议学比较文学。 至于为何他退休后又回归谷歌,他也给出了自己的答案: 生命的意义在于找到你的热情,并不懈地为之奋斗。 谷歌的诞生始于一把"撬开"万物的钥匙 谷歌的发展历程始于1995年的斯坦福大学。 那时拉里·佩奇正在考虑去斯坦福读研,而受指派带他参观学校的正是塞吉·布林,不过那时,布林还是个喜欢"撬锁"的自由青年。 据他所说,那是段充满创造力的时光,在斯坦福读博期间,他从MIT一位擅长撬锁的朋友那里学会了这项技能。 他会从办公室的窗户爬到脚手架上,然后偷溜进其它房间,把房间电脑里的所有软 ...
重磅!8 年后回到斯坦福,谷歌创始人谢尔盖·布林复盘:AI为什么落后,又如何实现绝地反击?(附视频)
美股IPO· 2025-12-15 08:24
现在的大学生该选什么专业?未来一百年的大学会是什么样子?业界 AI 如此强势,学界还能做什么?谷歌在过去二十多年里做对了什么,又有哪些遗 憾? 尽管早期有失误,但 Google在AI领域的持续竞争力源于其对深层基础技术的长期投入 。 例如十多年前 谷歌 就开始开发的 AI专用芯片 (TPU)以及大规模数据中心。这种对算法、半导体和计算设施的全面掌控,使其能够站在现代AI的前沿。 3. 未来 AI的突破点 可能 是算法 AI未来发展的方向将更多地依赖于算法进步和潜在的新架构 , 而不是仅仅通过扩大数据和计算规模。在过去十年中,算法的进步速度实际上已 经超过了计算能力的增长速度。 4. AI做那种创造性的事更容易 不应该仅仅因为觉得 AI 擅长写代码就转去学比较文学,AI 在比较文学上可能表现得更好。不是要不尊重比较文学专业的学生,但当你使用 AI 写代码的时候,有时候它并不奏效,像是它会犯一个相当重大的错误。然而,你在一篇关于比较文学的论文里把一句话写错了,并不会真的有那 种后果。AI做一些那种创造性的事情更容易。 谢尔盖 ·布林访谈内容划重点 1. 谷歌在 AI浪潮早期 曾出现决策失误 谷歌 在 Transf ...
AI医疗影像:在数据“围城”中如何突围
经济观察报· 2025-12-10 18:39
文章核心观点 - 医疗影像AI已创造巨大价值并实现规模化落地,但行业陷入“叫好不叫座”的商业化困境,企业捕获价值远低于创造价值 [2][5][6][8] - 商业化困境源于技术门槛低导致同质化竞争激烈,以及医院支付能力有限 [9][10] - 突破困境的关键在于技术范式从CNN转向Transformer,以提升AI的诊断能力和向多模态综合诊疗模型发展,从而创造更大价值 [12][13][14] - 实现技术跃迁的最大挑战与机遇在于数据,包括数据规模、质量、多模态对齐及隐私法规限制,解决数据问题是构建下一代医疗AI护城河的关键 [16][17][18][19] AI医疗影像的现状与价值 - 政策推动行业快速发展,目标到2030年二级以上医院普遍开展医学影像智能辅助诊断 [2] - AI医疗影像辅助诊断技术已成熟并步入实际落地阶段,头部三甲医院几乎都已引入相关产品 [3] - AI显著提升医生工作效率,将传统近30分钟的诊断流程缩短至5-10分钟 [5] - AI识别准确率普遍高达95%以上,在肺结节、骨折检测、骨龄分析、乳腺病灶检测及放疗、手术规划等多个场景得到应用 [6] - 全国三级医院约14万名影像科医生,平均工资约19万元,假设AI为其节约一半工作时间,理论上每年可创造高达130多亿元的价值 [6] 行业商业化困境 - 2020年至2024年整个行业累计商业收入不足30亿元 [8] - 平均每家医院终身使用一款AI医疗影像产品仅需40万元,且多为一次性软件买断模式,后续服务收费乏力 [8] - 同质化竞争激烈,截至2025年已有100余款AI医疗影像产品获批三类医疗器械注册证,仅胸肺场景就有十余家企业竞争 [9] - 竞争导致“免费试用”策略盛行,医院习惯免费模式后,厂商收费困难 [9] - 医院支付能力有限,许多三乙和二级医院全年检查收入在百万量级,影像科自身可能亏损,难以负担数十万元的软件费用 [10] - 企业盈利困难,以鹰瞳科技为例,2024年全年收入1.5亿元,销售费用占近一半,全年亏损2.6亿元,大部分非头部企业年收入仅在千万元量级 [10] 技术发展的潜力与方向 - 当前AI主要提供辅助诊断价值,在“找出病灶”方面表现出色,但在“判断疾病良恶性质”上误诊率高于优秀医生,治疗辅助仍需医生复核 [12] - 现有主流CNN模型缺乏全局视野,对复杂疾病易误判,且对三维影像理解能力较弱 [13] - 引入Transformer架构可弥补CNN短板,其自注意力机制擅长全局和长距离依赖分析,有望让AI从“辅助诊断”向“独立诊断”迈进 [13] - 基于Transformer的多模态能力,可整合处理影像、文本、检查、时序、组学等多维度医疗数据,构建覆盖全流程的综合性临床诊疗大模型 [14] 数据:核心挑战与机遇 - 基于Transformer的模型需要百万到千万级的图像数据进行训练,微调也需要十万到百万级的标注数据,规模远超当前主流商用模型 [18] - 医疗数据受严格法规保护,共享流通受限,获取大规模高质量标注数据困难 [18] - 疾病数据量差异大,如葡萄膜黑色素瘤全球每年仅几万例,罕见病仅几百上千例,即便大病种如肺癌,获取高质量数据也非易事 [18] - 数据混乱问题突出,包括不同设备参数差异、医生标注质量参差不齐等 [18] - 多模态数据融合进一步增加难度,需要对齐来自不同时间和来源的多种数据,是一项浩大的数据工程 [19] - 能够在数据收集、治理、标准化、标注、隐私保护和高效利用方面建立核心能力的企业,将构建深厚护城河 [19] - 解决数据问题需技术和机制双轮驱动,技术途径包括发展自监督学习、联邦学习、合成数据等 [19] - 非技术层面需设计有效协调机制,中国可能在自上而下的制度设计方面具有优势,以促进数据流动 [20]
北京大学:AI视频生成技术原理与行业应用 2025
搜狐财经· 2025-12-09 14:48
AI视频技术概览 - AI视频属于狭义AI范畴内基于学习的生成式AI,是AIGC的重要分支,核心任务包括视频生成、编辑与理解,典型生成方式为文生视频、图生视频、视频到视频 [1] - 技术演进从2016年前的GANs探索阶段,到2020-2024年扩散模型实现商业化突破,再到2024年Sora发布开启“AI视频元年”,行业进入分钟级高清视频量产阶段 [1] - 国内外主流工具平台包括OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika等,各平台在时长、画质、风格上各具特色 [2] 技术原理与架构 - 扩散模型因训练稳定、生成多样性强成为主流技术范式,其架构分为U-Net和DiT两类,U-Net易训练但一致性弱,DiT成本高但长视频一致性强 [3] - 关键技术组件包括:Transformer的自注意力机制保障时空一致性,VAE实现像素空间与潜空间的压缩转换,CLIP完成文本与视觉的语义对齐,时空补丁统一数据格式降低计算成本 [3] - 训练数据的规模、质量和多样性决定模型上限,主流数据集包括WebVid-10M等文本-视频对数据集,以及UCF-101等类别级数据集 [4] 技术能力发展与突破 - 主流模型已实现1080p/4K分辨率、最长2分钟时长的生成,部分模型支持原生音画同步,国产模型在中文语义理解和可控性上优势显著 [5] - 现存核心瓶颈包括时序一致性、物理逻辑合理性、细节情感表达,且算力成本制约技术普及 [5] - 已形成VBench、SuperCLUE等评估体系,VBench2.0更聚焦“内在真实性”,谷歌Veo 3、快手可灵AI等模型在榜单中表现突出 [5] 行业应用案例与价值 - 在影视娱乐领域,AI实现从前期概念设计、中期虚拟制片到后期智能剪辑的全流程介入,催生了AI短剧、AI重制长片等新业态,大幅降本增效 [6] - 在短视频与营销领域,AI视频成为应用最广泛领域,可快速生成品牌广告、UGC创意内容、虚拟主播带货视频,实现低成本规模化内容量产 [6] - 在文旅行业,AI用于制作城市宣传片、打造AI文旅推荐官、结合VR/AR实现沉浸式体验,助力文化IP传播与旅游营销 [7] - 在教育培训领域,AI用于批量生成微课视频、打造AI虚拟教师、定制个性化学习内容,解决教育资源不均问题 [8] - 在新闻媒体领域,AI虚拟主播实现24小时播报,AI生成沉浸式新闻叙事,但面临内容真实性、版权合规等伦理挑战 [9] 工具选用建议 - 建议根据场景化选型:专业影视选Runway或可灵AI,短视频运营选即梦AI或Pika,动漫动态化选海螺AI或Pixverse,国风内容选Vidu等国产工具 [10] - 使用门槛分级:国内工具零门槛直连,海外工具需科学上网和外币支付,Sora/Veo等生态绑定工具门槛最高 [11] - 核心原则是采用多工具协作工作流,以“导演思维”驾驭工具,而非依赖单一平台 [12] 市场格局与厂商动态 - 代表性厂商及产品包括:OpenAI Sora、快手可灵AI、字节即梦AI、Runway、Pika Labs、生数科技Vidu、Luma AI、阿里通义万相等 [49] - 可灵AI支持生成长达2分钟、1080p、30fps的视频,其Kling 2.5 Turbo版本成本降低30%,全球用户已突破4500万 [49] - 即梦AI背靠抖音与剪映生态,打通从“AI生成”到“剪辑发布”全链路,月活5400万,2025年10月网站访问量达1000万 [49] - 通用大模型通过集成顶尖视频模型获得强大视频生成能力,例如ChatGPT集成Sora,Gemini生态集成Veo,Meta AI集成Emu Video,通义千问集成通义万相,豆包与抖音/TikTok和剪映形成闭环 [51] 发展前景与核心观点 - AI视频最终将走向“人机共创”范式,成为像互联网一样的基础设施,人类需聚焦创意与判断力,实现与AI的协同进化 [13] - AI视频正从实验性“技术炫技”阶段迅速发展为影视预演、广告创意、短视频制作和在线教育的实用工具,行业变革的临界点已清晰可见 [37] - 2024年初Sora模型凭借一分钟长度、高清画质及物理世界连贯性理解,重新定义了AI视频生成能力 [37]
Roblox CEO感叹AI研究进展:曾博览群书的自己都快看不懂了
搜狐财经· 2025-12-08 19:28
行业研究动态 - AI研究更新速度飞快,新论文几乎每天出现,技术概念复杂,Roblox CEO认为想真正看懂所有论文极其困难[1] - AI研究浪潮规模巨大、速度惊人,从Transformer到扩散模型再到世界模型,内容多到难以完全掌握[3] - 随着AI从学界扩展到国家战略高度,Meta、微软等公司纷纷建立自己的研究部门,并以极高薪资吸引顶尖人才[3] - AI研究变得更封闭,2023年谷歌决定减少公开发表的AI论文,公司进入要靠内部知识竞争的阶段[3] - OpenAI联合创始人认为,真正决定AI走向的仍是研究本身,现在重新回到研究时代,只不过用的是更大的计算机[3] 公司观点与战略 - Roblox CEO在创业初期几乎读遍从物理模拟到图形渲染的各类研究且都能理解,但AI时代的到来改变了一切[3] - Roblox CEO的结论是,AI在三维世界里仍然处于非常初期的阶段[3] - AI依赖的是人类制造出来的文本和图像,是用自己创造的内容训练AI,而不是用真实世界的三维原始数据[3]
AI医疗影像:在数据“围城”中如何突围
经济观察网· 2025-12-08 15:06
政策目标与行业现状 - 国家五部门发布《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》,提出到2030年基层诊疗智能辅助应用基本实现全覆盖,二级以上医院普遍开展医学影像智能辅助诊断等应用 [2] - 医疗影像因数据结构标准化,是AI技术在各行业中最早实现规模化落地的场景之一,目前头部三甲医院几乎都引入了AI医疗影像产品 [3] - 中国影像科医师严重短缺,三级医院每位影像科医生日均需出具80-100份CT报告、60-80份磁共振报告或120-150个超声检查,超负荷工作现象普遍 [4] AI医疗影像的已实现价值 - AI辅助可将传统耗时近30分钟的诊断流程缩短至5-10分钟,显著提升医生工作效率 [5] - AI在影像检查中识别准确率普遍高达95%以上,在放疗计划制定中可将几小时的工作压缩至几分钟 [5] - 全国三级医院约有14万名影像科医生,平均工资约19万元,保守假设AI能为其节约一半工作时间,理论上每年可创造高达130多亿元的价值 [6] 行业商业化困境与原因 - 2020年至2024年整个AI医疗影像行业的累计商业收入不足30亿元,平均每家医院终身使用一款产品仅需40万元,多为一次性软件买断模式 [7] - 行业同质化竞争激烈,截至2025年已有100余款AI医疗影像产品获批三类医疗器械注册证,单胸肺场景就有十余家企业竞争 [8] - 激烈竞争导致厂商普遍采用“免费试用”策略,陷入囚徒困境,且医院经费有限,许多三乙和二级医院全年检查收入在百万量级,难以负担非刚需的软件费用 [8][9] - 以鹰瞳科技为例,2024年全年收入1.5亿元,销售费用占近一半,全年亏损2.6亿元,大部分非头部企业年收入仅在千万元量级 [9] 技术发展潜力与方向 - 当前AI主要提供辅助诊断价值,在“判断疾病良恶性质”上误诊率高于优秀人类医生,能力上限暂时只能作为医生的提效助手 [10] - 当前主流商业化模型以卷积神经网络(CNN)为主,其缺乏全局视野,对三维影像理解能力较弱 [11] - 引入Transformer架构有望弥补CNN短板,其自注意力机制擅长全局和长距离依赖分析,能让AI从“辅助诊断”向“独立诊断”更进一步 [11] - Transformer的多模态能力为构建覆盖筛查、诊断、治疗到随访全流程的综合性临床诊疗大模型铺平了道路 [12] 未来发展面临的核心挑战:数据 - 基于Transformer的模型需要百万到千万级的图像数据,微调也需要十万到百万级的标注数据,比当前主流商用模型训练规模大几个数量级 [16] - 医疗数据受严格法规保护,共享流通受限,且不同设备、协议及医生标注差异导致数据混乱,获取大规模高质量标注数据困难 [16] - 多模态数据融合要求收集和处理影像、病理、临床、基因等多维度数据,并将不同来源、时间的数据精确对齐,工程浩大 [17] - 能够在医疗数据的收集、治理、标准化、标注、隐私保护和高效利用方面建立核心能力的企业,将有望构建最深护城河 [17] - 可通过自监督学习、联邦学习、合成数据等技术途径缓解数据挑战,但更需要设计有效的协调机制让数据流动起来 [17]
谷歌祭出Transformer杀手,8年首次大突破,掌门人划出AGI死线
36氪· 2025-12-08 09:01
谷歌DeepMind掌门人断言,2030年AGI必至!不过,在此之前,还差1-2个「Transformer级」核爆突破。恰在NeurIPS大会上,谷歌甩出下一代 Transformer最强继任者——Titans架构。 2025年即将进入尾声,下一年AI将走向何方? 最近,谷歌DeepMind CEO Hassabis在一场访谈中,对未来12个月的「关键趋势」做出重磅预测。 划重点!!!主要有以下五大核心点—— Hassabis强调,我们应尽快Scaling现有的AI系统,至少它们会成为最终AGI的「关键部件」。 甚至,它可能会成为那个终极的AGI系统。 不过话说回来,我们至少还需要1-2个像Transformer、AlphaGo这样级别的突破才可以。 八年前,谷歌Transformer奠基之作出世,彻底改变了AI界。 正如Hassabis所言,「颠覆性」AGI已近在眼前! DeepMind掌门人:2030年,AGI必至 今年早些时候,Hassabis就曾预测,具备或超越人类能力的AGI,可能会在2030年之前实现。 如今,谷歌另一个极有潜力成为Transformer的全新架构——Titans,正式在NeurI ...
AI 赋能资产配置(二十九):AI 预测股价指南:以 TrendIQ 为例
国信证券· 2025-12-03 21:18
核心观点 - AI大模型通过强大的信息收集和分析能力弥补了传统股价预测模型因缺乏非结构化信息而表现波动的缺陷[3] - TrendIQ平台展示了AI技术在股价预测上的能力圈,提供本地化部署和网页版两种选择,分别具备安全性和易用性优势[4] - 预测框架从基于LSTM的混合模型向Transformer架构演进,利用全局上下文感知、零样本学习和思维链推理提升预测能力[8] - 未来AI股价预测将向多模态融合和实时RAG方向发展,结合视觉、文本和时序分析提升鲁棒性[40] AI股价预测技术演进 传统LSTM模型的优势与局限 - LSTM模型因能处理非线性问题和时间序列特性,成为股价预测的"门面担当",其神经元包含细胞状态和输入门、遗忘门、输出门三种门机制[5] - 机器学习时代LSTM与XGBoost结合捕捉时间依赖性和非线性关系,强化学习时代与xLSTM和深度强化学习结合优化长依赖捕捉问题[6] - LSTM存在三大局限性:模态单一性导致无法理解市场因果关系;解释性较弱被视为黑盒模型;泛化鲁棒性弱难以跨市场迁移[6][7] Transformer架构的创新突破 - Transformer架构通过全局上下文感知能力同时关注输入序列所有元素,捕捉微小但关键的市场信号[8] - 具备零样本与少样本学习能力,凭借海量通用语料预训练快速适应新兴资产预测任务[8] - 思维链推理将预测过程分解为逻辑步骤,提供宝贵可解释性,例如"通胀数据高于预期→央行加息概率增加→贴现率上升→高估值科技股承压"的推理链条[8] TrendIQ平台架构解析 本地化部署运行流程 - 训练阶段通过train_multiple.py和quick_train.py收集历史数据(使用yfinance),预处理后训练LSTM模型并保存文件,quick_train.py预设AAPL、GOOGL、MSFT、TSLA和AMZN五只热门股票训练[12][14] - 检查阶段通过check_models.py验证训练结果完整性,扫描data/目录统计模型数量和质量状态[18] - 运行阶段通过app.py启动Flask服务器,提供用户界面进行实时预测,包含价格预测、图表展示和置信度计算功能[20] 核心代码模块功能 - train_multiple.py作为批量处理引擎支持扩展股票列表(包括META、NVDA、NFLX等),提供三种训练模式:全量训练、自定义股票训练和单股票训练[17] - app.py整合预测功能,通过/live-ticker接口获取实时股价数据,/predict接口处理用户输入,基于60天历史数据进行LSTM预测并给出30天波动率计算的置信度[20] 本地部署与线上平台对比 本地部署实施步骤 - 软件包下载通过PowerShell或git bash获取完整项目结构,需Python 3.8以上环境支持[21] - 安装阶段一次性安装Flask、TensorFlow、NumPy、Pandas、Scikit-learn、YFinance、Joblib等依赖包[23] - 数据训练通过quick_train.py执行约10-15分钟的训练过程,为五只热门股票生成模型文件[24] - 本地运行通过python app.py启动服务,访问http://127.0.0.1:5000即可使用预测功能[28] 线上平台操作流程 - 用户通过Google账号或邮箱登录TrendIQ网页版,支持一键登录[32] - 预测功能分为Swing Trading(60分钟线及以上趋势预测)和Scalp Trading(5分钟及以内趋势预测),用户上传K线截图即可分析[33][34] - 预测结果包含三部分:多空趋势研判、止盈止损位置(如当前价6410对应止盈6685和止损6280)、具体判断理由(如上涨趋势建立、均线多头排列等)[36] 平台效果对比分析 - 本地版TrendIQ输入股价序列和成交量数据,使用LSTM模型,输出目标价和置信区间,对海外大市值、标准化程度高个股预测效果较好[41] - 线上版TrendIQ输入K线图,使用LSTM+LLM/LSTM+VAE模型,输出多空建议和止盈止损线,在多头排列环境中主升阶段判定准确,但震荡市胜率一般且大回撤时缺乏前瞻性[41] 未来技术演进方向 模型架构创新 - 学术界正用Transformer架构与图神经网络逐步取代LSTM,解决长序列依赖和高维数据处理问题[39] - Time-VLM和TimeRAG等新框架尝试将K线图作为图像处理,结合LLM文本理解和数值模型分析,实现多模态融合[40] 实时能力提升 - 实时RAG技术将连接外部知识库,在预测时主动搜索最新供应链动态和政策变化,缓解模型过时问题[40] - 多模态系统能在股价暴跌时同时识别技术破位形态、解读相关新闻事件并计算历史波动率,提升判断准确性[40]
扩散模型走了十年弯路!何恺明重磅新作JiT:回归真正“去噪”本质
自动驾驶之心· 2025-12-01 08:04
文章核心观点 - MIT何恺明团队提出极简扩散模型架构JiT,让模型直接预测干净图像本身,而非预测噪声或混合噪声 [10] - 该方法在高维像素空间中表现更强、更稳、更简单,无需潜在空间、分词器、预训练或额外损失函数 [11][13] - 直接预测干净图像的任务更简单,因为自然图像位于低维流形上,而噪声是高维乱流,网络容量有限时预测噪声会导致模型崩溃 [14][15][17] 技术原理与创新 - 核心思想是让网络预测干净数据,而非噪声或混合噪声,通过数学推导证明直接输出干净图像可使任务更简单 [18][19] - 即使在高维场景如3072维patch(32×32×3)中,只有直接预测干净图像的方式不会崩溃 [20] - 框架仅使用Vision Transformer直接在原始像素patch上操作,输入输出均为像素patch,结构极简 [17] 模型性能与实验结果 - 在ImageNet 256×256分辨率上,JiT-L/16模型FID达到2.36,JiT-G/16模型FID达到1.82,与依赖复杂潜在空间的大型扩散模型性能相当 [30] - 在512×512分辨率下,JiT-H/32模型FID为1.94,JiT-G/32模型FID为1.78,证明在3072维高维patch下仍能稳定训练 [31] - 在1024×1024超高分辨率下,JiT-B/64模型FID为4.82,且计算成本几乎不随分辨率增加而上升,序列长度保持恒定 [32] 架构优势与反直觉发现 - 即使将patch embedding压缩至低维瓶颈(如32维甚至16维),模型不仅未崩溃,FID指标反而显著提升,与低维流形假设一致 [27][28][35] - 模型可处理高达12288维的patch(64×64×3),完全摆脱潜在空间,在原生像素空间自洽工作 [24][25] - 该方法特别适合需要处理原始高维数据的领域,如具身智能和科学计算,有望成为更通用的生成基础方式 [34]