人工智能 - 财报，业绩电话会，研报，新闻

人工智能

搜索文档

CVPR 2026 Highlight | 仅用64个token生成高清图像，MacTok攻破连续分词器后验坍塌难题

机器之心· 2026-04-24 12:48

文章核心观点 - 复旦大学团队提出的MacTok是一种创新的1D连续图像分词器，通过双空间协同设计从根本上解决了连续分词器在极端压缩下的“后验坍塌”问题，仅用极少量token即可实现高质量的图像生成，为视觉生成模型的效率提升提供了重要技术方案 [3][5][23] 技术背景与挑战 - 视觉生成模型提升推理效率的关键在于将图像压缩为更少的token，连续分词器因具有连续平滑的潜在空间和原生梯度优化优势，被视为比离散分词器更具潜力的压缩范式 [2] - 连续分词器在极度压缩（如仅用64个token）时面临核心挑战：强KL正则化会导致潜在空间退化，引发“后验坍塌”，使编码器无法有效写入语义特征，导致生成图像失去细节 [2][8] - 学术界以往通过调整损失函数（如调低正则强度）的解决方案难以触及后验坍塌的根源，在苛刻的token限制下，普通随机掩码策略也会因信息流失而再度引发坍塌 [10] MacTok解决方案：双空间协同设计 - **核心洞察**：迫使模型学习真正富含语义的表征是杜绝后验坍塌的唯一途径，这需要统筹图像空间与表征空间进行协同设计 [3][10] - **图像空间设计**：引入随机掩码与语义掩码的混合机制，最优图像掩码比例约为70%。语义掩码会优先遮挡图像中语义最丰富的区域，迫使模型在重建时更关注深层语义推理 [12] - **表征空间设计**：引入全局与局部表征对齐，使潜在token既与细粒度的局部Patch特征对齐，也与高度浓缩宏观语义的全局CLS特征对齐，直接约束潜在空间的语义结构 [14] - **协同机制**：图像空间的语义掩码（增加理解难度）与表征空间的全局-局部对齐（指明优化方向）相辅相成，共同构建了鲁棒的抗坍塌学习环境 [14] 性能表现与效率优势 - **256x256分辨率表现**：仅使用64个token的MacTok，在无CFG测试条件下的gFID为1.44，优于SoftVQ-VAE（其gFID降低了2.21）。使用128个token的MacTok达到了与拥有1024个token的主流基线模型（如gFID为1.42的REPA）相近的水平 [5][18] - **512x512分辨率表现**：MacTok的128 token与64 token版本均取得了1.52的gFID与超过306.0的IS，在信息量成倍增长的情况下，核心指标未出现衰减，维持了领先效果 [5][19][20] - **压缩效率**：MacTok实际使用的token数量相比传统方法压缩了64倍，在保持极高视觉质量的同时，具备明显的单token信息密度优势 [5][15][18] - **技术验证**：通过UMAP降维可视化可观察到，相比以往方法因坍塌导致的特征严重重叠，MacTok能明确保持各语义类别的聚类结构 [21] 行业意义与前景 - MacTok的研究成果表明，后验坍塌的根源在于强正则条件下缺乏有效的数据特征引导约束 [23] - 该方案在不改变原生分词架构的前提下，通过在图像输入层引入具有挑战性的语义掩码重建任务，即可极大激活连续潜在空间编码深层信息的潜能 [23] - 面对未来对图像生成分辨率、吞吐延迟要求越来越苛刻的大模型场景，MacTok提供了一项具有较高实用价值的技术参照方案 [23] - 该工作已被CVPR 2026录用并入选为Highlight论文 [5]

90后港科大硕士，用AI给老外算八字，每人收费60美元

创业邦· 2026-04-24 11:22

公司核心业务与产品 - 公司FateTell是一个结合古老东方命理智慧与现代人工智能技术的平台，主要提供个性化的命理分析和运势预测服务[27] - 产品采用“生命策展”哲学，提供“命之书”和“运之书”两种核心产品，定价分别为39.99美元和19.99美元[16][20] - 产品自2024年正式上线以来，已面向海外市场累计生成数万份万字命理报告，复购率接近40%，付费用户客单价超过60美元[5] - 公司通过自研专门应对八字排盘推理的算法和技能，解决了通用大模型在排盘时易出错、过度迎合用户等问题[18][19][20] - 产品形式包括万字长文报告、AI占卜问事和每日运气签，并追求多模态体验，支持将报告转为播客或语音导读[16][18][20] 创始人背景与创业历程 - 创始人西元毕业于香港科技大学，曾参与AI+法律创业，并在字节跳动及一家上海Agent Platform公司探索AI商业化闭环[9][10] - 创业灵感源于其在港科大期间接触到的传统文化研修班，对八字命理等东方典籍产生兴趣[9] - 公司在2023年ChatGPT出现后创立，瞄准AI 2.0时代的机遇[10] 市场定位与出海战略 - 公司全部业务面向海外市场，APP不在国内上架，主要原因是海外市场（包括1.2亿华人及欧美日韩市场）想象空间更大，用户付费意愿更强[21][24] - 目标用户主要为海外华人及对东方文化感兴趣的欧美年轻人，年龄集中在25-35岁[24][27] - 在文化转译和品牌构建上投入大量心思，例如聘请英籍华裔翻译专业名词，以适配海外用户的文化认知[22] - 注册用户男女比例接近1:1，付费用户男女比例约为40%男性、60%女性[24] 行业市场分析 - AI+玄学赛道已发展为一个规模庞大且增长迅猛的千亿级市场[24] - 2024年全球灵性产品与服务市场规模达1801.8亿美元，预计2032年将突破2490亿美元[25] - 2024年西方占星应用市场规模为37.83亿美元，未来十年复合增长率高达23.52%[25] - 2025年中国玄学市场规模突破120亿元，年增长率高达43.7%，核心驱动用户是18-35岁的年轻群体[26] - 赛道玩家可分为“东方玄学派”（如八字、风水）和“西方玄学派”（如星座、塔罗），后者因受众面更广，在全球拥有更广泛的用户基础[27][28] 商业模式与竞争格局 - 公司70%的收入来自会员订阅，其余来自产品售卖[28] - 行业内主流商业模式包括将命理服务产品化、采用订阅制与混合付费模式，以及衍生商品与知识付费[28] - 海外市场（尤其是欧美）用户对东方玄学有文化好奇，付费意愿强，容易获得较高客单价[29] - 广义的占星术在海外已是热门赛道，过去几年出现过月营收上千万美金的APP[29] - 社会不确定性（如国际战争、AI冲击带来的失业）会持续增长人们对命理的需求，以寻求确定性和精神寄托[29]