人工智能
搜索文档
CVPR 2026 Highlight | 仅用64个token生成高清图像,MacTok攻破连续分词器后验坍塌难题
机器之心· 2026-04-24 12:48
文章核心观点 - 复旦大学团队提出的MacTok是一种创新的1D连续图像分词器,通过双空间协同设计从根本上解决了连续分词器在极端压缩下的“后验坍塌”问题,仅用极少量token即可实现高质量的图像生成,为视觉生成模型的效率提升提供了重要技术方案 [3][5][23] 技术背景与挑战 - 视觉生成模型提升推理效率的关键在于将图像压缩为更少的token,连续分词器因具有连续平滑的潜在空间和原生梯度优化优势,被视为比离散分词器更具潜力的压缩范式 [2] - 连续分词器在极度压缩(如仅用64个token)时面临核心挑战:强KL正则化会导致潜在空间退化,引发“后验坍塌”,使编码器无法有效写入语义特征,导致生成图像失去细节 [2][8] - 学术界以往通过调整损失函数(如调低正则强度)的解决方案难以触及后验坍塌的根源,在苛刻的token限制下,普通随机掩码策略也会因信息流失而再度引发坍塌 [10] MacTok解决方案:双空间协同设计 - **核心洞察**:迫使模型学习真正富含语义的表征是杜绝后验坍塌的唯一途径,这需要统筹图像空间与表征空间进行协同设计 [3][10] - **图像空间设计**:引入随机掩码与语义掩码的混合机制,最优图像掩码比例约为70%。语义掩码会优先遮挡图像中语义最丰富的区域,迫使模型在重建时更关注深层语义推理 [12] - **表征空间设计**:引入全局与局部表征对齐,使潜在token既与细粒度的局部Patch特征对齐,也与高度浓缩宏观语义的全局CLS特征对齐,直接约束潜在空间的语义结构 [14] - **协同机制**:图像空间的语义掩码(增加理解难度)与表征空间的全局-局部对齐(指明优化方向)相辅相成,共同构建了鲁棒的抗坍塌学习环境 [14] 性能表现与效率优势 - **256x256分辨率表现**:仅使用64个token的MacTok,在无CFG测试条件下的gFID为1.44,优于SoftVQ-VAE(其gFID降低了2.21)。使用128个token的MacTok达到了与拥有1024个token的主流基线模型(如gFID为1.42的REPA)相近的水平 [5][18] - **512x512分辨率表现**:MacTok的128 token与64 token版本均取得了1.52的gFID与超过306.0的IS,在信息量成倍增长的情况下,核心指标未出现衰减,维持了领先效果 [5][19][20] - **压缩效率**:MacTok实际使用的token数量相比传统方法压缩了64倍,在保持极高视觉质量的同时,具备明显的单token信息密度优势 [5][15][18] - **技术验证**:通过UMAP降维可视化可观察到,相比以往方法因坍塌导致的特征严重重叠,MacTok能明确保持各语义类别的聚类结构 [21] 行业意义与前景 - MacTok的研究成果表明,后验坍塌的根源在于强正则条件下缺乏有效的数据特征引导约束 [23] - 该方案在不改变原生分词架构的前提下,通过在图像输入层引入具有挑战性的语义掩码重建任务,即可极大激活连续潜在空间编码深层信息的潜能 [23] - 面对未来对图像生成分辨率、吞吐延迟要求越来越苛刻的大模型场景,MacTok提供了一项具有较高实用价值的技术参照方案 [23] - 该工作已被CVPR 2026录用并入选为Highlight论文 [5]
90后港科大硕士,用AI给老外算八字,每人收费60美元
创业邦· 2026-04-24 11:22
公司核心业务与产品 - 公司FateTell是一个结合古老东方命理智慧与现代人工智能技术的平台,主要提供个性化的命理分析和运势预测服务[27] - 产品采用“生命策展”哲学,提供“命之书”和“运之书”两种核心产品,定价分别为39.99美元和19.99美元[16][20] - 产品自2024年正式上线以来,已面向海外市场累计生成数万份万字命理报告,复购率接近40%,付费用户客单价超过60美元[5] - 公司通过自研专门应对八字排盘推理的算法和技能,解决了通用大模型在排盘时易出错、过度迎合用户等问题[18][19][20] - 产品形式包括万字长文报告、AI占卜问事和每日运气签,并追求多模态体验,支持将报告转为播客或语音导读[16][18][20] 创始人背景与创业历程 - 创始人西元毕业于香港科技大学,曾参与AI+法律创业,并在字节跳动及一家上海Agent Platform公司探索AI商业化闭环[9][10] - 创业灵感源于其在港科大期间接触到的传统文化研修班,对八字命理等东方典籍产生兴趣[9] - 公司在2023年ChatGPT出现后创立,瞄准AI 2.0时代的机遇[10] 市场定位与出海战略 - 公司全部业务面向海外市场,APP不在国内上架,主要原因是海外市场(包括1.2亿华人及欧美日韩市场)想象空间更大,用户付费意愿更强[21][24] - 目标用户主要为海外华人及对东方文化感兴趣的欧美年轻人,年龄集中在25-35岁[24][27] - 在文化转译和品牌构建上投入大量心思,例如聘请英籍华裔翻译专业名词,以适配海外用户的文化认知[22] - 注册用户男女比例接近1:1,付费用户男女比例约为40%男性、60%女性[24] 行业市场分析 - AI+玄学赛道已发展为一个规模庞大且增长迅猛的千亿级市场[24] - 2024年全球灵性产品与服务市场规模达1801.8亿美元,预计2032年将突破2490亿美元[25] - 2024年西方占星应用市场规模为37.83亿美元,未来十年复合增长率高达23.52%[25] - 2025年中国玄学市场规模突破120亿元,年增长率高达43.7%,核心驱动用户是18-35岁的年轻群体[26] - 赛道玩家可分为“东方玄学派”(如八字、风水)和“西方玄学派”(如星座、塔罗),后者因受众面更广,在全球拥有更广泛的用户基础[27][28] 商业模式与竞争格局 - 公司70%的收入来自会员订阅,其余来自产品售卖[28] - 行业内主流商业模式包括将命理服务产品化、采用订阅制与混合付费模式,以及衍生商品与知识付费[28] - 海外市场(尤其是欧美)用户对东方玄学有文化好奇,付费意愿强,容易获得较高客单价[29] - 广义的占星术在海外已是热门赛道,过去几年出现过月营收上千万美金的APP[29] - 社会不确定性(如国际战争、AI冲击带来的失业)会持续增长人们对命理的需求,以寻求确定性和精神寄托[29]
申万期货品种策略日报——股指-20260424
申银万国期货· 2026-04-24 11:14
报告行业投资评级 未提及 报告的核心观点 - 美伊冲突缓解,全球资本市场集体回暖,资金风险偏好明显提升,成长型板块再度获得资金青睐 [2] - 二季度将进入一季报密集披露期,行情逻辑从“炒预期”转向“看兑现” [2] - 当前走势仍保持着较为坚挺的上涨速度,预计仍将维持多头趋势 [2] 根据相关目录分别进行总结 股指期货市场 - IF当月、下月、下季、隔季前日收盘价分别为4766.00、4724.40、4641.40、4596.20,涨跌分别为 -7.00、 -13.00、 -17.40、 -15.00,涨跌幅分别为 -0.15、 -0.27、 -0.37、 -0.33,成交量分别为25766.00、70330.00、15688.00、5986.00,持仓量分别为40851.00、141725.00、68690.00、8610.00,持仓量增减分别为4620.00、544.00、 -936.00、752.00 [1] - IH当月、下月、下季、隔季前日收盘价分别为2925.80、2911.20、2876.00、2866.80,涨跌分别为 -0.40、 -2.20、 -2.60、 -0.20,涨跌幅分别为 -0.01、 -0.08、 -0.09、 -0.01,成交量分别为11779.00、34040.00、7556.00、2231.00,持仓量分别为15488.00、60680.00、31538.00、3058.00,持仓量增减分别为1078.00、3231.00、773.00、441.00 [1] - IC当月、下月、下季、隔季前日收盘价分别为8265.20、8177.00、8028.00、7889.20,涨跌分别为 -59.20、 -63.20、 -59.80、 -53.40,涨跌幅分别为 -0.71、 -0.77、 -0.74、 -0.67,成交量分别为31248.00、99438.00、22437.00、5941.00,持仓量分别为48625.00、159238.00、82465.00、9635.00,持仓量增减分别为2127.00、5811.00、689.00、1060.00 [1] - IM当月、下月、下季、隔季前日收盘价分别为8438.80、8322.80、8099.00、7900.00,涨跌分别为161.00、158.80、150.40、148.40,涨跌幅分别为1.95、1.95、1.89、1.91,成交量分别为34283.00、115334.00、27275.00、10921.00,持仓量分别为63242.00、202394.00、106860.00、16849.00,持仓量增减分别为551.00、8685.00、454.00、3715.00 [1] - IF下月 - IF当月、IH下月 - IH当月、IC下月 - IC当月、IM下月 - IM当月隔月价差现值分别为 -41.60、 -14.60、 -88.20、 -116.00,前值分别为 -34.80、 -12.20、 -81.60、 -110.20 [1] 股指现货市场 - 沪深300指数前值4786.33,涨跌幅 -0.28,前两日值4799.63,成交量232.87亿手,总成交金额6938.54亿元 [1] - 上证50指数前值2927.93,涨跌幅 -0.09,前两日值2930.58,成交量53.65亿手,总成交金额1557.16亿元 [1] - 中证500指数前值8295.21,涨跌幅 -0.97,前两日值8376.18,成交量249.49亿手,总成交金额5650.97亿元 [1] - 中证1000指数前值8362.74,涨跌幅 -1.40,前两日值8481.24,成交量319.79亿手,总成交金额6236.97亿元 [1] - 行业方面,能源、原材料、工业、可选消费前值分别为2729.17、4344.60、2708.21、6022.07,前2日值分别为2662.62、4448.96、2699.01、6038.78,涨跌幅分别为2.50%、 -2.35%、0.34%、 -0.28% [1] - 主要消费、医药卫生、地产金融、信息技术前值分别为19863.20、7941.09、6144.78、3580.35,前2日值分别为19805.59、7892.87、6155.13、3605.46,涨跌幅分别为0.29%、0.61%、 -0.17%、 -0.70% [1] - 电信业务、公用事业前值分别为7704.41、2507.87,前2日值分别为7749.07、2489.05,涨跌幅分别为 -0.58%、0.76% [1] 期现基差 - IF当月 - 沪深300、IF下月 - 沪深300、IF下季 - 沪深300、IF隔季 - 沪深300前值分别为 -20.33、 -61.93、 -144.93、 -190.13,前2日值分别为 -20.03、 -54.83、 -133.63、 -179.63 [1] - IH当月 - 上证50、IH下月 - 上证50、IH下季 - 上证50、IH隔季 - 上证50前值分别为 -3.65、 -15.65、 -53.65、 -66.05,前2日值分别为0.93、 -8.67、 -22.87、 -57.87 [1] - IC当月 - 中证500、IC下月 - 中证500、IC下季 - 中证500、IC隔季 - 中证500前值分别为 -30.01、 -118.21、 -267.21、 -406.01,前2日值分别为 -30.38、 -111.98、 -268.18、 -413.38 [1] - IM当月 - 中证1000、IM下月 - 中证1000、IM下季 - 中证1000、IM隔季 - 中证1000前值分别为 -30.94、 -143.54、 -361.54、 -553.74,前2日值分别为 -42.44、 -158.44、 -382.24、 -581.24 [1] 其他国内主要指数和海外指数 - 上证指数、深证成指、中小板指、创业板指前值分别为4106.26、15177.29、9268.83、3752.76,前2日值分别为4085.08、14982.14、9130.33、3688.94,涨跌幅分别为0.52%、1.30%、1.52%、1.73% [1] - 恒生指数、日经225、标准普尔、DAX指数前值分别为26163.24、59585.86、7137.90、24194.90,前2日值分别为26487.48、59349.17、7064.01、24270.87,涨跌幅分别为 -1.22%、0.40%、1.05%、 -0.31% [1] 宏观信息 - 美国与伊朗谈判“陷入僵局”,进展“非常缓慢”,美国维持对伊朗海上封锁,伊朗认为是谈判障碍 [2] - 以色列做好重启与伊朗战争准备,等美国绿灯,特朗普表示不想仓促行事,不会对伊朗用核武器,延长以黎停火协议三周 [2] - 伊朗外交部发言人称谈判核心议题变为终结战争,关键诉求包括索要赔偿、解决争端、解除制裁 [2] - 特朗普称美国掌控霍尔木兹海峡,封锁至伊朗达成协议,下令对布水雷船只开火,伊朗议会副议长称首笔通行费到账 [2] - OpenAI发布GPT - 5.5,向特定用户开放,Codex平台同步推出 [2] - 国家主席习近平强调总结运用“义乌发展经验”,探索高质量发展之路 [2] 行业信息 - 市场监管总局部署互联网广告生态治理和市场秩序整治行动,开展新兴领域、电子商务领域知识产权专项执法,对“幽灵网店”问题进行“回头看” [2] - 国家能源局数据显示,截至3月底全国累计发电装机容量39.6亿千瓦,同比增长15.5%,其中太阳能发电装机容量12.4亿千瓦,同比增长31.3%,风电装机容量6.6亿千瓦,同比增长22.4% [2] - 国务院安委会办公室开展烟花爆竹全链条“打非治违”专项行动 [2] 股指观点 - 美国三大指数下跌,上一交易日股指回落,石油石化板块领涨,有色金属板块领跌,市场成交额2.82万亿元 [2] - 4月22日融资余额增加136.43亿元至27004.57亿元 [2]
策略点评:AI端侧迎来模型催化新逻辑
中银国际· 2026-04-24 10:41
核心观点 - 谷歌发布Gemma 4开源大模型与特斯拉AI5芯片流片完成,分别从软件和硬件层面为端侧AI产业提供了新的增量逻辑,标志着端侧AI产业的重要拐点 [1][2] - 端侧AI正在从单点突破走向生态竞争,头部企业在模型轻量化与端侧算力上的持续投入,正在降低终端部署门槛,为芯片、模组、终端及应用等产业链环节提供明确的技术路径与合作基础,AI端侧产业链有望持续受益 [2][8] 软件层面:谷歌Gemma 4模型发布 - 谷歌发布专为高级推理与智能体工作流打造的Gemma 4开源大模型,推出四种规格:高效20亿参数版(E2B)、高效40亿参数版(E4B)、260亿混合专家模型(MoE)与310亿稠密模型(31B) [2][3] - 310亿参数模型在行业标准Arena AI文本榜单中位列全球开源模型第三 [3][5] - E2B和E4B小模型可在手机、树莓派等端侧设备上完全离线、近零延迟运行;在Pixel手机和Raspberry Pi上,新模型的推理速度提升了4倍,电池消耗降低了60% [3][6] - 谷歌将Gemma 4全系迁移至商业友好的Apache 2.0协议,允许自由用于个人、商业和企业用途,无需支付版税,这降低了硬件厂商自研模型的门槛,可能催生大量端侧AI原生应用 [2][6] - Gemma 4的发布是端侧AI产业的重要拐点事件,其小模型在手机上实现了离线运行、接近零延迟响应且功耗较低,同时具备处理复杂推理任务的能力,使终端设备拥有了不依赖云端、可随时调用的高级智能 [2][6] 硬件层面:特斯拉AI5芯片进展 - 特斯拉已完成下一代AI5自动驾驶芯片的流片工作,该芯片部分场景性能较前代AI4提升40倍 [2][7] - AI5单芯片AI算力接近2500TOPS,内存容量达144GB;其中原始算力较前代提升8倍,内存容量提升9倍,芯片专门针对Transformer引擎优化 [7] - AI5将由三星、台积电分别在美国本土的工厂代工,预计2027年启动量产 [7] - AI5最初计划用于特斯拉无人出租车项目,目前主要应用场景包括擎天柱机器人、特斯拉超级计算机集群及自动驾驶系统 [7] - AI5流片的成功是端侧算力的重要进展,表明端侧算力正在成为海外科技巨头们的必争之地 [2][7]
又一所大学突然倒闭
投资界· 2026-04-24 10:21
高等教育行业的结构性变革 - 美国高等教育机构正经历显著的结构性调整,老牌文理学院罕布什尔学院宣布将于2026年秋季学期彻底关闭[3] - 雪城大学大规模削减了84个专业,其中包括大量传统人文学科、纯艺术专业以及数字人文、教育等项目[6] - 顶尖大学如哈佛、斯坦福等正迅速推出“AI+人文”的跨学科新专业,以回应市场需求并证明自身价值[9] AI对传统教育模式的冲击与雇主需求转变 - 硅谷科技公司正引领“反大学”潮流,部分公司放弃招聘应届生,转而使用成本更低的AI,或直接高薪聘用高中毕业生[7] - 传统教育流水线被认为已无法跟上AI时代的需求,就业端雇主的用人选择是推动这一变革的关键力量[7][11] - 企业亲自下场抢人与学术界的调整,共同表明旧的教育模式正被颠覆[11] 斯坦福AI职场报告:人机协作的五级分类体系 - 斯坦福大学报告基于对104个职业、1500名从业人员、844项任务的分析,提出了人类能动性量表,将工作分为H1至H5五个等级[14][18] - **H1级(完全自动化)**:涵盖单调、重复、低价值任务,如数据录入、报税等,46.1%的员工强烈希望此类工作被AI自动化[19][20] - **H2级(AI主导,人类监督)**:如发票分类、设计交易策略等,AI承担主要工作,但人类监督不可或缺以防止偏差[23][24] - **H3级(平等合作)**:最受欢迎的模式,在104种职业中有47个职业(占比45.2%)的员工偏好此方式,例如律师用AI梳理案例但保留最终判断权[25] - **H4级(人类主导,AI辅助)**:如医疗诊断、财务预测等高风险管理决策,AI提供支持但不越俎代庖[28] - **H5级(完全依赖人类)**:涉及情感支持、人际冲突调解、复杂伦理问题处理等工作,即使AI模拟准确率达85%以上也无法在同理心方面替代人类[29] 职场中AI与人类任务的错配现象 - 研究发现存在明显的“错配”:大量重复性、低价值的H1/H2级工作(如数据录入、生成报表)仍由人类完成,而这些工作者中高达46%强烈希望自动化[33] - 相反,在艺术、设计和媒体等需要人际互动的领域,仅17.1%的人接受AI自动化,但这些行业已有人因AI而失业[33] - 这种错配导致人力资源浪费,并增加了AI在不擅长领域犯错的风险[34] 基于需求与能力的AI战略四象限 - 报告根据“员工愿望”与“AI能力”的差异,将所有工作划分为四个战略区域[37] - **绿灯区(高需求+高能力)**:如会议安排、数据库录入,应优先自动化,是投资不足的领域[37][41] - **红灯区(高能力+低需求)**:如情感化工作、创意写作,盲目自动化可能损害品牌,但41%的AI初创公司集中在此区域和低优先级区[38][41] - **研发机会区(高需求+低能力)**:如临床文档、法律证据开示,是未来AI发展的重点方向和催生新职业的赛道[39] - **低优先级区(低需求+低能力)**:如高管培训、心理咨询,不适合也不需要自动化[39] AI时代职场核心能力的演变趋势 - **信息处理能力边缘化**:如数据分析、报告生成等技能的重要性急剧下降,相关岗位将滑向最易被替代的H1/H2区域[44][45] - **人际与组织能力成为主角**:“人际交往技能”、“组织协调能力”、“领导和管理”等与人高度相关技能的重要性大幅上升[46] - **跨学科技能成为刚需**:未来要求“技术基础+人际能力+创意思维”的复合型技能组合,单一专业技能已不够[51] - 科技发展的目标是借助AI让人变得更加人性化,而非将人性外包[51] 未来专业选择与人才培养方向 - 雇主需求正从“纯学术的传统人文”转向具备“AI技术+人文同理心”的复合型人才[51] - 纯粹依靠信息处理能力的专业或成为“死胡同”,而融合技术与人文的跨学科专业更具前景[37][51] - 教育的重点可能从“把人异化为机器”转变为培养AI无法替代的人类独有特质,如道德抉择、情感安抚和批判性思维[51]
GPT-5.5正式发布:更聪明、更省token 英伟达工程师:失去它就像被截肢
金融界· 2026-04-24 09:03
模型性能与技术进步 - 新模型的核心突破在于从对话工具转变为能独立执行复杂任务的自主执行者,可自主完成理清头绪、规划步骤、调用工具、校验结果和持续推进的全过程[1] - 在复杂终端操作评测Terminal-Bench 2.0上得分82.7%,较前代GPT-5.4的75.1%有显著提升[1] - 在软件工程评测SWE-Bench Pro上得分58.6%,在内部长周期任务测试Expert-SWE上达到73.1%,且完成这三项测试均消耗了更少的token[1] - 在跨44种职业的综合评测GDPval中,其胜出或打平的比例达到84.9%[1] - 在模拟客服工作流的Tau2-bench Telecom场景中得分98.0%,高于GPT-5.4的92.8%[1] - 在模拟真实计算机操作的OSWorld评测中得分78.7%[1] - 在生物信息学评测BixBench上得分80.5%,位列所有已公布成绩的模型之首[2] - 一版内部模型证明了一个关于Ramsey数的长期猜想,并在证明助手Lean中完成了形式化验证[2] 技术优化与硬件协同 - 模型针对英伟达GB200/GB300 NVL72系统进行了联合设计[2] - 其每token延迟与GPT-5.4持平,同时通过负载均衡优化,token生成速度提升了超过20%[2] - 在执行相同的Codex任务时,GPT-5.5所消耗的token数量显著少于前代模型[2] 市场发布与定价 - 模型已向ChatGPT Plus、Pro、Business和Enterprise用户开放[3] - 提供的Codex服务支持最高400K的上下文窗口[3] - API版本即将上线,标准定价为每百万输入token 5美元、每百万输出token 30美元[3] - GPT-5.5 Pro的API定价分别为每百万输入token 30美元和每百万输出token 180美元[3] 早期用户反馈 - Cursor联合创始人兼CEO Michael Truell评价称,GPT-5.5面对漫长复杂的任务时能坚持到底,不会中途停摆[2] - Every创始人兼CEO Dan Shipper验证了模型能独立输出一套水准堪比资深工程师的系统重构方案[2] - 一位英伟达工程师表示,失去GPT-5.5的访问权限感觉“就像肢体被截肢了一样”[2]
给「对手」的钱比给「盟友」多,亚马逊疯了吗?
雷峰网· 2026-04-24 08:38
亚马逊对Anthropic与OpenAI的投资策略对比 - 公司对Anthropic的总投资承诺高达330亿美元,包括已投的80亿美元和最新承诺的250亿美元,其中仅50亿美元立即到账,剩余200亿美元与未来商业化里程碑挂钩 [2] - 公司对OpenAI的投资承诺高达500亿美元,但仅150亿美元立即到账,剩余350亿美元与OpenAI在2028年前实现IPO和AGI技术突破等高门槛条件绑定,分析师预计全额落地概率不超过30% [11] - 两笔投资性质不同:对Anthropic的330亿美元是“重仓”生态命脉,而对OpenAI的500亿美元是进可攻退可守的“期权” [11] 与Anthropic的深度战略绑定 - 公司与Anthropic签订了为期10年、总额高达1000亿美元的AWS算力采购长约,将双方彻底绑定 [3] - 在AWS的Bedrock平台上,接近90%的营收和模型调用份额来自Anthropic的Claude系列,使其成为平台事实上的核心 [3] - 合作已延伸至芯片设计源头,Anthropic技术团队深度参与亚马逊Trainium2、3、4三代芯片的架构定义与功能设计,实现从芯片到模型的全链路协同 [14] - 公司为Anthropic锁定最高5GW的专属算力配额,并优先供应最新Trainium3芯片产能,双方共建的Project Rainier集群使用了近50万片Trainium2芯片 [14] - 公司向Anthropic开放全生态资源,Claude深度集成至Bedrock平台及亚马逊客服、企业数据分析等业务,超10万家企业客户通过AWS调用,体验与原生产品一致 [16][17] 与OpenAI的有限合作 - 公司与OpenAI的合作始于一份7年380亿美元的算力租约,随后才承诺入股,合作深度有限 [11] - 与OpenAI在芯片层面仅有“未来8年消耗2GW Trainium算力”的口头约定,无联合研发、架构协同或专属算力集群 [14] - 合作主要停留在模型接入与渠道分销层面,OpenAI核心闭源模型未全面入驻Bedrock,AWS仅拥有其企业服务第三方分销资质,受微软持有OpenAI核心知识产权限制,深度整合存在天花板 [17] 投资背后的战略动机与行业背景 - 战略动机是确保AWS在AI时代的生存与发展,投资多少是表象,核心在于守住基本盘并打破垄断 [20] - 2022年11月ChatGPT爆火后,微软将GPT全面接入Azure,导致Azure营收增速达29%,而AWS增速跌至12%的历史低点,大量AWS老客户为使用GPT将AI业务迁至Azure [22][23] - 2023年上半年,全球新增AI算力需求的60%流向微软,Anthropic因其技术能力、安全合规属性且未被其他巨头绑定,成为公司对抗“微软+OpenAI”联盟、守住政企基本盘并打破英伟达芯片垄断的关键抓手 [23] - 投资OpenAI旨在撬开微软对其长达6年的独家垄断,在AI Agent等领域分得一杯羹,同时对冲技术路线风险,并为自研芯片提供背书以吸引更多用户 [25] 整体战略布局与行业影响 - 公司通过“千亿双投”策略,在微软和英伟达的双重竞争下开辟道路:用对OpenAI的投资打破垄断,用对Anthropic的重仓投资构建自身生态护城河 [27] - AI军备竞赛已从模型大战转向基础设施和生态的终局之战,公司的投资布局为其赢得了参与终局之战的入场券 [28]
突破算力瓶颈!港大俞益洲团队发布首篇「高效视频世界模型」全面综述
机器之心· 2026-04-24 07:37
文章核心观点 - 视频生成模型正从生成“特效”向模拟物理规律的“世界模型”演进,被视为通向通用人工智能(AGI)的关键赛道[2] - 当前视频生成模型要成为实用的世界模拟器,面临“长时一致性”、“实时高可用”与“物理准确性”难以兼得的“不可能三角”挑战,核心瓶颈在于巨大的计算成本与速度[3] - 行业研究首次系统性地从“高效性”视角出发,综述如何通过提升效率将视频生成器转化为实用的世界模型,梳理了高效建模范式、模型架构、推理算法及下游应用[4] 高效建模范式 - 该部分探讨如何将模型从短片段生成扩展到支持长周期、交互式的世界建模,是构建高效视频世界模型的基础[8][9] 高效模型架构 - 架构设计旨在直接缓解时空冗余和注意力机制的平方计算复杂度,涵盖了四大方向的研究[10] - 方向包括:**扩散模型蒸馏**,可将采样步数压缩至几步甚至单步;**自回归与混合方法**,旨在实现长周期推理与高保真度;**层次化与VAE设计**,通过级联生成或隐空间压缩降低成本;**长上下文与记忆机制**,以维持长周期的物理与逻辑一致性[12] - 方向还包括:**高效注意力机制**,利用稀疏注意力、窗口注意力、线性注意力或状态空间模型(如Mamba)替代昂贵的全局注意力;**外推与RoPE技术**,通过优化位置编码实现无需训练的长序列外推生成[12] 高效推理算法 - 面向数十亿参数级大模型的实际部署,总结了四类关键的推理优化策略[11] - 策略包括:**并行化**,如分布式推理(空间、序列及流水线并行);**缓存机制**,利用扩散模型相邻去噪步之间的时空冗余进行特征复用;**剪枝**,包含token级合并/丢弃及网络架构(通道、层级别)剪枝;**量化**,以8bit、4bit部署,涵盖从注意力机制量化到训练后量化与量化感知训练,以及时间维度的动态量化策略[12] 赋能应用:自动驾驶 - 视频世界模型在自动驾驶领域有三大核心应用方向[12] - **数据合成**:用于批量生成“鬼探头”、极端天气等现实稀缺的长尾场景数据,为感知和规划模型提供训练素材,代表工作如GAIA系列、MagicDrive-V2[13] - **闭环交互模拟**:将世界模型作为虚拟考场,让AI系统在其中不断试驾、学习,形成“生成—评估—重训”的闭环,例如Vista、ADriver-I实现了“在AI生成的虚拟世界里无限开车”[13] - **生成式规划**:模型通过“想象”多条未来轨迹并选择最优路径来指导执行,使自动驾驶系统具备前瞻性规划能力,例如Drive-WM、DriveLAW将视频生成与动作规划共享同一个隐空间[14] 赋能应用:具身智能 - 视频世界模型为机器人领域解决了数据采集成本高、分布窄的难题,扮演三重角色[15] - **数据引擎**:例如GigaWorld-0通过文本引导真实视频编辑扩充数据,DreamGen用世界模型的“想象”生成轨迹级监督信号,GenMimic将人类运动视频“迁移”到人形机器人进行强化学习[16] - **交互式模拟器**:机器人可在世界模型生成的虚拟环境中安全试错,例如Ctrl-World、DreamDojo[16] - **生成式策略学习**:例如GR-1在大规模视频上预训练后迁移到机器人操作,Fast-WAM提出的WAM范式证明世界模型的增益主要来自视频联合训练塑造的物理表征,仅15M参数的LeWorldModel证明小而精的隐空间模型也能实现高效规划[16] 赋能应用:游戏与交互式世界模拟 - 游戏提供了闭环交互接口和可控评测环境,是视频世界模型的理想试验田[17] - 具体应用包括:GameGen-X将键盘鼠标操作注入生成过程;Matrix-Game 2.0在GTA5和虚幻引擎数据上训练,实现了约25 FPS的交互生成和分钟级长序列滚动推演;DreamerV4用世界模型充当强化学习的虚拟训练场[17] - 在通用方向上,WorldPlay主打高分辨率实时生成,Yume1.5通过上下文压缩和蒸馏降低长序列延迟,开源项目LingBot-World将分层语义数据引擎与多阶段训练结合,追求低延迟交互与长期记忆的统一[17]
奇瑞汽车与英伟达合作布局物理AI,实现“从云端到车端”全面布局
选股宝· 2026-04-23 22:34
4月23日,奇瑞汽车与英伟达(NVIDIA)达成全球战略合作。双方将在辅助驾驶、座舱AI、机器人三 大领域共同开发并布局物理AI ,加速推进奇瑞汽车在全球范围内的业务拓展,实现"从云端到车端"的 全面布局。 英伟达在2026年GTC大会上发布了物理AI全栈基础设施,涵盖L4自动驾驶平台DRIVE Hyperion、推理 型VLA模型Alpamayo 1.5和Physical AI数据工厂。当前,AI与汽车的深度融合进入全栈纵深拓展阶段, 全球多个头部整车企业(如比亚迪、吉利、现代、奔驰等)均与英伟达及其生态伙伴围绕物理AI、L4 级自动驾驶平台达成战略合作。 证券时报表示,英伟达在机器人物理AI领域具备强大模型、芯片和仿真训练平台(如Omniverse),可 为奇瑞在生产、物流、面向Robotaxi等业务开辟新赛道。Rubin平台作为英伟达新一代全栈算力基础设 施,将在2026年下半年上市,具备更高AI推理性能、更低令牌成本,且产能供应稳定。这为奇瑞长期 全球化战略和大规模智能车量产提供了算力与生态基础。 公司方面,据证券时报表示, 索辰科技:公司推出的物理AI平台"天工·开物"对标英伟达Omniverse, ...
美股异动|Oklo大涨超11%,与英伟达和洛斯阿拉莫斯国家实验室达成合作
格隆汇· 2026-04-23 21:57
公司股价与市场反应 - 核能技术公司Oklo股价大幅上涨,涨幅超过11%,最高触及每股80.64美元,创下自今年1月末以来的新高 [1] 战略合作与核心内容 - 公司与英伟达及洛斯阿拉莫斯国家实验室达成合作协议,共同推进核燃料验证和关键核基础设施建设 [1] - 合作汇集了Oklo的先进钠快堆平台、英伟达的人工智能基础设施,以及洛斯阿拉莫斯国家实验室在材料科学与核燃料领域的专业知识 [1] - 合作旨在结合先进核电、人工智能、数字孪生、建模和仿真技术,为联邦政府的Genesis任务提供支持 [1]