BAGEL模型

搜索文档
全球AI周报:英伟达NVL72机柜单加速出货,DeepSeek成全球第二大AI实验室
天风证券· 2025-06-03 08:30
报告行业投资评级 未提及 报告的核心观点 - 海外AI方面,尽管年内宏观及贸易政策有扰动,但美股科技大厂对AI资本投入与应用商业化未放缓,供应链影响减弱,AI主线逻辑强化,看好英伟达等核心算力提供商、Salesforce等企业AI SaaS商业化进展以及特斯拉在FSD和Robotaxi领域的进展 [3] - 中国AI产业在模型能力与商业化两端有积极进展,进入“双轮驱动”新阶段,有望引发产业链二次估值重构,建议关注小米、阿里巴巴等公司 [7] 分组1:投资建议 海外AI - 英伟达财报超预期,CSP机柜部署提速验证AI推理需求高增,推理需求释放将带动新一轮数据中心资本支出周期,看好英伟达、NEBIUS等核心算力提供商订单需求高景气度 [3] - AI Agent进入大规模商业化,Salesforce验证AI商业化逻辑,建议关注企业AI SaaS商业化进展,关注Salesforce、ServiceNow等公司 [3] - 智能驾驶落地提速,看好特斯拉在FSD和Robotaxi领域的持续进展 [3] 中国AI - 中国AI发展进入新阶段,模型能力接近国际先进水平,商业化探索成果显现,建议关注小米、阿里巴巴等公司 [7] 分组2:重点公司财报AI进展 - 英伟达一季度收入441亿美元,同比增长69%,数据中心业务同比增长73%,NVL72出货提速,GB300系统样品送样 [6][14] - Salesforce第一财季营收98.3亿美元,同比增长8%,Agentforce签约超8000笔交易,付费客户超4000,相关ARR突破10亿美元,Data Cloud年经常性收入超10亿美元,同比增长超120% [6][18] - DeepSeek R1模型完成小版本升级,新版本在多个基准测评中成绩优异,在AIME 2025测试中准确率由70%提升至87.5% [6][29] - 快手可灵2.1模型正式上线,可灵AI一季度收入达1.5亿元,在文生视频领域占据30%份额 [6][40] - 字节跳动开源多模态模型BAGEL,支持文本、图像、视频统一理解与生成,在多项评测中表现超越此前开源统一模型 [6][43] 分组3:重点公司业绩情况 英伟达 - 一季度收入441亿美元,同比增长69%,数据中心收入391.12亿美元,同比增长73%,非GAAP毛利率为61%,若不计减值费用达71.3% [14] - 主流超大规模云厂商平均每周部署近1000个NVL72机柜,GB300系统样品向主要云服务商送样 [14] - 受H20出口禁令影响,预计中国数据中心收入FY26Q2减少80亿美元,预计第二季度收入450亿美元(±2%),非GAAP为72%(±50个基点) [14] Salesforce - 第一财季营收98.3亿美元,同比增长8%,订阅与支持收入93亿美元,同比增长8%,当前剩余履约责任296亿美元,同比增长12%,GAAP每股收益2.58美元 [18] - Agentforce签约超8000笔交易,4000为付费客户,本季度Data Cloud与AI相关年经常性收入超10亿美元,同比增长超120%,季度数据量达22万亿条记录,同比增长175% [18] - 预计第二财季营收101.1亿至101.6亿美元,同比增长8%-9%,上调全年FY26营收指引至410亿至413亿美元,同比增长8%-9%,维持全年FY26 GAAP经营利润率指引为21.6%,非GAAP利润率指引维持在34.0% [18] Marvell - 第一季度营收18.95亿美元,同比增长63%,非GAAP毛利率为59.8%,调后每股收益为0.62 [22] - AI相关营收占数据中心业务主导地位,预计未来占比进一步提升,与美国大型超大规模数据中心客户合作的领先XPU项目进展顺利,已锁定3nm晶圆产能与先进封装能力,计划2026年启动生产 [22] - 预计营收20亿美元左右(±5%),GAAP毛利率50%-51%,非GAAP毛利率59%-60% [22] 分组4:全球AI动态更新 DeepSeek - R1模型更新,推理能力显著提升,在数学、编程与通用逻辑等基准测评中成绩优异,在AIME 2025测试中准确率提升,幻觉问题改善,创意写作能力优化 [29] - 成为全球第二大AI实验室,与谷歌并列,开源领域第一,中美AI差距持续缩小 [35] 快手 - 可灵2.1模型正式上线,物理真实感大幅提升,包含普通版与大师版,可灵AI一季度收入超1.5亿元,在文生视频领域占据30%份额,商业化应用渗透至广告营销领域 [40] 字节跳动 - 开源多模态模型BAGEL,支持文本、图像、视频统一理解与生成,在多项评测中表现超越此前开源统一模型,提供3D空间导航等额外能力 [43]
全球AI周报:英伟达NVL72机柜单加速出货,DeepSeek成全球第二大AI实验室-20250602
天风证券· 2025-06-02 22:53
报告行业投资评级 未提及 报告的核心观点 - 海外AI方面,尽管年内宏观及贸易政策有扰动,但美股科技大厂对AI的资本投入与应用商业化未放缓,AI主线逻辑持续强化,算力长期增长逻辑未变,AI Agent进入大规模商业化,智能驾驶落地提速 [3] - 中国AI产业在模型能力与商业化两端均有积极进展,进入“双轮驱动”新阶段,有望引发产业链二次估值重构,带来投资机会 [7] 各部分总结 投资建议 海外AI - 看好英伟达、NEBIUS、Coreweave、Vertiv等核心算力提供商订单需求高景气度,因英伟达财报超预期,CSP机柜部署提速验证AI推理需求高增,推理需求释放将带动新一轮数据中心资本支出周期 [3] - 建议关注Salesforce、ServiceNow、Snowflake、Palantir等企业AI SaaS商业化进展,因Salesforce财报显示AI Agent平台迈入实质性商业化阶段,企业AI数据平台需求持续增长 [3] - 看好特斯拉在FSD和Robotaxi领域的持续进展,因智能驾驶落地提速,Robotaxi相关事件密集,且临近马斯克承诺推出完全无人监督驾驶Robotaxi的时间点 [3] 中国AI - 建议关注小米、阿里巴巴、腾讯控股、快手、美团,因中国AI发展进入新阶段,模型能力接近国际先进水平,商业化探索成果显现 [7] 重点公司业绩情况 英伟达 - 一季度收入441亿美元,同比增长69%,数据中心业务同比增长73%,NVL72出货节奏提速,GB300系统样品已送样,预计后续正式出货 [3][6][14] - 受H20出口禁令影响,预计中国数据中心收入FY26Q2减少80亿美元,预计第二季度收入450亿美元(±2%) [14] Salesforce - 第一财季营收98.3亿美元,同比增长8%,Agentforce已签约超8,000笔交易,付费客户超4,000,相关ARR突破10亿美元,Data Cloud年经常性收入超10亿美元,同比增长超120% [3][6][18] - 预计第二财季营收101.1 - 101.6亿美元,同比增长8% - 9%,上调全年FY26营收指引至410 - 413亿美元,同比增长8% - 9% [18] Marvell - 第一季度营收18.95亿美元,同比增长63%,AI相关营收占数据中心业务主导地位,预计未来占比提升,已锁定3nm晶圆产能与先进封装能力,计划2026年启动生产 [22] - 预计营收20亿美元左右(±5%),GAAP毛利率50% - 51%,非GAAP毛利率59% - 60% [22] 全球AI动态更新 DeepSeek - R1模型完成小版本升级为DeepSeek - R1 - 0528,推理能力显著提升,在多项基准测评中成绩优异,接近国际顶尖模型,在AIME 2025测试中准确率从70%提升至87.5% [6][29] - 成为全球第二大AI实验室,开源领域第一,多项测评能力显著提升,中美AI差距缩小 [35] 快手 - 可灵2.1模型正式上线,物理真实感大幅提升,包含普通版与大师版,适用于不同场景 [40] - 可灵AI一季度收入超1.5亿元,超过2024年7月至2025年2月累计收入总和,2025年1 - 5月在文生视频领域占30%份额,商业化应用渗透至广告营销领域 [40] 字节跳动 - 开源多模态模型BAGEL,支持文本、图像、视频统一理解与生成,在多模态评测基准中表现超越此前开源统一模型,还提供3D空间导航等额外能力 [6][43] - 在多个视觉理解基准测试和图像生成能力测试中表现突出,加入思维链推理后能力显著提高 [43]
字节把GPT-4o级图像生成能力开源了!
量子位· 2025-05-24 14:30
字节开源多模态模型BAGEL - 公司开源了GPT-4o级别的图像生成能力,模型名为BAGEL,具备多模态统一功能[1][2] - 模型活跃参数7B(总计14B),性能超越或媲美Stable Diffusion 3、FLUX.1等开源模型及GPT-4o、Gemini 2.0等闭源模型[3] - 模型发布后迅速登上Hugging Face趋势榜并引发热议,获OpenAI研究员公开赞赏[4][6] BAGEL模型核心功能 - 实现带图推理、图像编辑、3D生成等多模态功能统一[9][32] - 支持无缝多轮对话,如生成图片后自动设计公仔形象及销售口号[15][16][18] - 具备复杂图像编辑能力,包括一键试妆、人物表情转换、凭空造物等[20][21][25] - 拥有多视角合成和导航等"世界建模"能力,如360°展示手办、沉浸式场景推进[27][28][30] 模型技术架构 - 采用MoT架构,含两个Transformer专家分别处理多模态理解和生成[34] - 使用双视觉编码器:像素级编码器捕捉颜色/纹理,语义级编码器分析物体类别/场景含义[35] - 基于Qwen2.5-7B-Instruct和siglip-so400m-14-384-flash-attn2模型微调,采用FLUX.1-schnell VAE模型[35] 涌现能力新发现 - 提出"涌现能力"新定义:早期训练未出现而在后续预训练中出现的能力[36] - 发现能力形成顺序:多模态理解/生成→基础编辑→复杂智能编辑[36][37] - VAE与ViT特征结合可显著提升智能编辑能力[38] 性能基准测试 - 图像理解任务中,7B参数的BAGEL优于Janus-Pro等统一模型及Qwen2.5-VL等专用模型[40][41] - 在MME-P(1687)、MMBench(85.0)、MMMU(55.3)等测试中领先同类7B模型[42] - 图像生成总体评分达0.82,与FLUX.1-dev持平,超过SD3-Medium(0.74)[48] - 图片编辑能力媲美Step1X-Edit,优于Gemini 2.0,GEdit-Bench-EN评分达7.36[49]