Workflow
GPT-5.4 mini
icon
搜索文档
AI应用正当时:OpenAI发布GPT-5.4 mini、GPT-5.4 nano,Token需求拐点已至
长江证券· 2026-03-26 19:27
行业投资评级 - 投资评级为“看好”,评级维持 [8] 报告核心观点 - OpenAI于2026年3月18日发布GPT-5.4 mini与GPT-5.4 nano,模型能力逼近旗舰GPT-5.4,但成本显著降低,分别仅为旗舰版的1/3与1/12,极致性价比将推动AI产业从“模型能力竞赛”转向“智能体规模化落地”进程 [2] - 报告建议关注AI基础设施(算力、新技术方案)及垂直领域、端侧创新机遇,并继续看好国产AI产业链 [2] - 模型价格再次下探,或可看作是对中国模型的竞争应对,同时有望打开下沉市场,并有望拉动2026年全球Token需求进入加速爆发周期,直接拉动云基础资源链条景气度 [11] 模型性能与定位总结 - **GPT-5.4 mini**:定位“最强小型模型”,兼顾旗舰级性能与轻量化效率,面向消费端与开发者端同步开放 [11] - 全能力覆盖,场景适配性极强:拥有400K上下文窗口,核心能力全面跃升,可承担绝大多数开发任务 [11] - Coding能力:在SWE-Bench Pro测试中得分54.4%,比前代mini高出近7个百分点 [11] - 操作系统操控能力:在OSWorld-Verified计算机操控测试中准确率达72.1%,接近GPT-5.4 75%的人类级水平 [11] - Agent与推理能力:在Terminal-Bench 2.0测试中得分60.0%,前代仅38.2%,且运行速度快约两倍;在GPQA Diamond测试中得分88.0%,与旗舰版93.0%差距微小 [11] - 核心适用场景为对响应速度、推理能力有双重要求的中等复杂度任务 [11] - **GPT-5.4 nano**:定位GPT-5.4系列最轻量、成本最低的版本,仅面向开发者通过API开放 [5][11] - 极致轻量化,主要面向对成本和部署效率要求较高的低复杂度任务 [11] - 针对分类、数据提取、内容排序、简单编码子任务做了专项优化,在GPQA Diamond测试中得分达82.8%,在未优化提示词的场景表现接近GPT-5.2的水平 [11] - 适用场景更多在于将速度和成本作为核心考量的极简任务设计,以及高频低复杂度场景的执行效率极致优化 [11] 技术架构与成本优势 - **分层推理与协同调度架构**:两款模型均针对“混合模型部署”做了深度优化,支持云端-边缘协同的算力调度,可与旗舰GPT-5.4模型形成分级协作体系,由大模型负责整体规划与复杂决策,mini与nano模型组成的子智能体群并行处理细分任务,此架构能在保持旗舰级智能水平的同时,进一步降低单位任务的推理成本 [11] - **具体成本优势**:在Codex中调用GPT-5.4 mini仅消耗GPT-5.4配额的30% [11] - **GPT-5.4 mini API价格**:输入价格为0.75美元/百万Token,输出价格为4.50美元/百万Token,仅为旗舰版的1/3 [11] - **GPT-5.4 nano API价格**:输入价格为0.20美元/百万Token,输出价格低至1.25美元/百万Token,约为旗舰输出价格的1/12 [11]
人工智能周报(26年第12周):腾讯 QClaw 正式开启公测,小米推出三款面向面向 Agent 时代的大模型-20260324
国信证券· 2026-03-24 16:31
行业投资评级 - 行业评级为“优于大市” [1][4] 报告核心观点 - 伴随海外Claude Opus 4.5跨越Agentic Coding拐点和OpenClaw产品的火爆出圈,2026年AI发展正式进入Agent元年 [2][36] - 预计Agent将改变用户与数字化生态的交互形式,数字化产品(包含互联网各类型应用)可能会面临重构的风险 [2][36] - 预计2026年互联网巨头将加大AI方面投入,主要体现在资本开支、AI人才招聘和AI营销费用等增加 [2][36] - 建议保持对互联网巨头的观察,推荐优先布局大模型领先的厂商和算力产业链的企业 [2][36] 根据相关目录分别总结 (一)公司动态 - 腾讯QClaw正式开启全量公测,新版本持续优化微信生态体验,同时打通企业微信、QQ、飞书、钉钉等多平台远控通道 [23] - 宇树科技计划在3年内发布“通用人形机器人具身基础模型”,该模型将具备场景泛化、指令泛化、动作泛化与任务泛化四大核心能力 [23] - 生数科技旗下AI视频平台Vidu正式推出ViduClaw智能体,定位为可商用的一站式AI视频Agent解决方案,支持“一键成片”功能 [24] - 三星电子将继续大力投资AI半导体研发和设施,今年计划投资超过700亿美元 [24] - 谷歌正在测试Gemini Mac专用应用,代号Janus,并测试名为Desktop Intelligence的功能,可在用户授权下读取Mac应用屏幕内容以提升任务处理效率 [25][27] - ElevenLabs推出AI音乐交易市场,首创“创作者分成”商业模式,其语音市场此前已向创作者支付超1100万美元,音乐模型已生成近1400万首歌曲 [27] - 阿里巴巴正式推出全球首个企业级AI原生工作平台“悟空”,主打企业级安全,AI Agent自动继承企业权限规则 [28] - 讯飞开放平台推出基于AstronClaw的桌面级智能助理Loomy,主打本地办公场景,支持文件整理、数据分析、内容创作等任务,最快1分钟完成部署 [28] - 阿里云旗下AI Agent产品JVS Claw正式推出移动端App,用户可通过手机App直接“遥控”专属云电脑(6核/12GB Linux环境) [29] (二)底层技术 - AI代码编辑器Cursor推出第二代自研编程大模型Composer2,性能实现跨越式提升 [30] - 小米推出三款面向Agent时代的大模型:MiMo-V2-Pro旗舰基座模型(1T参数/42B激活,1M上下文)、MiMo-V2-Omni全模态Agent基座、MiMo-V2-TTS语音合成模型 [30] - OpenAI推出GPT-5.4 mini和GPT-5.4 nano两款轻量级模型,其中GPT-5.4 mini在SWE-Bench Pro编码基准测试中取得54.4%成绩,比满血版低3.3个百分点,运行速度较上一代提升2倍,支持40万token上下文,输入价格0.75美元/百万token [31] - Mistral AI发布Mistral Small4,是该实验室首款“全能型”大模型,首次在单一模型中兼顾推理、多模态理解及编程能力 [31][32] (三)行业政策 - 广东:一天新增8款已完成备案的生成式人工智能服务,累计完成备案132款,走在全国前列,公布全国首个省级层面支持人工智能OPC(一人公司)创新发展的专项政策 [33] - 北京:2025年北京未来产业发展指数排名全球第二,一年内推出21项全球首创技术新产品,《北京市未来产业2026年工作要点》围绕通用人工智能、具身智能等6个方面实施122项细分任务 [34] - 北京:对重点领域“人工智能+”示范项目给予不超过5000万元支持,并对算力租赁成本提供补贴 [34] - 北京海淀区:统筹安排不低于90亿元产业创新专项资金,备案大模型达125款,占全市近六成 [34] - 科技部:将出台“一揽子”政策措施,支持京津冀在人工智能等领域产出重大原创成果,深化“AI+”行动,赋能津冀钢铁、化工、农业等行业转型升级 [35] 重点公司盈利预测及投资评级 - 腾讯控股:投资评级“优于大市”,昨收盘508.0港元,总市值4,634,746百万港元,2025年经调整EPS预测27.60元,2026年预测32.63元,对应2025年PE为17.3倍,2026年为14.6倍 [3] - 阿里巴巴-SW:投资评级“优于大市”,昨收盘123.7港元,总市值2,362,584百万港元,2025年经调整EPS预测6.66元,2026年预测8.77元,对应2025年PE为17.5倍,2026年为13.3倍 [3] - 美团-W:投资评级“优于大市”,昨收盘79.2港元,总市值488,702百万港元,2025年经调整EPS预测-1.26元,2026年预测5.20元,对应2025年PE为-59.0倍,2026年为14.3倍 [3] - 百度集团-SW:投资评级“优于大市”,昨收盘115.6港元,总市值314,666百万港元,2025年经调整EPS预测7.64元,2026年预测8.87元,对应2025年PE为14.2倍,2026年为12.3倍 [3] - 快手-W:投资评级“优于大市”,昨收盘53.8港元,总市值234,175百万港元,2025年经调整EPS预测4.68元,2026年预测5.51元,对应2025年PE为10.8倍,2026年为9.2倍 [3] - 腾讯音乐:投资评级“优于大市”,昨收盘10.1美元,总市值16,009百万美元,2025年经调整EPS预测5.64元,2026年预测6.50元,对应2025年PE为12.7倍,2026年为11.0倍 [3] - 网易云音乐:投资评级“优于大市”,昨收盘128.4港元,总市值27,980百万港元,2025年经调整EPS预测14.54元,2026年预测12.09元,对应2025年PE为8.3倍,2026年为10.0倍 [3] - 美图公司:投资评级“优于大市”,昨收盘4.9港元,总市值22,243百万港元,2025年经调整EPS预测0.16元,2026年预测0.27元,对应2025年PE为28.5倍,2026年为16.9倍 [3]
Scale up柜间光互联趋势明确:通信行业周报(03.16-03.22)-20260324
兴业证券· 2026-03-24 15:42
行业投资评级 - 推荐(维持)[1] 核心观点 - 英伟达GTC 2026明确了光铜共进的趋势,推理需求爆发驱动Scale up从百卡转向千卡,柜间光互联趋势明确,建议关注光模块、铜缆产业链[4][9] - 中国联通2025年业绩基本稳定,2026年资本开支预计约500亿元,其中算力投资占比将超过35%,在基本盘稳固及资本开支下行趋势下,公司有望持续带来稳定分红[4][10] - 乐鑫科技2025年业绩增长强劲,智能家居主业贡献核心营收,新兴领域应用增速亮眼,产品矩阵扩张叠加开发者生态繁荣,公司长期成长动能充沛[4][11] - 周重点推荐鼎通科技、中际旭创、新易盛、英维克、中瓷电子、天孚通信[4][12] 板块走势 - 本期(03.16-03.22)通信板块上涨1.71%,其中通信设备制造上涨2.64%,增值服务下跌1.77%,电信运营下跌4.10%[2] - 同期沪深300指数下跌2.19%,中小板指数下跌3.86%,创业板指数上涨1.26%[2] 行业动态 - 快舟十一号遥七运载火箭发射成功,将8颗卫星顺利送入预定轨道[13] - 阿里云因全球AI需求爆发、供应链涨价,将于2026年4月18日起对AI算力、CPFS(智算)等服务调价,其中平头哥真武810E等算力卡相关服务上涨5%-34%,CPFS(智算)上涨30%[13] - OpenAI发布GPT-5.4 mini与nano两款小型模型,GPT-5.4 mini的API定价为每百万输入token 0.75美元、每百万输出token 4.50美元;GPT-5.4 nano定价为每百万输入token 0.20美元、每百万输出token 1.25美元[13] - MiniMax发布新一代Agent旗舰大模型M2.7,据称在部分研发场景中可承担约30%-50%的工作量,并在内部评测集上实现约30%的效果提升[14] - OpenAI据悉正在开发一款整合ChatGPT、Codex与浏览器的桌面“超级应用”[15] 公司业绩与动态 中国联通 - 2025年实现营业收入3922.23亿元,同比增长0.68%;归母净利润91.27亿元,同比增长1.07%;扣非归母净利润76.86亿元,同比增长14.70%[4][10] - 2025年第四季度实现营业收入992.38亿元,同比减少0.23%;归母净利润3.55亿元,同比减少48.71%[4][10] - 2026年预期资本开支在500亿元左右,其中算力投资占比将超过35%[4][10] 乐鑫科技 - 2025年实现营业收入25.65亿元,同比增长27.82%;归母净利润4.98亿元,同比增长46.72%;扣非归母净利润4.55亿元,同比增长47.62%[4][11] - 2025年第四季度实现营业收入6.53亿元,同比增长19.40%,环比减少2.05%;归母净利润1.21亿元,同比增长37.26%,环比增长4.83%;扣非归母净利润1.07亿元,同比增长38.21%,环比减少1.96%[4][11] - 2025年毛利率同比提升2.72个百分点至46.63%,其中芯片毛利率同比下降3.02个百分点至48.47%,模组毛利率同比上升6.49个百分点至45.38%[11] - 本期研发费用投入60,342.72万元,同比增长23.07%[11] 大事提醒 - 报告列出了2026年3月23日至3月29日期间通信行业多家上市公司的业绩发布会、股东大会召开、年报预计披露日期等事件提醒[15][16]
传媒互联网行业周报:SkyReelsV4登顶全球榜单,XiaomiMiMo-V2-Pro发布-20260324
国元证券· 2026-03-24 15:26
行业投资评级 - 报告对传媒互联网行业的投资评级为“推荐”,并维持该评级 [6] 报告核心观点 - 报告看好AI应用、文化出海等主题方向,并重点关注游戏、IP、短剧、营销、出版等子板块 [6] - 报告建议关注巨人网络、恺英网络、完美世界、三七互娱、世纪华通、吉比特、神州泰岳、浙数文化、昆仑万维、快手、心动公司、姚记科技、上海电影、芒果超媒、南方传媒、皖新传媒等标的 [9][33] 根据目录总结 1. 行情回顾 - 2026年3月16日至3月22日,申万传媒行业指数下跌3.78%,表现弱于同期沪深300指数(-2.19%)、上证指数(-3.38%)、深证成指(-2.90%),但强于创业板指(+1.26%)和恒生科技指数(-2.37%)[2][13] - 传媒细分板块中,影视院线(-5.15%)和游戏(-4.09%)跌幅居前,出版(-2.54%)跌幅相对较小 [2][13] - A股传媒板块周内涨幅前五个股为天地在线(+15.90%)、贵广网络(+14.51%)、出版传媒(+8.67%)、昆仑万维(+6.16%)、顺网科技(+2.56%);跌幅前五个股为中信出版(-11.71%)、流金科技(-11.37%)、名臣健康(-11.33%)、电魂网络(-10.60%)、巨人网络(-9.34%)[16][17] 2. 重点行业数据 2.1 AI应用数据 - 本周(2026.3.16-2026.3.22)OpenRouter平台token调用量为20.4T,环比增长20.17% [3][18] - 调用量前五的模型中,国产模型占据四席,分别为MiMo-V2-Pro、Step 3.5 Flash、MiniMax M2.5、DeepSeek V3.2 [3][18] - 本周Deepseek、豆包、腾讯元宝、千问的IOS端预估下载量分别为26.48万、207.89万、102.11万、79.38万次,环比变化分别为-14.94%、-1.13%、+19.31%、-38.44% [3][18] 2.2 游戏数据 - 2026年3月21日,国内IOS端手游畅销榜前五名为《王者荣耀》、《和平精英》、《无畏契约:源能行动》、《穿越火线-枪战王者》、《炉石传说》[4][22] - 2026年2月,中国游戏市场实际销售收入为332.31亿元人民币,同比增长18.96% [4][24] - 客户端游戏市场销售收入88.7亿元,同比增长56.75% [4][24] - 移动游戏市场销售收入227.29亿元,同比增长9.05% [4][24] - 中国自研游戏海外市场销售收入21.14亿美元,同比增长40.46% [4][24] - 多款重点新游定档:腾讯《洛克王国:世界》(3月26日)、《王者荣耀世界》PC端(4月10日);三七互娱《生存33天》(3月31日);恺英网络《三国:天下归心》(4月16日);完美世界《异环》(4月23日,官网预约量已突破2500万)[4][26][27] 2.3 影视数据 - 周度(3.16-3.22)国内电影总票房为3.27亿元人民币,票房前三名为《飞驰人生3》(6974.40万元,占比21.30%)、《河狸变身计划》(6620.18万元,占比20.2%)、《挽救计划》(4935.26万元,占比15.0%)[5][28][31] - 海外微短剧市场方面,3月9日至15日期间,DataEye海外微短剧APP素材投放榜TOP30的素材投放总量达88.6万组,较上期增加8.93% [5][29] - 昆仑万维旗下产品FreeReels(素材量15.8万)和DramaWave(素材量14.6万)分别位列投放榜第二和第三 [5][30] 3. 行业重点事件及公告 - **AI模型发布与进展**: - 阿里推出Qwen3.5-Max-Preview预览版,在LM Arena全球大模型竞技场取得1464分,助力阿里千问冲进全球前五、中国第一 [32] - 小米发布面向Agent时代的旗舰基座模型MiMo-V2-Pro,拥有超过1T总参数量,在Artificial Analysis榜单位列全球第八、国内第二 [32] - OpenAI发布GPT-5.4 mini和GPT-5.4 nano,其中GPT-5.4 mini运行速度较上一代提升2倍,输出价格为GPT-5.4的1/3 [32] - MiniMax推出M2.7模型,首次实现模型深度参与自我迭代 [32] - 昆仑万维天工AI大模型SkyReels V4登上Artificial Analysis榜单Text to Video (With Audio)赛道全球第一 [3][32] - **行业其他动态**: - 字节跳动以超过60亿美元的交易金额出售沐瞳科技给Savvy Games Group [32]
AI周观察:阿里和小米发布国产模型,美光财报表现良好
国金证券· 2026-03-22 22:39
报告行业投资评级 * 报告未明确给出整体行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22] 报告核心观点 * 人工智能模型正朝着高效率、高性价比及多模态融合方向加速演进,国内外厂商竞争激烈 [2] * 存储芯片行业当前周期的核心驱动力完全来自产品价格上涨与结构优化,而非出货量扩张,行业龙头盈利能力创历史新高且短期供给依然紧张 [2][12][15] 根据相关目录分别进行总结 海外市场行情回顾 * 截至3月20日当周,海外AI相关个股表现分化,超威半导体(AMD)周涨4.11%,戴尔(Dell)周涨3.99%,而英伟达(NVIDIA)周跌4.19%,特斯拉(Tesla)周跌5.94%,Snowflake周跌5.96% [6] AI模型与应用动态 * **应用活跃度**:海外Claude应用活跃度持续快速上升,ChatGPT小幅下降,Gemini保持稳定;国内豆包应用活跃度持续上升 [10] * **模型发布与进展**: * 小米发布MiMo-V2系列三款大模型,旗舰基座MiMo-V2-Pro总参数破1万亿(1T),激活420亿(42B)参数,支持100万Token上下文,其API定价为256K上下文内输入仅1美元/百万Tokens [11] * Mistral AI开源Mistral Small 4模型,总参数1190亿,采用128专家MoE架构,单Token激活60亿参数,支持256k上下文,其延迟优化模式可使时间减少40%,吞吐量模式RPS提升3倍 [11] * OpenAI发布GPT-5.4 mini和GPT-5.4 nano两款小模型,GPT-5.4 mini API定价为输入0.75美元/百万Token、输出4.50美元/百万Token;GPT-5.4 nano API定价为输入0.20美元/百万Token、输出1.25美元/百万Token [11] * 阿里通义千问Qwen3.5-Max-Preview在LMArena盲测中以1464分刷新纪录,位列中国大模型首位;Qwen3.5 Plus版采用3970亿总参数及170亿激活参数的MoE架构 [11] 重点公司分析(美光科技) * **财务表现**:美光2026财年第二季度(截至报告期)收入达239亿美元,同比增长196%,环比增长75%,创历史新高 [2][12] * DRAM业务收入为188亿美元,同比增长207%,环比增长74%,占总收入79%,价格增长约60% [2][12] * NAND业务收入为50亿美元,同比增长169%,环比增长82%,价格增长约70% [2][12] * 毛利率达到75%,环比提升18个百分点,并指引下一季度(Q3)进一步提升至81% [2][12] * 经营利润率达到69%,自由现金流为69亿美元 [2][12] * **周期驱动**:当季DRAM和NAND的Bit出货量仅为低至中个位数增长,表明本轮行业周期的核心驱动完全来自价格与结构优化,而非出货量扩张 [2][12] * **供需与展望**:尽管公司资本开支(CapEx)在2026年将超过250亿美元,但资金主要投向厂房建设,主要新增产能集中在2027–2028年释放,导致短期供给难以改善,HBM及DRAM供给依然紧张 [15] * **行业格局**:美光、三星、海力士等大厂的盈利能力和行业地位预计将继续提升,并在产能分配与客户结构上掌握主动权 [15]
通信行业周报:GTC、OFC小结:光的新起点
国盛证券· 2026-03-22 18:24
报告行业投资评级 - 增持(维持)[6] 报告的核心观点 - 2026年3月的GTC与OFC大会共同勾勒出光通信产业的新坐标与新起点,厘清了市场认知误区,实现了预期纠偏[1][23] - 需求端,2030年前景气无忧,Scale-up与Scale-out双轮驱动;技术端,光铜并进,CPO、NPO、XPO等多技术路线长期共存;产业端,头部企业强者恒强的格局正在加速形成[11][30] - 继续看好光通信、液冷、太空算力三个方向,按产业发展阶段其对应的风险偏好依次提升[11][18] 根据相关目录分别进行总结 1. 投资策略:GTC、OFC 小结:光的新起点 - **需求无忧:Scale up 与 Scale out 双轮驱动**:英伟达预期Blackwell及后续芯片采购额在2027年前后可达到一万亿美元,目前前五大云服务商贡献60%的采购额[2][24]。在Scale-out维度,Lumentum披露到2027年底产能基本售罄、2026财年底EML产能年增超50%、2030年AI数据中心对磷化铟需求年复合增长率达85%[2][24]。在Scale-up维度,随着带宽迈向1.6T乃至3.2T,光互联正从“跨机架”向“机架内”渗透,英伟达首款CPO Spectrum-X交换机的量产及2028年Feynman平台是重要节点[3][25] - **多技术共存:从“路线之争”到“多轨并行”**:“光铜并举”已成产业共识,英伟达明确采用铜缆Scale-up、光学Scale-up双轨并行的方案[4][26]。光互连技术路线走向多元,LPO/CPO/NPO/XPO等多封装技术并存发展[5][27]。CPO由主要芯片厂商主导,带宽密度最高、功耗最低;NPO作为性能与可维护性的平衡点,受CSP厂商青睐;XPO由Arista发起,弥补了可插拔光模块在密度和功耗方面的短板,保留了易维护优势[9][29] - **头部强者恒强格局再确认**:光模块头部企业从单一供应商向系统级解决方案延伸,在XPO、NPO、OCS三大技术路线上实现全面卡位[10][28]。例如,新易盛在OFC上集中展示了OCS、XPO、NPO三大产品线;中际旭创通过海外品牌TeraHop展示了从12.8T XPO到OCS的全系列产品[14][30] 2. 行情回顾:通信板块下跌,光通信表现相对最优 - 报告期内(2026年03月16日-03月22日),通信板块整体下跌,但表现强于上证综指[19]。从细分行业看,光通信指数上涨5.2%,云计算指数上涨0.3%,是仅有的两个上涨板块[20][22] - 个股方面,新易盛本周累计上涨21.1%,领涨通信板块;中际旭创本周累计上涨12.9%[18][21]。海外光通信龙头Lumentum、Ciena、Coherent本周分别累计上涨13.5%、9.3%、4.5%[18] 3. 其他行业要闻总结 - **Meta巨额算力投资**:Meta将在未来五年内向云服务商Nebius Group NV支付最高270亿美元以获取AI基础设施使用权[31]。市场预计科技巨头同行将在2026年投入约6500亿美元用于建设数据中心等基础设施[32] - **英伟达技术路线更新**:英伟达更新2026~2028路线图,首次确认与Feynman GPU配套的CPU代号为Rosa[34]。光学互联将同时用于Scale-Out和Scale-Up场景,支持CPO的NVLink 8是例证[34] - **英伟达发布Groq 3 LPX机架系统**:该系统集成256颗LP30芯片,片上SRAM合计128GB,对应40PB/s的带宽,使得Vera Rubin平台每兆瓦推理吞吐量提升高达35倍[35][36] - **OpenAI发布小模型**:推出GPT-5.4 mini与nano,专为高频、低延迟任务设计。GPT-5.4 mini性能逼近更大模型,运行速度比GPT-5 mini提升2倍以上[37][38] - **小米发布自研大模型**:推出MiMo-V2-Pro、Omni、TTS三款大模型。MiMo-V2-Pro拥有超过1万亿的总参数量,支持1M上下文,在权威AI测评榜单中位列全球第八[42][46]。雷军宣布未来三年在AI领域投入600亿元[46] - **阿里云AI增长强劲**:阿里云2026财年Q3收入为432.84亿元,同比增长36%,其中AI相关产品收入连续第十个季度实现三位数增长。集团目标未来五年云和AI商业化年收入突破1000亿美元[48] 4. 建议关注标的 - **算力产业链**:报告持续推荐光模块行业龙头中际旭创、新易盛等,同时建议关注天孚通信、太辰光、腾景科技、光库科技、光迅科技、德科立、联特科技、华工科技、源杰科技、剑桥科技、铭普光磁、东田微等光通信公司[11][12][17]。同时建议关注铜链接、算力设备、液冷、边缘算力、卫星通信、IDC、母线等环节的相关公司[12][17] - **数据要素**:建议关注运营商及数据可视化相关公司[12][17]
GPT-5.4养龙虾太贵?OpenAI自己出手砍到了一折
凤凰网财经· 2026-03-19 21:22
文章核心观点 - OpenAI发布GPT-5.4 mini与nano两款小型模型,标志着行业使用趋势正从单一旗舰大模型转向“大模型决策+小模型执行”的混合架构,核心驱动力在于降低复杂AI任务(如Agent工作流)的成本并提升效率,实现“薄利多销”的商业扩张[5][6][8][42] - 轻量化小模型因其极低的调用成本和快速的响应,已成为当前AI落地最具性价比和增长潜力的选择,行业数据(如模型调用榜、下载量)证实了这一趋势[14][15][17] - 小模型(尤其是mini)在多项关键能力测试中表现突出,接近旗舰模型,但在需要深度推理或精细界面操控的复杂任务上,旗舰大模型仍不可替代,二者互补是未来架构的精髓[22][23][31][38][39] OpenAI发布新模型的背景与动因 - **行业使用模式转变**:随着OpenClaw等Agent框架爆发,AI处理复杂任务时需拆解为多个微小步骤分步推进,若每一步都调用旗舰大模型,会导致延迟高、成本离谱[5] - **解决成本痛点**:处理复杂任务(如自动化处理客户邮件)可能需调用模型几十上百次,使用旗舰模型GPT-5.4的“饲料费(token)比虾本身还贵”[5] - **商业化增长需求**:ChatGPT全球每周活跃用户已突破9亿,但付费用户约5000万,付费转化率仅约5%,绝大多数免费用户是未来核心增长空间,其高频轻量需求(日常对话、文案润色等)更适合轻量化小模型[20][21] - **遵循行业趋势**:轻量化小模型在调用成本低、响应快方面具备优势,已成为最具性价比的选择;例如在OpenRouter月度最受欢迎LLM排行榜前十中,轻量化模型占据6席,前两名均为小模型[15] GPT-5.4 mini与nano的定价与成本优势 - **输入价格大幅降低**:GPT-5.4旗舰版为2.5美元/百万token,mini版为0.75美元/百万token,nano版为0.2美元/百万token,nano的输入成本仅为旗舰版的8%[11] - **输出价格显著下降**:GPT-5.4旗舰版输出价格为15美元/百万token,mini版约为4.5美元(旗舰版的1/3),nano版约为1.25美元(旗舰版的1/12)[12] - **上下文窗口支持**:mini和nano均支持400k tokens的上下文窗口[11] 轻量化模型的行业采用趋势 - **模型调用量榜单显示小模型主导**:OpenRouter月度排行榜中,第一名MiniMax M2.5调用量达8.29T tokens,月度涨幅高达476%;第二名Google Gemini 3 Flash Preview调用量达4.24T tokens,远超多数通用旗舰大模型[15] - **模型下载量印证小参数模型主流**:Hugging Face Hub统计显示,92.48%的下载量来自少于10亿参数的模型,86.33%为5亿参数以下,69.83%为2亿参数以下;而10亿以上参数量的模型下载占比仅为7.52%,不足轻量化模型的十分之一[17][18] GPT-5.4 mini与nano的能力表现 - **代码能力接近旗舰版**:在SWE-bench Pro测试中,GPT-5.4 mini准确率达54.4%,逼近满血版GPT-5.4的57.7%;GPT-5.4 nano准确率为52.4%,结合其极低成本,适合作为快速迭代的代码审查和辅助子agent[23][24] - **真实环境操作能力突出**:在OSWorld-Verified(真实电脑环境操作测试)中,GPT-5.4 mini准确率达72.1%,几乎追平满血旗舰版的75%,这意味着其在识别界面元素、执行自动化任务上精度高,适合Agent应用[31][34] - **nano在复杂界面任务上存在局限**:nano模型在OSWorld-Verified上得分仅为39.0%,甚至低于上一代GPT-5 mini的42.0%,表明其在需要精细操控电脑界面的复杂任务上能力不足[36][37] - **性价比极高**:图表分析显示,相比GPT-5.4在响应时长和成本坐标上延伸过远,nano和mini的折线整体居于坐标图左侧,标志着它们以牺牲少量终极逻辑上限,换来了极快的响应速度和极低的成本[26][28] 模型定位与未来架构方向 - **互补而非替代**:小模型的价值不在于取代大模型,而在于与大模型搭配使用;大模型像主帅负责顶层战略与调度,小模型像轻骑负责快速执行细分任务,把对的模型放在对的位置是子Agent架构的精髓[8][10][39] - **优化系统效率与成本**:当大模型不再需要亲自处理每一个琐碎步骤,整个系统的效率和成本结构会发生质变;nano和mini旨在分担那些“高射炮打蚊子”的活儿,而非抢夺旗舰版饭碗[40][41] - **商业策略是薄利多销**:OpenAI的策略是通过降低每个token的利润,推动用户更多使用小模型,从而将总收入提升上去;这正在填平过去以“便宜”为护城河的国产模型优势,使AI更快成为各行各业用得起、跑得快的新基础设施[42]
腾讯研究院AI速递 20260319
腾讯研究院· 2026-03-19 00:06
生成式AI - **OpenAI发布轻量级模型GPT-5.4 mini和nano,性价比显著提升**:GPT-5.4 mini在SWE-Bench Pro编码测试中得分达54.4%,仅比满血版低3.3%,在计算机使用OSWorld测试中达72.1%媲美旗舰版;其输入价格为每百万token 0.75美元,输出价格为4.5美元,仅为GPT-5.4价格的1/3;GPT-5.4 nano价格更低至输入每百万token 0.2美元,输出1.25美元,并已向ChatGPT免费用户开放 [1] - **OpenAI提出子智能体架构,优化资源使用**:公司提出“大模型决策+小模型执行”的子智能体架构,GPT-5.4 mini在Codex中仅消耗旗舰版配额的30%,尽管长上下文处理仍是短板,但分层调度思路正成为行业共识 [1] - **Anthropic推出跨设备Agent功能Dispatch**:通过Cowork新功能Dispatch,用户可通过手机扫码配对远程指挥Mac上的Claude操作电脑,实现从“盯着AI干”到“AI自己干”的跨设备Agent跃迁 [2] - **Dispatch功能实测表现与部署策略**:MacStories实测综合成功率约50%,能完成文件查找、Notion操作、邮件总结等任务,但打开应用、跨应用发送和Safari操作仍失败;该功能目前仅面向Max订阅用户,所有操作在本地Mac执行不经过云端,手机仅作为遥控器,与此前面向程序员的Claude Code Remote Control形成双线布局,覆盖GUI桌面和命令行两大场景 [2] - **MiniMax发布首个深度参与自我迭代的大模型M2.7**:M2.7是首个模型深度参与自身迭代的模型,能自主构建RL Harness、更新记忆、驱动强化学习并优化过程,在内部脚手架上自主迭代超100轮实现30%效果提升 [3] - **M2.7在多项专业测试中表现优异并支持多智能体协作**:模型在SWE-Pro编码测试中得分56.22%接近Opus水平,VIBE-Pro端到端项目交付测试得分55.6%,支持原生Agent Teams多智能体协作,40个复杂skills保持97%遵循率;在GDPval-AA专业办公ELO测试中得分1500为开源最高,可自主完成从研报分析、营收建模到PPT/Word/Excel全套交付,公司同步开源了互动娱乐框架OpenRoom [3] - **腾讯QClaw进行重大更新,降低使用门槛**:微信入口从客服号升级为小程序,支持直接接收电脑端文件,即将支持语音、图片等多模态交互;全新上线“灵感广场”功能,围绕办公提效、深度研究、娱乐游戏等场景预置常用任务和skills,用户无需编写指令即可一键运行 [4] - **QClaw基于OpenClaw封装并计划扩展功能**:该产品基于OpenClaw进行极简封装,主打下载即用的零门槛体验,后续将支持通过小程序创建定时任务、实时接收消息、远程切换底层模型等能力 [4] - **LiblibAI推出同时面向人与Agent的AI视频创作平台LibTV**:该平台同时为人类创作者提供无限画布专业工具和为Agent提供Skill接口,支持从剧本到成片的全流程闭环创作 [5][6] - **LibTV上线多项独家AI能力并实现高性价比**:一次性上线20多个独家AI能力,包括角色三视图、360度角度呈现、多机位9宫格、大师运镜、视频精准编辑等专业控制功能;已发布OpenClaw适配的Skill,Agent可一句话完成从剧本生成到视频剪辑全流程,平台集成可灵3.0等顶级模型,定价比竞品低最高达92% [6] 前沿科技 - **2025年图灵奖授予量子信息科学奠基人**:ACM将2025年图灵奖授予Charles Bennett和Gilles Brassard,表彰二人创建量子信息科学基础,这是图灵奖首次颁给与量子物理直接相关的研究 [7] - **获奖者贡献奠定了量子通信与互联网的基石**:两人于1984年提出的BB84量子密码协议,其安全性直接根植于量子力学定律而非数学假设;1993年又证明量子隐形传态可行,奠定了量子互联网的技术基石 [7] - **量子信息领域从边缘想法发展为战略领域**:二人合作始于1979年,历经四十余年将量子信息从边缘想法发展为拥有完整学科体系和国家战略的领域,BB84协议的变体已在全球量子通信网络中实际部署 [7] 报告观点 - **Anthropic内部Skill构建已形成体系化经验**:公司Claude Code团队内部已积累数百个活跃Skills,并将其归纳为9大类型,包括库和API参考、产品验证、数据获取分析、业务流程自动化等 [8] - **Skill构建的核心最佳实践**:核心经验包括将Skill视为文件夹而非单个Markdown文件,利用文件系统实现渐进式信息披露;内容应聚焦“常见坑”专区而非陈述显而易见的知识;给予方向而非剧本避免过度约束 [8] - **推荐实现Skill记忆与效果衡量的方法**:推荐使用日志文件或SQLite实现Skill记忆能力,通过PreToolUse Hook记录调用日志来衡量效果,并建议团队建立内部插件市场以实现Skills的发现与分发 [8] 行业动态与战略 - **月之暗面提出重构Transformer底层技术路线**:公司创始人杨植麟认为单纯堆算力不够,需对优化器、注意力机制和残差连接等底层基石进行重构,推出的Kimi Linear和Attention Residuals方案获得Karpathy和马斯克高度评价 [9] - **月之暗面将Kimi进化逻辑归纳为三个维度并实现高估值增长**:公司将Kimi进化逻辑归纳为Token效率、长上下文和智能体集群三个维度的共振,K2.5通过Orchestrator机制将复杂任务拆解给数十个子Agent并行处理;公司估值从去年底的43亿美元在不到半年内跳涨至180亿美元,正进行10亿美元融资,并计划继续开源MuonClip、Kimi Linear等底层创新 [9] - **英伟达CEO黄仁勋对AI影响持乐观态度并发布新产品**:黄仁勋表示AI不会让人失业,反而会让人更忙碌,因为30分钟完成过去一个月的工作意味着人们将持续处于执行关键任务中 [10] - **英伟达发布新一代产品并大幅上调收入预期**:公司发布Rubin架构的7颗芯片和5个机架等新品,将加速芯片收入预期提至1万亿美元;展望10年后,公司员工将从4.2万增至7.5万,并配备750万个全天候工作的智能体 [11] - **英伟达高度看好OpenClaw生态**:黄仁勋高度看好OpenClaw,称其为开源代理式AI标准,类比Linux生态将持续获得全球开发者贡献,英伟达已针对性推出NemoClaw软件栈 [11]
OpenAI和国产模型悄悄打起“价格战”
第一财经· 2026-03-18 18:27
OpenAI发布两款小模型GPT-5.4 mini与nano - 公司于北京时间2026年3月18日宣布推出两款小模型GPT-5.4 mini与GPT-5.4 nano,官方称其为内部“迄今为止能力最强的小模型”,旨在以更低延迟和更高性价比为智能体应用提供新选项[3] - 两款小模型能力接近旗舰模型GPT-5.4,但针对高频工作负载做了优化,标志着业界不再单纯追逐参数更大的旗舰模型,而是转向推出更多更快更省的小模型[3] 模型性能与定位 - **GPT-5.4 mini**:主打“速度与性能的平衡”,运行速度是前代的两倍以上,在多项评估中性能接近旗舰模型,针对编码、计算机使用、多模态理解和子智能体进行了优化[7] - **GPT-5.4 nano**:是最小、最便宜的GPT-5.4系列版本,性能略逊于mini,适合较轻的任务[7] - **性能数据**:GPT-5.4 mini在编程基准SWE-bench Pro上得分54.4%,接近GPT-5.4的57.7%;在计算机操控基准OSWorld-Verified上得分72.1%,接近GPT-5.4的75%;在通用智能测试GPQA Diamond中得分88.0%,与GPT-5.4的93.0%差距在5%左右[4][7][8] - **应用场景**:GPT-5.4 mini为延迟敏感场景打造,如需要即时响应的代码助手、快速完成辅助任务的子智能体、实时解析截图的计算机使用系统以及实时推理图像的多模态应用[8] 定价与成本 - **GPT-5.4 mini定价**:每百万token输入0.75美元,输出4.5美元,公司称其“仅消耗GPT-5.4配额的30%”,开发者能在Codex中以约三分之一的成本处理简单编程任务[9] - **GPT-5.4 nano定价**:每百万token输入0.2美元,输出1.25美元,价格约为mini的1/4[10] - **成本对比**:GPT-5.4 mini输出价格(4.5美元/百万token)是DeepSeek V3.2(0.42美元/百万token)的约10.7倍,是MiniMax M2.5(1.2美元/百万token)的3.75倍,也高于Kimi-K2.5(3美元/百万token)和谷歌Gemini 3 Flash(3美元/百万token)[16] 行业战略意义与智能体系统构建 - **战略意义**:此次发布是公司补齐智能体时代产品拼图的关键一步,意味着在AI进入真实业务后,模型分层会越来越重要,未来关注点是如何搭建模型系统,将不同成本和能力的任务分配给合适的模型[4][10] - **系统构建模式**:行业共识是,在智能体系统搭建中,会用一个较贵、表现较好的旗舰大模型作为“大脑”进行整体规划和复杂决策,然后将高频且简单的执行工作分配给性价比高的小模型[12] - **公司产品组合**:在Codex中,GPT-5.4等大模型负责处理规划、协作和最终判定,同时将具体的子任务并行分配给GPT-5.4 mini子智能体,例如搜索代码库、审阅大文件或处理辅助文档[13] 市场竞争与性价比争议 - **性价比对比**:在性价比方面,中国头部模型占据主导,例如DeepSeek V3.2、MiniMax-M2.5、Kimi-K2.5等模型在价格上显著低于GPT-5.4 mini,有海外开发者认为GPT-5.4 mini“发布即失败”[5][14][16] - **基准测试参考价值**:有观点认为基准测试的参考价值正在下降,真正的胜负需在实际任务中检验,开发者更看重模型在真实业务场景中的能力、稳定性与集成体验,而非单纯的价格或排名[5][17][18] - **开发者观点**:有开发者指出,价格便宜但可靠性降低的模型可能因重试和调试时间而付出更高代价,模型最重要的考量是与工具集成的效果、能否节省生产时间以及在极端情况下的稳定性[17][18]
OpenAI新模型Day0就被嫌弃!排名拉垮,不如一月底发布的国产模型
量子位· 2026-03-18 17:18
文章核心观点 - 文章对OpenAI新发布的GPT-5.4 mini和nano模型进行了全面评测,核心观点是:尽管新模型在特定任务上相比前代有性能提升和速度优势,但其在综合基准测试中的排名并不突出,且与竞争对手相比,在性价比和部分性能上存在劣势,市场初期反响平平 [1][2][43] GPT-5.4 mini/nano 模型的市场定位与性能表现 - 新模型主打**快速和经济**,专门针对**编程、计算机操作、多模态理解以及子代理(subagent)** 进行了优化 [8] - 相比前代GPT-5 mini,新版mini和nano在性能上有提升,同时**运行速度提升超过两倍** [9] - 在多个专业评测中,mini/nano模型与满血版GPT-5.4的差距已经不大,性能上也基本与谷歌、Anthropic的轻量模型持平 [10] - 例如,在SWE-Bench Pro(软件工程)测试中,GPT-5.4得分为57.7%,GPT-5.4 mini为54.4%,GPT-5.4 nano为52.4%,而GPT-5 mini为45.7% [10] - 在OSWorld-Verified(计算机使用)测试中,GPT-5.4为75.0%,GPT-5.4 mini为72.1% [10][25] - **GPT-5.4 nano**是系列中最小、最经济的版本,适合速度和成本敏感的任务,如分类、数据提取、排序及简单的辅助编程任务 [13] - 这两个新模型适合延迟直接影响产品体验的工作负载,例如**编码助手、子代理、屏幕截图解析、多模态应用** [14][15] 模型在综合基准测试中的排名与竞争对比 - 根据公开的大语言模型评测基准Vals,GPT-5.4 mini在**综合排名中仅位列第13名**,其准确率为57.88% ± 1.97,优于OpenAI半年前发布的GPT-5(排名第16,准确率56.10% ± 2.00)[2][3] - 在**拓扑证明**测试中,GPT-5.4 mini和nano的表现中规中矩,分别排行第九和第十,不如早前发布的Kimi、Qwen、DeepSeek等模型 [4] - 具体得分:GPT-5.4 mini为26分(第9名),GPT-5.4 nano为23分(第10名)[5] - 横向对比显示,竞争对手模型在性价比上可能更具优势 - 有网友指出,排行第12的Kimi 2.5比新出的5.4 mini**便宜一倍多,延迟还更低** [4] - 在AI Benchy Compare评测中,Gemini 3.1 Flash Lite的**综合得分(8.10)和成本效益**均显著优于GPT-5.4 mini和nano [18] - GPT-5.4 nano成本效益(Cost Per Result)为0.769,总成本(TOTAL COST)为$0.077;GPT-5.4 mini成本效益为3.610,总成本为$0.289;而Gemini 3.1 Flash Lite成本效益为0.413,总成本仅为$0.0507 [18] 模型定价策略与成本效益分析 - OpenAI官方表示,在输出tokens上,性能近似的mini版本比GPT-5.4**便宜三倍**,nano版本则**便宜十二倍** [6] - 然而,若与旧版GPT-5 mini对比,同为mini档的模型,**价格却上涨了大约三倍** [6] - **GPT-5.4 mini定价**:输入每百万tokens $0.75,输出每百万tokens $4.50 [7][16] - **GPT-5.4 nano定价**:输入每百万tokens $0.20,输出每百万tokens $1.25 [7][16] - **GPT-5 mini定价**:输入每百万tokens $0.25,输出每百万tokens $2.00 [7] - 在实际任务中,nano模型展现出显著的成本节省 - 在**分类任务**中,nano准确率达70%,成本比GPT-5.4**降低十二倍**;调用超过一万次时,GPT-5.4花费约20.30美元,GPT-5.4 nano仅花费1.64美元,**节省幅度约91.9%** [29][31] - 在**翻译任务**中,nano得分55分(GPT-5.4为63分),超万次调用后**节省幅度仍达到91.3%** [32] - 在**写作任务**中,mini版本成本比满血版**低约六成**;超1万次调用时,mini花费29.61美元,nano仅花费10.30美元 [34] - 在**图片描述任务**中,nano模型使用2751个输入tokens和112个输出tokens,**费用仅为0.069美分** [38] 模型在特定应用场景下的实际表现 - 在**编程和Agent任务**中,新模型能够低延迟完成代码修改、调试循环和库导航,快速迭代 [19][20] - 在**子代理场景**中,开发者可将较小任务并行委派给mini子代理(如搜索代码库、处理文档),随着小型模型速度提升,这种模式价值凸显 [23] - 在**计算机操作和多模态任务**中,mini能够快速解析复杂用户界面截图,高效完成操作任务 [24] - 在**创意任务**上,如生成SVG图,nano和mini与满血版GPT-5.4仍有差距,但完成基础创作任务完全可行 [39] - 有用户实际测试后给予高度评价,认为在一些真实场景任务中,新模型**更便宜、更快、也更好用** [28] 行业与市场反应 - 文章指出,在当前的“龙虾热”(行业热潮)中,**全球所有模型厂家都在涨价**,OpenAI也不例外 [7] - 不少网友对新模型持保留态度,认为对比基准是老版本,而非其他厂家的新模型,甚至直言换新“**还真没必要**” [5] - OpenAI总裁发布新模型的评论区,最火热的讨论并非关于模型能力或价格,而是刷屏要求“**让4o回来!**” [45][47]