多模态模型
搜索文档
国内外AI应用冰火两重天-模型和应用的矛盾加剧
2026-01-20 09:50
行业与公司 * **行业**:半导体行业、人工智能(AI)行业 [1] * **公司**:台积电、Google、Anthropic、OpenAI、阿里巴巴、字节跳动、腾讯、美图、Roblox、Reddit、Figma、Adobe、帕拉蒂亚、第四范式 [1][2][4][12][13][15][16][21] 核心观点与论据 半导体行业趋势 * **台积电大幅上调资本支出**:对未来几年资本支出(CAPEX)增长预期达到30%至40%,为近年来最大上调,指引显示资本支出将达到500多亿美元,表明对未来两三年需求有较高信心,消除了短期内资本开支见顶的预期 [1][4] * **行业处于大扩产周期**:存储器价格上涨以及台积电扩产预期推动了半导体设备板块表现良好 [5] * **存储需求侧重点迁移**:存储需求正从训练侧向推理侧迁移,应用侧需要大量存储来调用上下文信息,这不仅体现在DRAM和HBM需求上,也反映在英伟达Roving架构中专门设计用于提高SSD与芯片共享速度的新接口,随着Agent市场发展,SSD需求将同步增长 [1][7][8] AI模型与技术进步 * **多模态模型实现质变**:以Google的NanoBanana为代表的多模态模型在2025年实现质变,从生成工具转变为真正生产力工具,大幅增加下游场景潜在可能性,例如编程中的浏览器自动化、GUI Agent读屏能力以及视频生成中的动作模仿 [1][6] * **多模态视觉模型提升环境理解**:使AI系统从“瞎子”变成能够“看见”外部世界,极大地拓展了下游应用可能性,特别是在机器人领域增强对外部环境理解能力,在医疗场景提升病例及影像读取能力,并增强了Agent执行连续任务的能力 [6][9] * **强化学习在垂直领域应用优势**:通过后训练和强化学习,将人类解决问题的思维方式嵌入模型,改变其参数,使其能像人类一样思考,这种方法对垂直场景的数据要求非常高,需要大量专家级数据标注,已成为发布智能代理(Agent)的一种普遍方式 [1][10][11] * **编程领域取得显著进步**:通过强化学习和后训练,编程Agent在2025年取得显著进步,实现了循环编程、自我调试和纠错等功能,并进入商业化普及阶段 [11] * **基础模型梯队格局**:全球最高水平的第一梯队是Anthropic、OpenAI和Gemini,第二梯队包括Grok、Gemini GML智谱产品以及kimi等 [6] 市场动态与竞争格局 * **中美AI应用市场表现分化**:中国市场的AI应用股票和美国以软件为代表的应用股票走势完全不同,美国市场中除了Google之外的大多数互联网公司和软件公司在8月份之后表现相对疲软,而上游公司则不断修正预期 [3] * **国内外市场关注点差异**:国内市场更关注C端发展,阿里、字节和腾讯主导前端流量竞争;海外市场则更关注To B业务发展 [1][12] * **国内AI生态特点**:国内市场具有生态闭环特点,模型与生态融合阻力较小,已基本完成底层联通,现在更多是如何将模型融入产品设计的问题 [12] * **国内巨头竞争策略差异**: * 字节通过豆包手机采用操作系统加APP模式,将所有AI功能集中于操作系统 [13] * 阿里的通义千问基于超级APP形式存在,后台接入自有生态(如飞猪、闪购),实现高颗粒度解析,每个小程序页面都能无缝跳转并嵌入回答内容中 [13] * 腾讯将小程序变成Agent,将所有AI功能下放给应用场景和小程序,实现链路连接 [13] * **国外主要AI公司现状**:OpenAI和Anthropic已成为百亿级别的公司,OpenAI在面向C端市场发力较少,Anthropic引起市场震动较大,目前美股平台公司中只有Google拥有自主模型 [15] * **美股软件板块下跌原因**:与OPS 4.5的发布有关,当Chatbot向Agent形态迁移时,Anthropic积累的全自动化工作流方式产生了更大影响,其Cloud Code和Cloud Coworker等新产品通过循环编程实现AI自行改正bug,大幅降低了软件开发成本并提高效率,从而引发市场震动 [17] 产品与投资 * **Anthropic产品创新**:Cloud Code和Cloud Coworker等产品通过循环编程实现AI自行改正bug,仅需人工进行产品设计,大幅降低了软件开发成本,并且能够模拟人眼进行界面交互,解决了后台无法执行工作的难题 [2][17][18] * **Google产品影响**:Google发布的自动生成节点编辑工具直接与Figma竞争,并对传统工作流工具如N8N产生重大影响,其推出的下游工具类产品主要面向C端或非专业用户 [16] * **阿里巴巴通义千问影响**:发布后将所有流量打包到同一个入口,整合自有流量,提高了产品解析能力,与竞品差别缩小,统一了流量入口并促进二线产品对头部业务的冲击,预计迭代速度会很快,对股价波动稳定性有积极影响 [14] * **投资标的建议**: * **平台类公司**:如Google、腾讯、阿里和快手,由于自有流量生态及自研模型能力,是较为明确的投资标的 [21] * **终端场景公司**:如美图、Roblox、Reddit等,受AI冲击较小,可通过Agent强化自身产品 [21] * **To B应用公司**:如Figma、Adobe等需要通过业绩证明自己不会被淘汰,而像帕拉蒂亚、第四范式这种专注垂直模型开发的公司相对受影响较小 [21] * **关注重点**:今年应重点关注各行业Agent的发展速度及落地效果 [21] 其他重要内容 行业挑战与观察点 * **存储器价格短期快速上涨**:因资源因素短期内快速上涨 [1][5] * **电力设备可能成为长期制约**:电力设备供给与产能问题可能成为长期制约因素 [1][5] * **下游厂商接受度是关键**:下游厂商对于存储涨价接受程度将在三四月份新品发布时成为关键观察点 [1][5] * **Agent层面进展**:去年(2025年)基础模型迭代没有显著跳跃式升级,但Agent层面通过强化学习取得重要进展,强化学习将知识库沉淀到模型中,使其具备类似肌肉记忆般规划工作流的能力,这一发展偏向垂直行业 [19][20] * **Anthropic潜力被低估**:Anthropic公司在Agent生态中的潜力被低估,其积累的模型和应用方式可能带来更大的颠覆性影响 [16]
产业级 Agent 如何破局?百度吴健民:通用模型难“通吃”,垂直场景才是出路
AI前线· 2026-01-16 14:28
Agentic模型的发展现状与挑战 - 通用全能的Agentic模型现阶段不可能实现,业务场景、工具、环境差异过大,通用模型泛化性有限 [2] - 当前研发核心是让模型在各类垂直Agent场景中更好发挥作用,发展最快的场景是Coding Agent,包括通用编程及网页开发等特定领域 [4] - 具备在各类垂直Agent场景下达到工业级效果的通用模型尚未出现,原因在于场景设定、工具集合及运行环境差异极大 [5] - 针对具体应用场景定制模型更容易形成优势,特别是当场景能清晰定义Reward且评估能高效自动完成时,通过强化学习定制的Agentic模型可显著超过现有通用模型 [5] - Agentic模型训练的最大卡点不是模型,而是真实环境复刻,外部接口、数据库、登录依赖等真实链路的稳定访问技术门槛极高 [2] - 实现模型在特定场景持续迭代,必须依赖一套在该场景下运行顺畅、具备高效率和高吞吐能力的强化学习系统 [6] 强化学习的技术瓶颈与工业应用 - 开源强化学习框架如OpenRLHF、TRL、VeRL等覆盖了主要环节,但在工业级应用中仍不够成熟,涉及多轮工具调用的Agentic场景需深度定制 [7] - 工业级打磨方向主要在模型规模支持与Agent训练能力两方面,需能高效支撑参数量较大的SOTA模型,并处理多轮工具调用的复杂交互 [7] - 工业级Agentic模型研发对整体技术栈要求极高,包括沙盒环境、高性能高并发调度运行能力及稳定的高并发搜索API支持 [7] - 强化训练的本质是激发和稳定模型在特定场景中的既有能力,首要前提是基座模型本身在目标场景上具备优势,通常源于预训练阶段的数据分布 [8] - 强化学习过程中,生成尝试路径(Rollout)通常占据80%—90%的时间成本,能否以高吞吐方式高效完成Rollout是成败关键 [9] - 强化训练的样本规模已可扩展到百万级,系统性地提升了模型推理和复杂问题解决能力 [10] - 大规模多场景强化训练的前提是结果评估能准确自动完成且最好有稠密的评估奖励反馈,这在代码或数学等评估相对确定的场景中相对容易实现 [11] 多模态模型的技术进展与局限 - 视觉生成主流模型框架从Diffusion Model发展到Flow Matching,效果、稳定性碾压前代方案 [3] - 视觉理解模型仍以ViT Encoder嫁接语言模型的主流方案为主,模型能力迭代主要聚焦在垂直方向的数据合成 [3] - 当前未真正实现多模态理解和生成的统一建模,分开独立优化效果依旧优于融合建模 [3] - 多模态模型核心是在语言模型基础上引入视觉能力,主流方案是在语言模型训练到一定阶段后,引入视觉编码器并用图文对齐数据联合训练 [17] - 视觉信号信息密度较低,仅依赖视觉输入进行大规模训练难以达到语言模型效果,现有方案高度依赖图文对齐数据 [17] - 行业可用的图文对齐数据规模大致在3–5T token,量级上存在明显差距,限制了多模态模型的进一步scale [18] - 生成与理解的统一建模是重要方向,但现阶段融合后的效果还不如单独优化 [21][23] 模型架构与能力扩展的关键方向 - 稀疏MoE架构被广泛应用,其核心是解决Scaling Law问题,在增大模型总参数的同时,让训练和推理实际使用的参数规模保持次线性增长 [15] - 稀疏MoE的稀疏比已做到5%甚至更低,成为推动模型规模继续扩展的现实可行方案 [16] - 长上下文能力与Agent能力直接相关,上下文长度决定了模型能记忆和理解的信息规模 [13] - 业界探索通过Agent脚手架本身“放大记忆”的方案,借助工具使用来弥补上下文长度的限制 [13] - 长上下文能力的关键是模型能否准确理解高效处理,依赖高效的注意力机制设计和实现,可采用稀疏化策略或分块筛选方案 [14] - “世界模型”存在多种理解,一种是通过建模理解物理世界的运行规律,另一种是强调代码能力和工具调用能力 [26] 未来趋势与演进路径 - 2025年明显方向是Agentic Model,即模型具备稳定、准确的工具调用能力,代码场景已率先验证,明年该能力很可能扩展到更多应用场景 [28] - 面对复杂环境,可行方案是让模型在特定场景的Agent脚手架中学会熟练使用该场景所涉及的相对有限的工具集合 [29] - 通用人工智能的实现路径存在分歧,一种是将多种能力融合到单一模型中,另一种是强调模型学会使用工具,当前没有看到哪条路一定能走通 [25] - 在特定专业场景中不断提升模型和Agent能力,使其在局部任务上超过人类水平,在相当长一段时间内仍将是主流方向 [12]
异动盘点0115 | 元续科技复牌一度涨近14%,中国罕王重挫超8%;美股科技股普遍走低,部分加密货币概念股盘中走强
贝塔投资智库· 2026-01-15 12:29
港股市场动态 - 智谱(02513)逆市涨超5%,公司联合华为开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成全流程训练,是首个在国产芯片上完成全程训练的SOTA多模态模型 [1] - 元续科技(08637)复牌涨近14%,公司正考虑申请将其股份于新加坡交易所凯利板上市,以期实现联交所及新交所双重主要上市 [1] - 潍柴动力(02338)月内累涨逾两成,公司已完成行业领先级别的硫化物全固态电池实验室研究,正在进行产业化落地研发,同时数据中心用发电产品需求强劲、产销两旺,公司正在加速进行SOFC产能提升 [1] - 卧安机器人(06600)涨超8.27%,公司正式发布专为真实家庭场景打造的人形具身智能机器人onero [2] - 浙江世宝(01057)涨超4.8%,消息面上,《上海高级别自动驾驶引领区“模速智行”行动计划》印发,提出推动自动驾驶技术创新向产业竞争力加速转化 [2] - 中国罕王(03788)重挫逾8.24%,公司公布战略调整,将集中资源全力支持Mt Bundy金矿项目发展投产,同时维持中国铁矿及高纯铁业务稳定运营,并终止原拟进行的罕王黄金分拆上市计划 [2] - 锂电池概念股继续走高,洪桥集团(08137)涨4.17%,赣锋锂业(01772)涨5.16%,天齐锂业(09696)涨3.94%,宁德时代(03750)涨0.83%,消息面上,关于调整光伏等产品出口退税政策的公告决定自4月1日起至12月31日,将电池产品的增值税出口退税率由9%下调至6%,自2027年1月1日起,取消电池产品增值税出口退税 [3] - 维立志博-B(09887)涨近1%,公司自主研发的抗PD-L1/4-1BB双特异性抗体维利信®(LBL-024)获得美国FDA授予快速通道资格认定,用于治疗肺外神经内分泌癌 [3] - 金隅集团(02009)跌超6.9%,公司发布公告,预计2025年度实现归属于上市公司股东的净亏损为9-12亿元,预计扣除非经常性损益的净亏损为34.5-37.5亿元 [4] - 顺丰控股(06936)涨2.26%,极兔速递-W(01519)涨0.26%,两家公司联合发布公告,宣布达成一项战略性的相互持股协议,将互为对方增发新股,投资交易金额达83亿港元 [4] 美股市场动态 - 美股AI应用软件股纷纷下挫,Applovin(APP.US)跌7.61%,Shopify(SHOP.US)跌5.93%,Reddit(RDDT.US)跌2.53%,Palantir(PLTR.US)跌0.31%,Adobe(ADBE.US)跌1.77% [5] - 哔哩哔哩(BILI.US)涨6.18%,公司举行2026 AD TALK营销伙伴大会,副董事长兼COO李旎表示去年超过2.2亿用户在B站观看过消费类内容,强烈的消费需求带动了B站广告收入的持续增长 [5] - 再鼎医药(ZLAB.US)涨4.75%,公司在第44届摩根大通医疗健康大会上介绍2026年战略重点及临床开发进展,其中Zocilurtatug pelitecan(Zoci)有望成为其肿瘤领域首款全球上市产品,公司计划在2026年底前启动三项注册性关键研究 [5] - 科技股普遍走低,Meta(META.US)跌2.47%,亚马逊(AMZN.US)跌2.45%,特斯拉(TSLA.US)跌1.79%,英伟达(NVDA.US)跌1.44%,甲骨文(ORCL.US)跌4.29%,奈飞(NFLX.US)跌1.96%,微软(MSFT.US)跌2.4%,谷歌(GOOG.US,GOOGL.US)跌0.04%,苹果(AAPL.US)跌0.42% [5] - 部分加密货币概念股盘中走强,Strategy(MSTR.US)涨3.66%,Bitmine Immersion Technologies(BMNR.US)涨4.61%,Strive(ASST.US)涨6.19%,Coinbase(COIN.US)涨1.25%,消息面上,比特币价格触及两个月来的高点,一度上涨2.4%达到96,348美元,创下自11月16日以来的最高盘中水平,第二大代币以太坊也一度大涨逾5% [6] - 阿里巴巴(BABA.US)涨1.73%,消息面上,上线两个月,阿里千问C端月活跃用户数(MAU)已突破1亿,在学生和白领人群中增长迅猛,阿里千问将于1月15日10:00召开千问APP发布会 [6]
港股异动 | 智谱(02513)逆市涨超6% 日前宣布联合华为开源新一代图像生成模型
智通财经网· 2026-01-15 11:05
公司股价与市场表现 - 智谱股价逆市上涨6.39%,报229.8港元,成交额达3.35亿港元 [1] 公司技术与产品进展 - 智谱联合华为开源新一代图像生成模型GLM-Image [1] - 该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成全流程训练,是首个在国产芯片上完成全程训练的SOTA多模态模型 [1] - GLM-Image实现了图像生成与语言模型的联合,在API调用模式下,生成一张图片成本仅需0.1元 [1] 机构观点与行业趋势 - 东吴证券认为,作为纯大模型玩家,公司受益于云端规模效应和Agent/编程场景红利 [1] - 机构看好公司在本土大模型技术实力、开源生态布局以及政企本地化落地能力方面的优势 [1] - 公司有望受益于中国大模型行业从本地化部署向云端服务转型的长期趋势 [1]
港股异动丨智谱高开超7%,联合华为开源首个国产芯片训练的多模态SOTA模型
格隆汇· 2026-01-15 01:31
公司股价与市场反应 - 公司股票高开7.1%,报194.7港元 [1] 核心产品与技术发布 - 公司联合华为开源新一代图像生成模型GLM-Image [1] - 该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程 [1] - 该模型是首个在国产芯片上完成全程训练的SOTA多模态模型 [1] 技术架构与创新 - GLM-Image采用自主创新的“自回归+扩散解码器”混合架构 [1] - 该架构实现了图像生成与语言模型的联合 [1] - 此次发布是公司面向以Nano Banana Pro为代表的新一代“认知型生成”技术范式的一次重要探索 [1]
腾讯研究院AI速递 20260115
腾讯研究院· 2026-01-15 00:03
美国对华AI芯片出口管制政策调整 - 美国商务部工业和安全局修改出口管制条例,将高性能芯片限制放宽至TPP低于21000和DRAM带宽低于6500GB/s,为英伟达H200和AMD MI325X对华出口创造了法律空间 [1] - 新规要求申请人证明美国市场有足够供应且对单一国家出口不超过美国总销量的50%,预计到2026年,H200芯片可为英伟达贡献超过476亿美元营收,其中中国市场贡献近160亿美元 [1] - 美国众议院以369票通过《远程访问安全法案》,限制通过云平台远程接入获取先进算力以训练AI模型,此举可能冲击海外合建数据中心项目 [1] 全球AI视频生成技术竞争加剧 - 谷歌Veo 3.1实现重大升级,新增“素材生视频”功能,通过上传图片和文本指令即可生成高质量视频,角色一致性达到新高度,并支持原生9:16竖屏输出及1080p、4K超分辨率技术,直接适配移动端平台 [2] - 爱诗科技发布全球首个支持最高1080P分辨率实时生成的世界模型PixVerse R1,用户可通过文字或语音实时干预视频生成过程,将视频生成从“固定片段”转变为“无限可视化流” [4] - Vidu AI开放平台推出“一键生成MV”功能,用户提交音乐、参考图像与文本指令后,系统可全自动输出叙事连贯、音画同步的MV,其“多图参考生视频”技术允许上传至多7张参考图,在长达五分钟的视频中精确复刻人物特征与美学风格 [5][6] 中国AI模型与算力自主化进展 - 智谱AI联合华为开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas 800T A2设备和昇思MindSpore框架完成全流程训练,是首个在国产芯片上完成的SOTA多模态模型,在相关榜单获得开源第一,中文文字渲染成绩达0.979 [3] - GLM-Image模型API调用生成一张图片成本仅需0.1元,特别擅长海报、PPT、科普图等知识密集型场景及汉字生成任务 [3] 具身智能与机器人技术突破 - 1X公司为其家用人形机器人NEO发布全新“大脑”1X World Model,该模型通过观看海量网络视频和人类第一视角实操录像来理解物理世界,基于140亿参数生成式视频模型,采用多阶段训练策略 [7] - 该模型的逆动力学模型在400小时未经过滤的机器人数据上训练,能从生成的视频中提取对应动作轨迹,官方推文浏览量已突破500万 [7] AI在游戏与医疗领域的应用与影响 - 《英雄联盟》韩服出现神秘玩家,在51小时内完成56局对局,取得52胜4败、综合胜率92%的战绩,登顶时胜率高达95%,该账号使用了22名不同英雄,对线胜率86%断层领先,引发关于其是否为AI的广泛猜测 [8] - 谷歌发布MedGemma 1.5 4B版本,首次支持CT和MRI三维体数据以及全切片数字病理图像等高维医学影像分析,将MRI疾病发现分类准确率从51%提升至65%,解剖结构定位精度从3%跃升至38% [9] - 同步推出的MedASR语音识别模型,在胸部X光报告口述场景中词错误率仅5.2%,比通用模型Whisper低82% [9] AI对软件工程行业的结构性冲击 - 谷歌Cloud AI总监提出AI时代软件工程面临的五个关键问题,涉及初级工程师需求、基本功价值、职业角色转变、专才风险及大学计算机专业必要性 [10] - 哈佛研究显示,公司引入生成式AI后,初级开发者岗位数量在六个季度内下降约9%-10%,而高级工程师就业几乎没有变化,大型科技公司招聘应届生数量减少50% [11] - 建议初级工程师构建AI集成作品集并手动编写关键算法,资深工程师需注重架构审查以适应“代理式”工程环境,通才将比专才更具竞争力 [11]
智谱高开超7%,联合华为开源首个国产芯片训练的多模态SOTA模型
格隆汇· 2026-01-14 10:24
公司股价与市场反应 - 智谱(2513.HK)股价于1月14日高开7.1%,报194.7港元 [1] 核心产品与技术发布 - 公司联合华为开源新一代图像生成模型GLM-Image [1] - 该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程 [1] - GLM-Image是首个在国产芯片上完成全程训练的SOTA多模态模型 [1] - 模型采用自主创新的“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的联合 [1] - 此次发布是公司面向以Nano Banana Pro为代表的新一代“认知型生成”技术范式的一次重要探索 [1]
港股AI应用板块回暖 智谱高开逾7% 联合华为开源首个国产芯片训练的多模态SOTA模型
新浪财经· 2026-01-14 09:31
港股AI应用板块市场表现 - 港股AI应用板块整体呈现回暖态势,多只相关股票显著上涨 [1][5] - 知行科技(01274)股价上涨7.60%,最新价为7.080港元 [2][6] - 智谱(02513)股价上涨7.10%,最新价为194.700港元 [2][6] - MINIMAX-WP(00100)股价上涨2.74%,最新价为375.000港元 [2][6] - 阿里巴巴-W(09988)股价上涨2.44%,最新价为163.800港元 [2][6] - 快手-W(01024)股价上涨1.98%,最新价为80.000港元 [2][6] - 微鼎集团(02013)股价上涨1.72%,最新价为2.370港元 [2][6] - 其他上涨股票包括五一视界(06651)涨2.08%、速腾聚创(02498)涨2.03%、微创机器人-B(02252)涨1.68% [2][6] 智谱公司技术进展 - 智谱(02513)联合华为开源了新一代图像生成模型GLM-Image [2][6] - 该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架,完成了从数据到训练的全流程 [2][6] - 该模型是首个在国产芯片上完成全程训练的SOTA(当前最优)多模态模型 [2][6]
智谱(02513)联合华为开源首个国产芯片训练的多模态SOTA模型
智通财经网· 2026-01-14 08:33
公司动态 - 智谱联合华为开源新一代图像生成模型GLM-Image [1] - 该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程 [1] - 该模型是首个在国产芯片上完成全程训练的SOTA多模态模型 [1] 技术进展 - GLM-Image采用自主创新的“自回归+扩散解码器”混合架构 [1] - 该架构实现了图像生成与语言模型的联合 [1] - 该模型是智谱面向以Nano Banana Pro为代表的新一代“认知型生成”技术范式的一次重要探索 [1]
智谱联合华为开源首个国产芯片训练的多模态SOTA模型
格隆汇· 2026-01-14 08:31
公司技术发布 - 智谱联合华为开源新一代图像生成模型GLM-Image [1] - 该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程 [1] - GLM-Image是首个在国产芯片上完成全程训练的SOTA多模态模型 [1] 模型技术架构 - GLM-Image采用自主创新的「自回归+扩散解码器」混合架构 [1] - 该架构实现了图像生成与语言模型的联合 [1] - 此次发布是智谱面向以Nano Banana Pro为代表的新一代「认知型生成」技术范式的重要探索 [1]