多模态模型
搜索文档
阿里巴巴-W(09988.HK):模型能力持续迭代 钉钉发布工作智能操作系统AGENT OS
格隆汇· 2025-12-28 04:05
阿里巴巴多模态AI模型能力迭代 - 公司发布新一代视频生成模型“万相2.6”,单次视频时长达到国内最高的15秒,并新增角色扮演和分镜控制功能,可一键完成多人合拍及多镜头切换,满足专业影视级需求 [1] - 公司推出全新图像生成模型“Qwen-Image-Layered”,采用自研创新架构,可将图片拆解为多个可独立操作的图层,支持缩放、移动和重新着色等高保真编辑 [1] - 公司在多模态模型领域已覆盖文生图、图像编辑、文生视频、图生视频、动作生成、角色扮演及通用视频编辑等多种视觉创作能力,有望广泛应用于AI漫剧、广告设计和短视频创作等领域 [2] 钉钉AI生态与操作系统布局 - 钉钉召开AI钉钉1.1新品发布会暨生态大会,发布包括Agent OS、ONE、DingTalk Real等在内的20多个AI产品 [1] - 发布硬件Agent设备“DingTalk Real”,可在权限可控范围内打通内网系统与数据访问,支持调用外网服务,并具备实时数据获取能力以支撑Agent判断与执行 [2] - 发布系统级平台“Agent OS”,旨在统一AI Agent的构建、部署与交互标准,同时发布“悟空”可通过对话自动执行复杂操作流程,调用钉钉内建AI能力并支持多模型融合与任务自主规划 [2] - 推出垂直场景Agent如AI印、AI招聘、AI差旅等,旨在打印、招聘等细分领域帮助企业提升效率 [2] - 钉钉正在构建软硬一体化的Agent运行环境,有望将自身打造为AI时代工作场景的操作系统,为企业用户提供全新的AI工作方式 [2] 公司财务预测与AI业务布局 - 预计公司FY2026-FY2028实现营收1.03万亿元、1.12万亿元、1.24万亿元,实现经调整归母净利润1160亿元、1480亿元、1793亿元,对应PE分别为21.7倍、17.0倍、14.0倍 [3] - 公司AI大模型多模态能力持续提升,to B云业务维持较高收入增速,to C应用千问快速起量,实现了硬件、模型、云业务、应用的AI全面布局 [3]
计算机行业双周报(2025、12、12-2025、12、25):智谱、MiniMax角逐大模型第一股,AI医疗赛道再迎新突破-20251226
东莞证券· 2025-12-26 18:37
报告行业投资评级 - 行业投资评级为“超配”(维持)[1] 报告核心观点 - 核心观点认为,随着智谱、MiniMax等AI大模型公司冲刺港股上市,以及蚂蚁集团等科技巨头在AI医疗等垂类应用取得突破,国内AI产业正加速从技术研发向商业价值兑现迈进,AI应用场景的拓展将维持对算力的高需求,建议关注AI应用及AI算力相关领域的投资机遇[3][26] 计算机行业行情回顾 - 近2周(2025/12/12-2025/12/25)申万计算机板块累计上涨**2.09%**,跑赢沪深300指数**0.11**个百分点,在31个申万一级行业中排名第**19**名[3][10] - 12月申万计算机板块累计下跌**1.78%**,跑输沪深300指数**4.34**个百分点[3][10] - 年初至今申万计算机板块累计上涨**16.43%**,跑输沪深300指数**1.55**个百分点[3][10] - 近两周板块内涨幅前三的个股为星环科技(**44.35%**)、万集科技(**32.95%**)和经纬恒润(**26.52%**)[14] - 近两周板块内跌幅前三的个股为*ST立方(**-28.57%**)、品茗科技(**-19.61%**)和初灵信息(**-16.81%**)[14] 板块估值情况 - 截至2025年12月25日,SW计算机板块PE TTM(剔除负值)为**54.02**倍,处于近5年**87.45%**分位、近10年**74.19%**分位[3][18] 重点产业新闻 - **AI大模型公司冲刺上市**:智谱、MiniMax(稀宇科技)两家公司陆续通过港交所聆讯,预计2026年初登陆资本市场,争夺“大模型第一股”[3][19] - **AI医疗应用突破**:蚂蚁集团将旗下AI健康应用AQ升级为“蚂蚁阿福”,截至12月15日,其月活用户已超**1500万**[3][19] - **自动驾驶商业化进展**:我国首批L3级有条件自动驾驶车型获得准入许可,将在北京、重庆指定区域开展上路试点[19] - **AI芯片领域动态**:英伟达与AI芯片初创公司Groq签署非独家推理技术授权协议,并从Groq团队聘请了工程人才[19] - **AI生态建设**:火山引擎发布AI-Solution全栈解决方案及2026生态战略,开放全栈AI能力[19] - **AI模型更新**:阿里通义推出Qwen3-TTS音色创造与音色克隆两款新模型[21] 公司公告摘要 - **赛意信息**:牵头申报的基于模型仿真的智能排程软件项目获国家科技重大专项立项,标志着其成为国内智能制造系统核心技术攻关的骨干力量[22] - **安博通**:拟启动发行H股并在香港联交所上市的前期筹备工作[22] - **淳中科技**:拟以自有资金**3000万元**受让北京星河动力航天科技股份有限公司**92.758万**股股份(占总股本**0.2143%**)[23] - **神思电子**:中标济南数字低空飞行管理服务平台信息化建设项目,合计金额约**2.93亿元**,占公司2024年度营业收入的**32.11%**;另中标济南易出行项目,金额**1.98亿元**,占2024年营收的**21.69%**[23] - **科大讯飞**:拟实施第二期员工持股计划,参与对象不超过**2000人**,规模不超过**839.41万**股(占总股本**0.36%**),受让价格为**24.59元/股**,筹集资金上限**2.06亿元**[24][25] - **南网数字**:全资子公司吸收合并昆明能讯科技有限责任公司,以优化管理架构[25] - **概伦电子**:拟通过发行股份及支付现金方式购买成都锐成芯微科技股份有限公司**100%**股权及纳能微电子(成都)股份有限公司**45.64%**股权,交易构成重大资产重组,已获上交所受理[25] 建议关注标的及理由 - **广电运通 (002152.SZ)**:金融科技主业稳健增长,同时在数据要素、算力等领域布局深化[27] - **神州数码 (000034.SZ)**:作为“鲲鹏+昇腾”产业链核心伙伴,有望深度受益国产算力需求上升[27] - **浪潮信息 (000977.SZ)**:持续聚焦智慧计算,人工智能服务器连续3年全球第一,行业地位稳固[27] - **税友股份 (603171.SH)**:国内领先的财税信息化综合服务提供商,有望受益于新一轮财税改革[27][31] - **软通动力 (301236.SZ)**:华为核心合作伙伴,积极参与鸿蒙生态建设,已帮助**1100余款**产品接入鸿蒙智联生态[31] - **赛意信息 (300687.SZ)**:积极布局AI Agent领域,推出聚焦订单、计划、采购、物流的智能体解决方案[31]
信仰与突围:2026人工智能趋势前瞻
36氪· 2025-12-22 17:32
文章核心观点 - 人工智能行业在ChatGPT发布三周年之际,竞争白热化,模型性能差距缩小,发展面临天花板质疑,但产业对AGI的到来仍充满信仰与探索 [1] - 行业展望2026年,将面临智能瓶颈与投资回报焦虑,同时也在规模法则、多模态、研究探索、物理AI仿真数据、AI for Science、模型应用一体化、个性化软件、行业落地ROI验证、AI眼镜及AI安全等多个方向寻求突围 [1] Scaling Law与AGI进化路径 - 行业主流信仰通过增加算力、数据、参数的Scaling Law可驱动智能持续增长直至AGI,但近期模型智能升级放缓及数据枯竭论引发质疑 [2] - 反对观点认为大模型仅是拟合语言相关性,而非真正理解世界,智能需包含抽象、因果推理等,且规模法则正接近极限,未来突破需更好的学习方式而非简单扩展规模 [2] - 在底层架构与训练方法无颠覆性变革背景下,Scaling Law仍是目前最可靠、实用的增长路径,因其能力提升可预测、产业投入可评估、人才与工程体系可延续迭代 [3] - 近期Gemini 3的表现与DeepSeek V3.2研究印证了规模法则现阶段依然有效 [3] - 美国AI新基建规划大型数据中心总装机容量超45吉瓦(GW),预计吸引超2.5万亿美元投资,黄仁勋提出在预训练、后训练强化学习及推理过程中均存在规模法则,支撑算力持续增长 [3] - 数据是当前大模型进化最迫切难题,高质量可用数据稀缺,行业正探索通过合成数据、推理过程数据、强化学习数据、多模态数据等构建可工程化、可规模化的数据生成体系 [4] - 未来将是New Scaling Law时代,不仅堆砌算力,更注重数量与质量扩展,结合算力资源充沛,有望通过算法与架构优化带来底层突破,AGI可能来自规模与结构性创新(如世界模型、具身智能等)的结合 [4] 多模态技术的突破与意义 - 谷歌Gemini、OpenAI Sora等多模态模型实现了对内容的深度理解与生成,迎来了多模态的ChatGPT时刻 [5] - 多模态技术从感知(如视觉)方向探索智能进化,类比生物进化中视觉的出现触发了认知能力的阶段性跃迁,有望推动AI智能出现非线性跃升 [5][7] - 大语言模型仅通过文本学习经过人类加工的“二手世界”,多模态模型通过图像、视频等对世界状态的直接投射,包含空间、时间及物理约束信息,为形成更稳健的世界模型提供可能 [9] - 多模态为人工智能打开了“感知-决策-行动”闭环的可能性,与工具使用、机器人控制结合,可通过环境反馈持续优化,实现智能跃升 [10] 研究探索与创新方向 - 研究驱动是大模型行业核心范式,以小团队多方向并进的赛马机制有效,预计2026年在底层架构、训练范式、评测方法、长期记忆、Agent等领域有望诞生更多突破 [11] - 全球涌现一批非共识的技术实验室:伊利亚的SSI聚焦安全超智能,融资30亿美金 [12];Mira的Thinking Machines Lab推出产品Tinker帮助微调模型 [12];李飞飞的World Labs专注空间智能 [12];杨立昆的AMI目标构建理解物理世界的系统 [12];欧洲的H Company研发能解决复杂现实问题的超级Agent [12] - 底层架构与训练范式出现创新研究:日本的Sakana AI站在Scaling Law对立面,探索演化式模型与群体智能协作以降低算力依赖 [13];Liquid AI开发可连续演化的液体神经网络架构 [14];谷歌提出嵌套学习(Nested Learning)概念,设计快慢系统协同解决灾难性遗忘问题 [14] - 评测牵引成为重要研发范式,行业正探索应对静态刷榜数据污染等挑战的新方法,包括构建面向Agent与长期任务的跨步、跨工具评测体系(如SWE-bench、AgentBench),以及基于游戏、模拟世界的动态交互式仿真环境评测 [15] 仿真数据在物理AI中的应用 - 机器人物理世界数据采集成本高(真机采集一条数据成本1-10美元)、速度慢,仿真生成数据边际成本趋近于零且可并行,在早中期研发中将成为主流,Sim-to-Real鸿沟正被生成式AI填平 [17] - 仿真数据在规模覆盖、可控可复现、跨本体迁移方面具有优势,能低成本覆盖长尾场景,支持多机器人多任务训练统一对齐 [18] - 产学研界已有实践:上海人工智能实验室的合成数据集InternData-A1包含超63万条轨迹、7433小时数据,覆盖4种具身形态、70项任务,基于其预训练的模型在仿真与真实任务上表现与官方模型相当 [18];银河通用发布灵巧手合成数据集DexonomySi,包含超950万条抓取姿态,覆盖超1万个物体,并基于此开发了具身大模型GroceryVila实现机器人双手自主取物 [18];谷歌的Genie 3为机器人训练提供无限可能的模拟环境 [18] - 仿真存在建模误差(如接触、材料、传感器噪声)及难以覆盖真实世界无穷意外组合的局限,尤其在软体物体、长周期可靠性、高风险人机共处等场景 [19][20] - 在物理AI早中期研发中,仿真预计承担90%以上的数据与验证工作,真机数据用于物理锚定与校准,仿真正成为物理AI的数据基础设施 [21] AI for Science (AI4S)的进展 - AI4S最具象征意义的成果是AlphaFold,但普遍质疑其离产业应用仍远,未能根本改变药物研发等领域的周期与成本 [22] - 2026年可能成为转折点,AI4S正从模型驱动的学术突破转向系统工程化的科研生产力 [22] - 核心障碍在于验证太贵太慢且难复制,当前积极变化是AI正被直接嵌入实验系统:谷歌DeepMind计划2026年在英国建立基于AI的自动化科研实验室,形成假设生成、机器人执行、数据回流的闭环,首次让AI4S从建议者变成执行者 [23] - 国家层面推动:美国通过《启动创世纪任务》行政令,将AI4S上升为国家战略,由能源部牵头建立全国性AI科学平台,整合联邦科研数据、超算资源和AI模型,聚焦先进制造、生物技术等关键领域,有望解决高质量科学数据匮乏的痛点 [25] - 2026年可能在某些领域出现研发周期数量级压缩,自动化实验与AI workflow成为头部机构标准配置,科研组织开始围绕AI agents重构分工 [26] 模型应用一体化与网络效应 - 大模型目前能力虽强但平台效应弱,未形成类似移动互联网的网络效应,ChatGPT周活接近10亿,但模型不会因用户增多自动变强,用户间连接弱 [27] - “裸模型”阶段因交互是一次性、私有的,难以直接回流训练与复用,且创造的价值源于对个体能力提升而非用户间关系密度,因此AI更多是生产力工具而非平台 [28] - 模型与应用一体化是破局点,当模型拥有稳定身份、长期记忆并持续参与用户工作流时,AI才具备成为平台的能力 [28] - 一个方向是模型接入更多应用(+AI),如GPT推出智能购物、群聊功能,Sora2推出Cameo个人数字形象功能以建立社交关系链 [29] - 更具颠覆性的方向是构建智联网新形态(AI+),即个人、团队、组织拥有自己的Agent并彼此协作,形成AI原生的网络效应 [31] - 未来Agent网络效应可能出现多种形式:交易型网络(形成服务型Agent与用户Agent的双边市场)[32];知识型网络(用户打磨的隐性技能库使模型越用越聪明)[32];工作流型网络(复杂任务流程被模块化、标准化并广泛复用)[32];社交型网络(AI成为组织内的超级连接器促进协作)[32] - 模型应用一体化的真正意义在于构建以模型为认知核心、应用为关系容器、Agent为基本节点的智能网络 [33] 个性化软件与AI编程 - AI Coding逼近普适生产力,软件正从工业化产品变为高度个性化、情境化、即时化的工具,进入软件3.0时代 [35] - Anthropic首席执行官预测未来3-6个月AI将编写90%的代码,12个月内几乎所有代码可能由AI编写 [35] - 美团内部已有52%的代码由AI生成,90%的工程师频繁使用AI工具,部分团队依赖AI完成90%以上代码编写 [35] - 腾讯月均新增代码3.25亿行,超90%工程师使用AI编程助手CodeBuddy,50%的新增代码由AI辅助生成 [35] - 软件生产核心瓶颈从编码能力转向问题定义能力,自然语言等成为主要编程接口,出现“vibe coder”称谓 [38] - 编程供给充裕将激活需求侧长尾市场,软件可千人千面,实现从人适应软件到软件适应人的范式转移,满足曾因市场规模小而被忽略的个性化需求 [39] - 部分解决通用问题的微软件将被分享复用,形成小规模生态(如Hugging Face Spaces上的小应用、Chrome插件)[39] - 软件平权时代来临,编写软件像写文章一样简单,核心竞争力转向共情、问题定义与想象力 [40] 行业落地与ROI验证 - AI行业落地从早期概念验证(PoC)进入核心业务流程,企业关注点从技术先进性转向可衡量的业务价值,ROI与性价比成为第一性问题 [41] - 麦肯锡报告显示,至少在一个职能中常态化使用AI的企业比例从78%升至88%,但多数仍处探索或试点阶段,企业层面规模化部署稀少,AI高绩效企业仅6% [41] - OpenAI企业调研显示,ChatGPT Enterprise周消息量增约8倍,员工人均消息量提升30%,组织平均推理token消耗增长约320倍,75%员工认为AI提升工作速度或质量,平均每日节省40-60分钟,重度用户每周节省超10小时 [42] - 早期AI应用多以Copilot形态承担边缘任务,对组织整体效率影响有限,当前积极变化是AI开始深入行业流程中后段 [43] - 下一步可验证收益将来自生产效率、客户响应、营销指标、研发生产力提升,未来深度收益将来自流程再造、智能体协同、供应链智能化等领域 [44] - 工作模式向“一个人+N个智能体”转变,企业管理逻辑将重构为以结果交付、质量稳定性和风险控制为中心的新范式 [44] AI眼镜的发展前景 - AI眼镜销量达1000万台是成为大众消费品的临界点,预测Meta Ray-Ban等产品2026年单品牌有望冲击此目标,巴克莱研究预测2035年销量将达6000万副 [45] - 雷朋制造商依视路将提前实施年产能1000万件可穿戴设备计划以满足需求 [45] - 硬件做减法是成功关键,Meta放弃高成本显示模组,将重量控制在50克以内,结合大模型多模态能力,首先成为合格穿戴与拍照设备,降低制造难度与用户门槛 [47] - AI眼镜将改变软件生态,操作逻辑从以应用为中心转向以意图为中心,自然语言交互主导,技能商店(Skill)可能取代应用商店 [48] - 眼镜摄像头产生的第一视角海量数据可为机器人训练提供数据,并可能催生基于视觉关注度的全新推荐与广告模式 [48] - 个人隐私、数据脱敏及相关法律伦理规范在AI眼镜领域尤为重要 [48] AI安全与治理 - AI能力提升与AGI逼近使安全关注度提升,调研显示66%受访者经常使用AI,但超半数(58%)认为其不可信赖,公众信任度呈下降趋势 [50][51] - 安全算力成为重点,预计超10%的算力将投入安全领域(涵盖安全评估、对齐实验、红队测试等)[54] - OpenAI曾承诺将20%算力用于超级智能对齐研究但未兑现,伊利亚成立的SSI公司专注超人工智能安全,融资30亿美金,估值320亿美元 [54] - 美欧法规提案将高风险模型的系统测试、评估、监控列为强制义务,安全算力将形成刚性成本,且随着模型能力增长,安全评估对算力需求指数级放大 [54] - AI治理委员会成为趋势,越来越多企业建立深度嵌入研发全流程的安全伦理机构 [55] - 例如:Google DeepMind有Responsibility & Safety团队参与全过程 [55];微软有Aether委员会其结论纳入工程必选流程 [55];Anthropic设立长期利益信托(LTBT)机制并推动宪法AI(Constitutional AI)将安全嵌入训练 [55] - AI安全与负责任正演变为与算力、算法、数据同等重要的基础性要素,缺乏可信安全机制的模型将难以进入关键行业与主流市场 [56]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
具身智能之心· 2025-12-22 09:22
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座 [1][7][60] 物理世界与虚拟世界的本质差异 - 物理世界充满连续性、随机性、不完全可观测性以及大量与力、接触和时序强相关的过程,而虚拟世界(语言/多模态模型所面对)是高度可复现、低随机性的符号世界 [2][10] - 物理事件具有高度随机性,例如用相同的角度和力度推一个杯子,十次可能停在十个不同的地方,这在虚拟世界中几乎不会发生 [10][11][12] - 现有的以语言和视觉为中心的模型架构、训练方法和数据能力,难以精确刻画物理世界的高度随机性现象 [12][16] 现有技术范式的局限性与新模型必要性 - 沿用以语言和视觉为中心的建模范式存在结构性错位,语言和视觉并非描述动作和物理过程的理想工具 [3][16] - 语言只能描述长序列(如10秒以上)事件,难以描述精细操作(如炒菜)[16] - 图像精度优于语言,但仍面临工具使用、遮挡等问题,大量涉及力和接触的过程无法靠语言和图像描述 [18][19] - 因此需要“另起炉灶”,重新训练一个专门供物理世界使用的基础模型,而非仅在现有模型上做微调 [20] 模型架构与学习范式的转变 - 感知和决策层面需要转变思路,人类在物理世界中的学习方式(如Active Perception, Interactive Perception)与虚拟世界中的静态统计学习范式有根本不同 [24][27][28][29] - 物理世界学习通过带有时序、因果和空间信息的连续观察流,以及与环境的主动互动实现,这应是多模态模型未来的重要发展方向 [27][28][29] - 坚持静态、固定的数据学习方式,无法实现人类般高效、节省数据和算力的学习效果 [30] 具身智能基础模型的潜力与影响 - 以十年为周期看,具身智能基础模型有可能反过来吞噬现有多模态模型的生存空间 [12][31] - 构建统一的基础模型应是完全端到端的,这已成为行业共识 [12][32] - 需要设计专门考虑端侧部署和推理的模型架构,以解决推理速度等权衡问题,而非沿用旧架构 [33] - 具身智能模型应是一个集成了语言能力、世界模型能力、视频生成能力和三维重现能力的统一模型 [39][40] 数据与Scaling Law - 数据的Scaling Law在机器人领域被认为是最困难的事情之一 [46] - 现实世界的数据应是最主要的来源,训练应分阶段(预训练、后训练),并发现了第三个Scaling Law:在推理时通过思维链等方式拓展模型能力 [48] - 物理世界适合持续学习范式,即端侧实时更新数据,进行体验式学习,这本质优于集中式批次训练,但带来体系架构、系统和硬件上的新挑战 [51][52] 软硬一体与AI定义硬件 - 需要让AI定义硬件,而非先制造完美硬件再适配AI模型 [53] - 公司坚持软硬一体同步发展,已实现两款全自研轮式底盘人形机器人及高自由度灵巧手,并开始市场销售 [54] - 实现了跨本体泛化,例如从夹爪模型迁移到20个自由度(15个主动自由度)的灵巧手,仅需非常少量样本,表明模型已学会基础物理规律和动作模式 [36] - 在高度复杂任务上,实现了超过人类遥操作训练速度的1倍速实时控制,并维持高准确率 [33][34] - 公司自研的WALL-OSS是领先的开源物理世界基础模型,具备VLA模型控制机器人、良好泛化、智能跟随及构建长序列思维链解决复杂问题的能力 [41][44] 具身智能的宏观重要性 - 普遍观点低估了具身智能的发展和影响,认为语言、数学、代码等领域比具身智能有本质重要性,但此观点存在隐藏假设 [54] - 创造超越人类的AGI/ASI所需的一切资源(算力、芯片、电力、能源、数据)都来自物理世界 [54] - 当前物理世界未出现指数级增长的核心卡点是“人手的劳动”,几乎所有商品和服务都无法脱离这一步 [57][58] - 若具身智能实现,万事万物可遵循类似芯片摩尔定律的发展规律,从而带来更多资源以创造更聪明的ASI,走向真正的通用智能未来 [59]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
量子位· 2025-12-21 13:45
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座,而非仅仅是现有模型的一个应用 [1][6][7][61] 对具身智能模型独立性的论证 - 物理世界与虚拟世界存在本质差异:物理世界充满连续性、随机性、不完全可观测性,以及大量与力、接触和时序强相关的过程,而虚拟世界是高度可复现、低随机性的符号世界 [2][10][12] - 现有以语言和视觉为中心的建模范式存在结构性错位:语言和视觉并非描述动作和物理过程的理想工具,语言难以描述精细操作(如10秒以下的事件),图像则面临工具使用、遮挡等局限,无法处理涉及力和接触的过程 [17][19][20] - 将具身智能视为独立基础模型将彻底改变模型架构、数据范式、推理方式乃至硬件形态的研发视角 [3][9][12] 模型架构与学习范式的变革 - 感知与决策方式需革新:人类在物理世界通过主动感知和交互感知进行学习,这与虚拟世界中基于静态图片的统计学习范式有根本不同,是多模态模型未来的重要发展方向 [28][29][30] - 需构建完全端到端的统一基础模型:该模型应整合视觉-语言-动作能力,并同时具备世界模型、空间智能和语言能力,而非让这些能力相互替代 [12][33][40][41] - 需专门设计以适应端侧部署和快速推理:当前架构在推理速度上的权衡是暂时的,根本解决方案是设计一个专为物理世界、考虑端侧推理的新模型 [33][34] 数据与Scaling Law的演进 - 现实世界数据是主要来源:训练需分阶段,包括预训练和后训练数据 [49] - 发现第三个Scaling Law:在后训练之后,可通过推理时的思维链等拓展方式进一步提升模型表现 [49] - 持续学习范式更优:物理世界中的机器人应能实时利用新数据进行体验式学习,这优于集中式批次训练,但对体系架构和硬件提出了新要求 [52][53] 硬件与商业化路径 - 必须让AI定义硬件:应软硬一体同步发展,而非先制造完美硬件再适配AI模型 [54] - 公司已实现软硬一体产品化:自主研发并开始销售轮式底盘人形机器人及高自由度灵巧手 [55] - 模型具备领先的泛化与执行能力:公司模型在跨本体泛化(如从夹爪迁移到20个自由度的灵巧手)和复杂任务执行速度上表现优异,速度快于人类遥操作 [34][35][37][38] 行业影响与长期愿景 - 具身智能可能反向吞噬多模态模型的生存空间:以十年为周期,物理世界基础模型的影响力可能超越现有虚拟世界模型 [12][32] - 具身智能是实现通用人工智能的关键:其发展能突破“人手劳动”的瓶颈,实现“机器制造机器”的指数增长,从而为AGI/ASI提供更多算力、芯片、电力和数据资源 [55][56][58][60] - 公司已推出开源模型:自研的WALL-OSS是领先的开源物理世界基础模型,具备视觉-语言-动作控制能力 [42]
中国大模型“第一股”来了,揭秘智谱与MiniMax IPO背后的“隐秘算盘”
36氪· 2025-12-18 20:19
上市进程与核心信号 - 国内大模型公司MiniMax与智谱AI已于本周初完成中国证监会备案并参与港交所上市聆讯,是内地企业赴港上市转为“报备制”后过聆讯节奏最快的一批案例之一 [1] - MiniMax早在2024年6月便以“秘交”方式向港交所递交上市申请,计划于2026年1月在港挂牌上市 [2] - 智谱AI于2025年4月在北京证监局完成IPO辅导备案,由中金公司担任辅导机构,成为国内第一家正式启动IPO流程的大模型公司,原计划在2025年内完成上市前合规流程,后评估将IPO地点从内地调整至港交所 [5][6][7] - 上市对这两家公司而言不是可选项,而是一件需要尽快完成的事,释放出行业进入新阶段的清晰信号 [3][4] 智谱AI (Zhipu AI) 深度剖析 - 公司定位为“国家队”,由清华大学计算机系教授唐杰牵头创办于2019年6月,实际控制人为唐杰与刘德兵,两人合计控制公司36.9647%的表决权 [8] - 资本实力雄厚,截至2025年7月已完成第16笔融资,累计融资额超过160亿元人民币,最新估值约400亿元人民币,刷新国内大模型创业公司估值纪录 [3][10][11] - 股东背景强大,集齐北京、杭州、成都、珠海、上海五地国资,仅2025年3月便连续引入杭州、成都、珠海三地资金,同年7月再获浦东创投与张江集团联合注资10亿元战略融资 [12][13] - 商业路径聚焦G端(政府、军工、国央企、金融)与B端,技术重心放在多模态模型与智能体(Agent) [13] - 2025年9月发布新一代旗舰模型GLM-4.6,代码能力对齐Claude Sonnet 4,并在八项主流权威基准测试中实现全面提升;2024年12月开源具备手机操作能力的AI Agent产品AutoGLM [13] - 2025年上半年经历内部调整,将此前由不同负责人管理的G端与B端业务整合,由CEO张鹏统一管理,旨在减少重复投入,提高整体人效 [14] - 财务方面,公司面向开发者的软件工具和模型业务已实现超过1亿元人民币的年度经常性收入(ARR),预计2025年总营收将继续实现100%以上的同比增长,并希望未来API业务收入占比提升至50% [15] MiniMax 深度剖析 - 公司计划于2026年1月登陆港股,未选择2025年12月底挂牌是为避开香港圣诞假期窗口期 [17] - 发展路径独特,从创立之初就将语音、视频、图文等多模态能力作为核心方向同步推进,而非从大语言模型单点切入 [18] - 收入结构更接近产品驱动型模式,而非典型的以API为主,2024年预期营收约为7000万美元,其中较大比例来自C端产品Talkie [20] - 公司策略曾为“模型与产品双轮驱动”,先后推出AI角色扮演产品Glow(上线4个月注册用户超500万)、Talkie、星野以及海螺AI等产品 [21] - 第三方数据显示,2024年11月Talkie月活用户约为2519万;海螺AI曾连续6个月位居全球视频生成类产品榜首 [21] - 面临市场竞争加剧,2025年7月Talkie月活约为911万,同期Character.AI月活约2225万;海螺AI在2025年11月Web端访问量为885万,同比增长28.92%,而在2025年1月其访问量曾达2769万 [21][22] - 2024年下半年起,公司战略从“模型与产品并重”升级为“模型优先”,重新分配资源,加强文本模型基础能力,并提高数学和编程数据占比 [22] - 2024年10月27日发布并开源新一代文本模型MiniMax-M2,在权威评测平台Artificial Analysis(AA)中获得全球第五,整体能力接近GPT-5(high)与Claude Sonnet 4.5,在智能代理和工具调用任务上具竞争力;同年7月上线MiniMax Agent,支持复杂任务 [23] - 资本路径接近互联网创业公司,共完成7轮融资,包括腾讯领投的2.5亿美元B轮、阿里巴巴领投的6亿美元战略投资,以及最近一轮上海国资出资的3亿美元,公司整体估值超过40亿美元(约288亿元人民币) [3][24] 行业趋势与竞争逻辑 - 智谱与MiniMax在2025年不约而同选择以最快速度登陆资本市场,反映大模型行业的竞争逻辑正在发生整体收敛 [27] - 国内一级市场的大模型叙事已经结束,在密集融资后估值已处高位,一级市场难再提供足够且可持续的“弹药”,尽早锁定更稳定、成本更低的二级市场融资渠道成为头部公司的现实选择 [28] - 大模型公司战略开始主动收拢,效率成为新命题,上市前均压缩边缘战线,将资源重新集中到最具确定性的核心能力上 [29] - 智谱选择整合G端与B端以减少重复投入,是用组织效率对抗资源分散;MiniMax则从“模型与产品双轮驱动”升级到“模型优先”,将资源压回语言模型基础能力及商业化路径更清晰的Agent方向 [29] - 行业正从“方向验证期”进入“资本与效率的双重约束期”,持续获得低成本资金及将研发投入转化为稳定现金流的能力成为对所有公司的考验 [30]
国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026
量子位· 2025-12-18 10:34
文章核心观点 - 评判AI芯片实力的标准已从单纯算力转向能否稳定支撑从百亿到万亿参数、从稠密到MoE架构、从单模态到多模态的完整模型谱系训练,并在万卡乃至更大规模集群上实现高效扩展[1] - 国产AI芯片在大规模训练场景中真正落地难度极大,替代是一个渐进式过程,推理场景已基本解决,但大规模训练是真正的挑战[5][6] - 即便对于参数激增的MoE模型,“小芯片搭大集群”的路径依然可行,关键在于极致的通信优化与系统级协同设计[2] 大规模训练的核心挑战与攻坚路径 第一大挑战:集群稳定性 - 大规模训练是上万卡的同步系统,任何一张卡中断都可能导致任务重启,例如在100张卡时有效训练时间为99%,但当线性扩展到一万张卡时,1%的中断时间就可能导致整个集群不可用[7] - GPU天生是高故障率器件,晶体管数量多、算力高、功耗大,且监控能力弱,整体故障率比CPU高出多个量级[7] - 解决集群稳定性需从两方面入手:一是事前精细化监控与验证,通过系统级手段提前定位可能的故障(如运行变慢、精度异常、数据不一致),尤其是在静默错误场景中需精准定位故障节点[8];二是构建故障后的透明Checkpoint和快速恢复机制,避免大规模重算[9] 第二大挑战:让集群真正扩展起来 - 一个万卡集群必须实现线性扩展,否则只有千卡、两千卡的规模意义不大[10] - 扩展过程大致经历三个阶段:在百卡集群上验证技术可行性,关键在于RDMA通信技术的适配与优化[11];在千卡集群上,由于网络不再对等,需要做好网络亲和性调度等复杂优化[11] - 实现大规模扩展的核心逻辑是“XPU驱动的any to any的通信”,即以XPU为核心,在通信过程中绕过CPU影响,直接用XPU驱动网络,并针对不同流量设置不同优先级以优化任务[14] 第三大挑战:模型生态与精度体系 - 英伟达最强的护城河是其过去十多年沉淀的模型生态,包括成千上万种模型变体、算子体系、框架适配,这使其在训练精度上保持绝对稳定性[15] - 在大模型时代,由于Transformer架构相对统一,国产芯片迎来了机会[16] - 当前的Scale维度已转变为模型参数的Scale(如十亿、百亿、千亿)和任务训练规模的Scale(如百卡、千卡、万卡),这两个维度的Scale带来了整个系统层面的Scale,映射到硬件上会有不同的size、形状、切分策略和并行策略[5][17] - 算子映射到不同硬件平台时,在精度和性能上都会存在挑战,精度上的微小差异可能导致长时间的训练白跑[19] - 为此,公司构建了高度泛化的算子体系,针对不同算子的size做了高强度泛化,并在泛化基础上进行小规模验证精度,避免每次都使用万卡对比,从而保证大规模训练的可靠性[19] MoE模型与多模态模型的新挑战 - MoE模型能在不提升激活参数规模的情况下扩展模型参数,延续Scaling Law,但给系统架构带来新挑战:模型参数变大、输入序列变长,导致通信占比显著提升,从而需要改变整个模型架构[12][20][21] - 适配MoE系统需要极致的通信优化,以及显存的协同与计算overlap[22] - 结论是,即便是MoE模型,“小芯片搭大集群”的方式依然可行[24] - 多模态模型带来另一类挑战,不同模态具有不同的训练强度和计算需求,若沿用原来的同构拆分方法会导致训练效率极低,典型情况下MFU(模型浮点运算利用率)可能都不到10%[24] - 针对多模态模型,需要进行异构数据均衡的调度,适配异构并行策略,使系统能够根据workload动态调整并行策略,为不同模型找到最优的运行策略[26] 国产芯片的实践与衡量标准 昆仑芯的大规模实践案例 - 公司已在百度Qianfan VL、百度蒸汽机等自研模型上取得较领先的效果,并实现了全栈基于昆仑芯的训练[12][31] - 具体实践案例包括: - **Qianfan-VL-70B模型**:多模态模型,在5千卡集群上训练,在通用基准测试中表现出色,并在OCR、文档理解和数学推理等特定领域任务中达到了SOTA性能,支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景,主打OCR全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异[28] - **Qianfan-VL-8B模型**:多模态模型,在2千卡集群上训练[28] - **百度蒸汽机模型**:多模态模型,在6千卡集群上训练,是全球首个中文音视频一体化生成模型,在VBench-I2V榜单上位列全球第一,支持“无限时长”生成,突破了传统AI视频生成10秒左右的时长限制,行业首次实现AI长视频实时交互生成(即边生成边调整),目前生成速度超越国内主流视频模型[28] 衡量国产芯片“能否真正用起来”的关键维度 - **模型覆盖能力**:需覆盖大语言模型、多模态、文生视频等完整模型体系[30] - **集群规模能力**:需实现从百卡到千卡再到万卡的全覆盖[30] - 公司目前在模型覆盖上基本达到主流大模型体系,在规模上已能跑万卡任务,未来还会向数万卡推进[27] - 如同Google用Gemini证明TPU的训练能力一样,硬件需要绑定优秀的自研模型才能真正被市场接受[28][29]
电子行业2026年投资策略:AI创新与存储周期
广发证券· 2025-12-10 17:08
核心观点 - 报告核心观点认为,AI创新与存储周期是电子行业2026年投资策略的两大主线 AI模型创新与资本开支是产业发展的核心动力,驱动AI产业链协同发展 同时,AI推理需求驱动存储价格上涨和架构升级,存储周期持续向上 [1][4] AI创新:模型创新与CAPEX筑基,AI产业链协同发展 需求:模型创新与CAPEX筑基 - AI产业链包括AI硬件、AI CAPEX和AI模型与应用三大环节,其中AI CAPEX是驱动上游硬件发展的核心动力源 [12] - 模型创新是AI发展的核心动力,大模型在Chatbot、Coding、多模态等场景快速渗透,持续拓展应用领域 [14] - AI CAPEX构筑AI周期的基石,云厂商、头部企业及主权国家的资本开支具有刚性与延续性,为上游硬件环节提供订单与现金流支撑 [14] - 海外云厂商及Oracle的CAPEX/OCF在2025年第三季度环比有所下降,但仍处于可控范围,未来AI周期持续向上 [36] 模型创新进展 - **谷歌**:持续突破多模态模型边界,产品矩阵覆盖内容理解、生成到虚拟世界交互全链条,多模态生成在清晰度、动作可控性与叙事连贯性上已具备商业化价值临界点 [19] - **OpenAI**:通过记忆功能、GPT-5.1及群聊功能升级个性化体验,内部预测2025年收入将达130亿美元,同比增约350%,2030年收入预期上调至2000亿美元 [25][28] - **Anthropic**:在企业级LLM API市场份额达32%,内部预测2025年营收38亿美元,2028年目标700亿美元,毛利率有望从-94%跃升至77% [29] 算力:GPU与ASIC共舞 - AI算力竞争已转向“专用硬件+计算平台”的生态构建,展现从通用计算到专用AI计算的产业演进路径 [42] - **谷歌**:发布TPU v7 Ironwood,单芯片峰值算力达4614 TFLOPs,性能较前代提升4倍以上,支持单SuperPod扩展到9216个芯片,构建了从芯片集群到云服务的完整生态闭环 [45][48] - **英伟达**:确立年度产品更新节奏,发布Vera Rubin NVL144和Rubin Ultra NVL576平台,后者性能可达Blackwell Ultra GB300 NVL72平台的14倍,通过“硬件+软件+网络”垂直生态巩固市场地位 [52][56] - **AWS**:宣布研发下一代定制芯片Trainium4,将集成英伟达NVLink Fusion互连技术和UALink,旨在提升计算、内存和互连性能 [58] - **国产算力**:从“单点突围”转向“系统升维”,华为、阿里等厂商推出超节点解决方案,华为昇腾芯片规划以一年一代、算力翻倍的速度演进 [61][63][64] PCB:价值量提升与扩产 - **单GPU PCB价值量持续提升**:英伟达Rubin系列新增midplane、CPX板及正交背板等设计,驱动PCB规格升级 测算显示,Vera Rubin NVL144若包含正交背板,单GPU PCB价值量预计达1313美元,较A100/H100时代提升显著 [70][74] - **单ASIC PCB价值量持续提升**:谷歌TPU v7和AWS Trainium3的架构升级对PCB提出更高要求 测算显示,2025年AWS T系列单ASIC对应PCB价值量预计超700美元,Google TPU约363美元 [78][86] - **AI PCB市场规模高速增长**:预计AI服务器PCB市场规模将从2025年的49亿美元增长至2026年的102亿美元,同比增长108% 其中ASIC AI服务器PCB市场规模预计从32亿美元增至63亿美元,同比增长94% [89] - **国内PCB厂商积极扩产**:沪电股份、生益电子、景旺电子等国内头部厂商通过海外建厂、国内技改等方式积极扩充AI PCB产能 [90][93] 存储:AI推理驱动增长 - AI推理采用分级存储架构,HBM、DRAM、SSD、HDD协同支撑高效计算 [101] - AI推理,特别是超长上下文和多模态需求,驱动AI存储快速增长 测算显示,2026年10个谷歌级推理应用所需存储容量将达48EB [106] - 英伟达GPU配置持续升级,单GPU对应的HBM容量从H100的80GB提升至VR300 Ultra的1024GB,同时CPX系列新增GDDR7内存 [108] 电源:800V HVDC升级 - 为满足MW级机柜功耗需求,英伟达提出800V HVDC供电架构,可减少电能转换环节、降低损耗并简化热管理 [111] - SiC和GaN功率半导体是实现800V HVDC架构的关键,能实现更高功率密度与能效 [112] - 采用超高压SiC MOSFET的固态变压器可将高压交流电直接转换为800V直流,进一步提升能效 [119] - 预计至2030年,全球SiC&GaN功率器件市场规模将达25.64亿美元 [121] 存储周期:AI驱动价格上涨,扩产与升级同发力 价格与盈利 - AI驱动云侧和端侧存储搭载量显著增长,存储价格持续上涨,存储原厂毛利率显著提升 [4] 扩产:优先投向HBM - 海外存储原厂资本开支进入上行区间,产能优先投向HBM,传统DRAM和NAND投产较为谨慎 [4] 架构升级与设备需求 - **DRAM升级**:4F2+CBA工艺延续主流DRAM升级趋势;3D堆叠DRAM显著提升带宽,指向AI推理市场 [4] - **NAND升级**:3D NAND堆叠层数持续升级 [4] - 存储架构升级为设备需求带来新机遇 [4] 产业模式与接口芯片 - 存储代工模式迎来产业变革机会 [4] - 接口芯片如MRDIMM和VPD为产业打开新空间 [4] 投资建议 - 建议关注AI产业链相关标的,包括模型创新与CAPEX驱动下的算力、存储、PCB、电源等环节 [4] - 建议关注存储产业链相关标的,聚焦AI驱动下的价格上涨、架构升级及产业模式变革机会 [4]
行业周报:聚焦豆包AI进展及游戏、电影上新-20251207
开源证券· 2025-12-07 22:56
行业投资评级 - 投资评级:看好(维持)[1] 核心观点 - 报告建议继续布局商业化进展较快的AI应用方向,并关注游戏旺季及电影市场回暖带来的投资机会[3] - 头部科技公司在多模态模型、Agent、端侧AI及算力云方面继续发力,或加剧AI领域竞争,推动模型及垂直细分领域AI应用落地能力不断提升,助力AI商业化空间打开[3] - 随着年底圣诞、元旦档期及后续寒假、春节假期陆续来临,游戏行业或再次进入新游上线及老游运营推广旺季,流水有望环比明显提升[3] - 《阿凡达3》等后续新片上映或继续驱动电影票房回暖[4] 行业数据综述 - 截至2025年12月6日22:00,《三角洲行动》获内地iOS游戏免费榜第一,《王者荣耀》获内地iOS游戏畅销榜第一[10] - 截至2025年12月6日22:00,《明日方舟:终末地》为安卓预约榜第一,《逆战:未来》为iOS预约榜第一[10] - 电影《疯狂动物城2》为周票房第一,本周票房13.76亿元,累计票房27.85亿元[23] 行业新闻综述:AIGC - DeepSeek-V3.2发布,在公开的推理类Benchmark测试中达到GPT-5的水平,仅略低于Gemini-3.0-Pro,大幅缩小了开源模型与闭源模型的差距[29] - 可灵AI发布全球首个统一多模态视频模型O1,视频生成时长介于3-10秒[30] - 豆包手机助手技术预览版发布,可协助完成跨App操作[31] - 豆包Seedream 4.5模型上线,提升人像质感与设计专业性[31] - 火山引擎将于12月18-19日举行原动力大会,将发布豆包大模型家族全线焕新及Agent开发工具升级[3] - 豆包语音识别模型2.0发布,上下文整体关键词召回率提升20%[3] 行业新闻综述:游戏 - 2025年11月微信小游戏畅销榜中,《道友来挖宝》平均排名3.3,《无尽冬日》平均排名3.4[31] - 2025年,中国电子竞技产业收入为293.31亿元,同比增长6.40%,用户规模超4.95亿人[32] - 《洛克王国:世界》宣布定档3月26日,全网预约人数超4000万[32] - 《逆战:未来》定档2026年1月13日上线,官网预约玩家数量已突破2000万[33] - 新游《九牧之野》全平台预约人数破100万,Taptap期待值7.8,将于12月18日全平台公测[3] 行业新闻综述:影视 - 11月漫剧播放增量约27.77亿,不到10月份61.46亿播放增量的一半[35] - 11月抖音平台新上线的漫剧数量达到2441部,对比10月减少3499部[35] - 11月抖音端漫剧新增播放量TOP50榜单中,共有27部AI漫剧上榜,数量首次反超沙雕漫[35] - 抖音集团短剧版权中心推出重点品类激励计划,在原分账基础上叠加10%-20%的额外分成激励[34] - 爱奇艺推出“云腾开源”计划,激励精品横屏短剧[34] - 掌阅科技上线漫剧“星芒计划”,对10000+优质小说IP开放合作,享最高30%利润分成[35] 公告总结 - 电广传媒与芒果超媒、张旅集团拟共同投资1.8亿元设立张家界芒果文旅有限公司,负责经营大庸古城项目[38] - 祥源文旅全资子公司拟以3.45亿元收购金秀莲花山景区开发有限公司100%股权[36][37] 板块行情综述 - A股传媒板块2025年第49周(12月1日-12月5日)下跌3.86%,表现落后于上证综指(+0.37%)、沪深300(+1.28%)等主要指数[39] - 传媒子板块中,体育板块表现最好,周涨幅为+1.39%;营销板块表现较弱,周跌幅为-4.48%[39] - A股传媒个股中,联建光电周涨幅最大(+28.62%),蓝色光标周跌幅最大(-13.98%)[39][40] - 美股传媒个股中,Applovin周涨幅最大(+15.42%),猎豹移动周跌幅最大(-11.81%)[39][45] - 港股传媒个股中,数字王国周涨幅最大(+20.69%),美图公司周跌幅最大(-12.67%)[39][46] 重点公司及受益标的 - AI广告方向重点推荐汇量科技、引力传媒,受益标的包括蓝色光标、易点天下等[3] - AI漫剧方向重点推荐哔哩哔哩、快手、阅文集团,受益标的包括捷成股份、中文在线等[3] - AI电商方向重点推荐值得买,受益标的包括阿里巴巴[3] - AI设计方向受益标的包括美图公司[3] - 游戏板块重点推荐吉比特、恺英网络、巨人网络、心动公司、腾讯控股等,受益标的包括世纪华通等[3] - 电影方向重点推荐上海电影,受益标的包括中国电影等[4]
阿里Qwen-Image更新;商汤发布NEO架构|数智早参
每日经济新闻· 2025-12-03 07:17
阿里巴巴Qwen-Image模型更新 - 公司发布图片生成及编辑模型Qwen-Image的重磅更新,新模型在图像编辑中维持更高一致性,并在多视角转换、多图像融合、多模态推理等方面取得突破进展 [1] - 新版本Qwen-Image已首发接入千问App,用户可无限次免费使用 [1] 商汤科技发布NEO架构 - 公司正式发布并开源与南洋理工大学S-Lab合作研发的全新多模态模型架构NEO,为日日新SenseNova多模态模型奠定新一代架构基石 [2] - NEO是行业首个可用的、实现深层次融合的原生多模态架构,通过核心架构层面的多模态深层融合,实现性能、效率和通用性的整体突破 [2] 优必选科技战略合作 - 优必选科技与卓世科技签署战略合作框架协议,合作聚焦“行业模型+具身智能”核心方向 [3] - 双方计划在未来5年内达成1万台机器人部署及联合拓展数十亿元商业化订单落地 [3] AI行业技术趋势 - AI视觉技术发展仍充满挑战,未来需关注在保持技术领先的同时进一步降低模型训练成本、提升运行效率以实现更广泛应用落地 [1] - AI范式转移始于架构破壁,从单模态到多模态,率先跳出修补思维的参与者有望拿到下一代产业门票 [2] - 人形机器人产业化拐点的关键在于机器人能在真实场景中稳定运行、获得客户复购、保险支持及监管许可,万台部署是水到渠成的起点 [3]