架构创新 - 财报，业绩电话会，研报，新闻

架构创新

搜索文档

36氪· 2025-11-12 19:51

AI行业范式转变：从参数竞赛到效率革命 - 大模型边际收益递减，训练成本飙升，GPT-4级别模型成本突破1亿美元，最尖端模型训练成本已接近10亿美元[1] - Scaling Law遭遇瓶颈，单纯增加参数对模型能力提升效果减弱[1] - 产业界从“参数竞赛”转向“效率革命”，小模型在多项任务中表现超越大模型，运营成本仅为后者1/10到1/30[2][4] 小模型技术突破与性能表现 - DeepSeek R1-0528将671B参数模型蒸馏到8B，在AIME 2024测试中反超原模型10%[2] - Qwen3-VL 4B/8B模型保持256K-1M超长上下文和完整多模态能力，在低显存设备上稳定运行[2] - GreenBitAI的GBAQ算法实现突破，3-bit模型用30-40%的Token消耗达成FP16级别推理质量[23] - 在Multi-Agent任务中，GreenBitAI 3-bit模型完成率达到100%，而竞品4-bit方案全线失败[25] 端侧AI基础设施技术创新 - GreenBitAI开发Local Agent Infra技术栈，包含模型层优化、性能层优化和上下文工程三大核心模块[22][28][29] - 模型层优化采用GBAQ算法框架，实现测试时扩展技术，无需训练即可提升推理性能[22] - 性能层优化采用混合精度策略和量化感知校准，实现跨硬件部署优化[28] - 上下文工程通过动态Context Engineering和信息降维技术，使16GB内存设备可处理百页文档[31] 本地AI市场机遇与商业化路径 - AI PC市场快速成长，预计2025年占PC市场31%，2026年达55%，出货量1.43亿台[35] - 2030年全球智能终端市场规模将达2.6万亿美元，行业应用占比超60%[36] - GreenBitAI规划三步走商业化路径：ToC端订阅、ToB端授权、平台化生态建设[36][37] - 端侧AI设备普及路径类似家庭Wi-Fi中继器，预计3年内50-80%任务迁移到本地[34] 硬件厂商的差异化战略布局 - 苹果采用垂直整合策略，自研芯片实现CPU、GPU和AI神经引擎内存共享，能效比提升三倍[6] - 英伟达推动GPU通用计算化，通过Tensor Core将AI训练矩阵乘法加速百倍[7] - 华为在鸿蒙生态中押注端侧大模型，英伟达推出桌面级DGX Spark产品[10] - 苹果M5芯片单位功耗AI计算效率相比M4提升数倍，消费级设备智能上限大幅提高[10] 专业级Local Agent产品突破 - GreenBitAI发布Libra beta release，全球首个支持完全本地化、断网运行的专业级Agent产品[32] - Libra专注于专业文档处理与生成，输出质量媲美人工专家，支持金融分析、学术论文等高标场景[32] - 产品在Apple M3芯片上实现预填速度1351.7 tokens/s，解码速度105.6 tokens/s，体验接近云端API[27] - 采用多领域专家协同模式，通过智能工作流配置实现复杂文档任务分工协作[33]

「我受够了Transformer」：其作者Llion Jones称AI领域已僵化，正错失下一个突破

机器之心· 2025-10-25 11:20

文章核心观点 - Transformer架构的创造者之一Llion Jones表示已厌倦该架构，并指出AI行业因过度投资和竞争压力而僵化于单一架构，导致创造力下降和探索不足，可能错失下一个重大突破 [2][3][23][29][31] AI行业现状与挑战 - AI领域面临悖论：资源投入前所未有，但创造力却在下降，研究者因害怕被竞争对手抢先而选择安全、易于发表的项目，而非高风险变革性项目 [11][16] - 行业竞争导致研究同质化，例如有四篇不同论文几乎同时提出与表征自编码器类似的思想，以及两家公司在OCR token化方法上撞车 [12] - 当前AI研发模式过度“利用”现有Transformer架构，而“探索”不足，导致陷入局部最优解，可能错过更优越的替代方案 [16][29] Transformer的成功与局限 - 论文《Attention is all you need》发表于2017年，已获得超过20万次引用，是本世纪最具影响力的计算机科学论文之一 [7] - Transformer自身的成功和强大灵活性，反而可能阻碍人们去寻找更好的替代技术 [24] - 简单地构建更大的Transformer模型可能正接近收益递减的瓶颈，持续进步可能需要架构创新而不仅仅是规模扩大 [29] 创新环境与解决方案 - Transformer的诞生源于自由、自下而上的研究环境，如午餐交谈和白板涂鸦，没有来自管理层的项目或论文发表压力 [19] - 倡导调高“探索旋钮”，公开分享研究成果，即使会带来竞争代价，以合作而非竞争的方式共同推动技术进步 [21][26] - 在研究机构中提供探索自由比高薪更能吸引顶尖人才，例如Sakana AI给予研究员一周时间自由探索，最终成果被NeurIPS接收为Spotlight论文 [21][22] 未来展望与风险 - 下一个Transformer规模的突破可能正由拥有探索自由的研究人员追寻，但可能因当前行业追逐增量改进而被忽视 [31] - 每年数百亿美元流入AI研发，但激烈的竞争和保密倾向使得探索性研究环境渐行渐远，可能需要颠覆现有的激励机制以找到根本性创新 [29]

探索与利用

架构创新

Artificial Intelligence

Artificial Intelligence

Transformer

RAE

Glyph

华为宣布 AI 推理技术重大突破有望彻底摆脱 HBM 依赖

是说芯语· 2025-08-10 10:30

华为AI推理技术突破 - 公司将于8月12日发布AI推理领域突破性技术成果通过创新架构设计与存储技术融合降低对HBM依赖提升国产AI大模型推理性能 [1] - 新技术涉及"硬件重构+软件智能"深度协同可能通过超节点级联构建"超级AI服务器" 结合纳秒级通信网络和智能调度系统实现全维度优化 [4] - 华为云CloudMatrix384昇腾AI云服务已验证类似技术路径单卡Decode吞吐突破1920 Tokens/s KV Cache传输带宽提升10倍输出每个Token时延降至50ms [4] 行业现状与痛点 - 全球AI推理需求爆发式增长高端AI服务器对HBM依赖度高达90%以上但全球HBM产能被SK海力士、三星等垄断国产替代率不足5% [3] - HBM垄断推高大模型训练和推理成本阻碍中国在金融、医疗、工业等关键领域AI落地进程 [3] - 当前主流HBM3带宽超819GB/s 短期内难以被完全替代 [5] 技术细节与积累 - EMS弹性内存存储服务实现显存扩展、算力卸载、以存代算三大功能使盘古大模型5.0的NPU部署数量降低50% 推理首Token时延降低80% [4] - 结合昇腾与鲲鹏算力深度协同在MoE训练中实现吞吐提升20%、内存节省70% [4] - 分布式新核心方案5.5支撑超75%的大行和股份制银行核心转型 [5] 金融行业应用前景 - 金融行业将成为技术落地首站已形成成熟AI布局体系 [5] - 智能体技术推动风控、审计等场景从单点智能向多体智能跃迁与科大讯飞合作实现MoE模型推理吞吐提升3.2倍端到端时延降低50% [5] - 新技术可支持高频交易毫秒级决策支撑智能客服千万级用户实时交互 [5] - 与中国电信合作的AI智能体项目使故障处理时长缩短30% 无线网络优化任务大模型让用户体验提升10%-15% [5] 行业影响 - 技术突破可能重塑全球AI芯片竞争格局推动从"硬件堆砌"转向"架构创新" [3][5] - 若找到性能与成本平衡点可能打破"唯HBM论"产业惯性 [5]

Artificial Intelligence

架构创新

Semiconductors

CloudMatrix384昇腾AI云服务

EMS弹性内存存储服务

分布式新核心方案5.5

Artificial Intelligence

架构创新

Semiconductors

CloudMatrix384昇腾AI云服务

EMS弹性内存存储服务

分布式新核心方案5.5

这颗芯片点亮那一晚，中国工程师集体泪崩！

新浪财经· 2025-06-23 23:28

行业趋势与技术创新 - 摩尔定律面临物理极限，传统芯片算力增长难以满足AI爆炸式需求，架构创新成为破局关键[5] - 动态可重构芯片(RPU)通过无指令集直接计算和动态匹配计算单元实现高能效、高并发、高扩展性、高性价比四大优势[7][8] - 中国算力芯片采取"高阶国产替代"路径，从底层原创突破技术壁垒，类比电动车产业换道超车模式[9][14] 公司技术与产品 - TX81芯片采用800平方毫米极限尺寸裸片，结合C2C网格直连技术消除数据中转，提升算力利用率[35][36] - 全球首款规模化量产的可重构云端算力芯片，2025年已部署多个千卡集群算力中心[51] - 第二代TX82芯片研发中，计划2026年流片，持续强化自主可控技术路线[53] 创业历程与团队 - 创始人王博基于清华大学THINKER芯片技术，2018年联合尹首一教授创立清微智能，转型学术成果产业化[17][18][22] - 初创团队仅20余人，蜗居30平米办公室，自建研发流程与质量标准，完成全原创代码开发[29][32] - 核心成员包括华为、阿里背景的技术专家，攻克时钟器件定制等关键难题，承受千万美元级流片风险[39][40][41] 市场竞争与战略定位 - 避开GPU主导的存量市场，以可重构架构开辟AI算力新赛道，打破海外技术生态壁垒[28][49] - 与清华系企业智谱形成"AI原创双子星"协同，覆盖芯片与大模型软硬件全栈技术[53] - 复制中国电动车产业逆袭路径，通过原创技术+产业链整合实现高阶国产替代[12][14] 技术突破里程碑 - 首次流片遭遇电源匹配故障，经通宵调试后成功点亮芯片，标志架构可行性验证[42][43][44] - 独创3D存储堆叠等技术组合拳，解决多卡互联编程难题，释放澎湃算力[14][36] - 六年研发周期远超传统芯片12-18个月迭代节奏，体现原创技术攻坚难度[41][51]

2025H2新型硬件展望：从科技树节点，看新型硬件

申万宏源证券· 2025-06-09 15:39

报告行业投资评级未提及报告的核心观点采用“硬件Y - 软件X”轴预测新型硬件创新，串联不同时间科技创新进展与前景指引投资方向；2B市场关注光器件、硅光、GPU等高端化机会，2C市场关注车载、RoboVan、可穿戴等机会；架构创新和“物理化学生物AI”易被低估，带来国产科技硬件发展机会；长期机会与创新更重要，附录提供科技树和技术复杂度素材辅助理解[4]。根据相关目录分别进行总结基于“硬件Y - 软件X”轴的预测 - 2022H2展望呈现“硬件Y - 软件X”创新轴，展示不同软硬件组合及发展阶段[11] - 2024年底观察到新增ARM、AI眼镜等机会，行业和服务机器人有进展[13] - 2025H2展望在智联汽车、XR等领域有新变化，如增加RoboTaxi、生物 - 电子融合硬件等[16] - 2025H2创新轴对应的硬件机会包括AIPC、AI笔记本等，中长期机会更重要，还涉及算网、算力、材料等方面的发展及问题[18] 2B市场：光器件 + 硅光 + GPU + 高端化光器件 - 过去算网受“Scaling Law”驱动，光通信量价齐升，不同系列产品对光模块用量有提升[24][26] - 现在AI“非典型”周期打破惯性，MoE架构是光通信需求高成长关键，结合算力多元化等因素带动光通信发展[27][32] - MoE下光器件通信特点与过去不同，带来内存访问和负载均衡增量，但也存在系统效率、通信等挑战[34][42] - 华为CloudMatrix384有MoE优化技术，英伟达也有类似趋势改变[48][51] 硅光 - 高速光通信下一节点是硅光，市场爆发临近，三场景共进以提高集成度、满足带宽增长和降低功耗[56][59] - 硅光产业爆发因VCSEL芯片带宽提升有技术瓶颈，其产业链与传统光模块产业链不同，技术难点是光电集成[61][64] - 中际旭创和光迅科技是硅光代表性企业，在硅光芯片研发和产品出货方面有进展[67][69] 半导体 - 半导体是AI基础，中国在半导体领域有进步，从全球代工和封测排名可见[70][74] - 中系Fab在全球高端市场追赶节点，如中芯国际等[76] - 国产KrF、ArF光刻机完成首台生产并进入推广应用阶段，有相应性能参数[78][81] GPU - 国产算力迈入千卡集群，GPU赛道有众多明星项目，不同厂商的GPU型号在工艺、算力等方面各有特点[84] 半导体趋势 - “DeepSeek时刻”架构关键，等效线宽在先进制程中多为等效概念，AI下晶体管密度有新变化[85][88] - 架构创新未必是单点提价，可解决性能翻倍的功耗和成本问题，如华为手机芯片案例[89][91] 2C市场：车载 + RoboVan + 可穿戴 + 生物电子互动设备 RoboVan - 存在技术外溢关系，涉及智能车、机器人、低空经济、深海科技等多个领域的产业复用[98][101] - 上下游格局包括芯片、算法、传感器等供应商，以及物流、配送等运营商，UE与ROI有吸引力，但存在一定风险[103][107] 车载芯片 - 2025年车载芯片高端化，智驾软硬件成熟，质价比提升，传统主机厂带动价格带下沉，NOA渗透率有提升空间[108][111] - 高阶芯片国产化、算法方案成熟、配置下放等因素推动发展，主机厂自研智驾芯片有进展[112][117] 激光雷达 - 2025年激光雷达有新发展，用于多个领域，物理AI和世界模型崛起使其成为智驾方案新选择[123][131] - 竞争格局逐渐明朗，“四巨头”格局显现[134] AR + AI眼镜 - 2025H2 - 2026年有变化，涉及3D传感、高刷新率、低延迟等方面，不同方案有优劣势[135][141] 新兴AI可穿戴 - 应重视BCI（脑机接口），有非侵入式与半侵入式创新成果[142][143] 一二级机会未提及附录：科技树、技术复杂度未提及具体内容总结信息