Workflow
数据流架构
icon
搜索文档
理想选择用硬核/开放/巧劲表达其自研芯片数据流架构很强
理想TOP2· 2026-04-03 15:50
文章核心观点 - 文章旨在进行对理想汽车的中性分析,而非盲目吹捧,其分析基于对一篇由晚点发布、对谈清华教授汪玉关于智驾芯片数据流架构文章的深度解读[1] - 分析认为,晚点的文章在选题上可能与理想汽车存在一定协同,文章内容使理想汽车成为显著受益方,强化了其在自研芯片及数据流架构技术路径上的专业形象和潜在优势[2][3][4] - 理想汽车的技术传播风格倾向于硬核、开放与详细解释,这与部分友商形成对比,其技术透明策略客观上能起到招募人才和推动产业进步的作用,且在芯片、操作系统等深层技术领域,其领先优势不易被友商快速追赶[5][8] 对晚点文章《对谈清华教授汪玉:为什么数据流架构适用智驾芯片?》的解读 - 文章标题及内容因晚点品牌、清华教授署名及专业关键词,营造出高质量第三方好评的架势,使理想汽车在自研芯片外,因专注数据流架构而获得额外优势感[2] - 文章内容硬核,详细阐述了汪玉教授关于数据流架构、智驾芯片设计挑战与未来趋势的多个观点[5] - **数据流架构价值与挑战**:数据流架构让数据在处理单元间直接流动,减少内存访问开销,其难点在于编译器代价大,但在AI时代,可用AI完成映射工作,让算法适配底层计算架构[6] - **与特斯拉及行业对比**:特斯拉2019年量产的FSD芯片未采用数据流架构且主要面向CNN算法,当前所有芯片对VLA模型支持一般,理想汽车敢于采用VLA胆量很大,其芯片2022年开始研发,很可能看到了Transformer架构的潜力[6] - **未来技术趋势**:未来3-5年,智驾芯片通过内存堆叠解决存储墙问题可能是必须的,Chiplet解决面积墙问题,未来计算和存储需要放得更近[6] 智驾芯片同样需要追求先进制程,以降低功耗、简化散热并提升性能与实时性[7] - **算力需求量化**:智驾图像传感器帧率在30帧以上,每帧图片转化数百个Token,多路摄像头下需处理的输入Token在数千到上万不等,输出动作频率为100 Hz,每次输出十几个Token,对应每秒近1000个Token的输出[6][7] - **软件与生态壁垒**:CUDA支持数千个算子,而VLA模型估计仅几百个算子量级,软件层面代价小,且现在可用AI写算子,分析认为CUDA不会构成很大壁垒[7] - **架构延续性与开放性**:除非不用Transformer,否则一颗芯片支持几代不同算法问题不大,目前学术界未见更优架构,且新架构应用到产业需要时间[7] 理想M100芯片论文已投递至ISCA,开放程度超过特斯拉、蔚来、小鹏[7] 理想汽车的技术策略与风格分析 - **技术传播风格**:公司整体风格倾向于细化讲清楚技术价值与实现方式,偏好长句和详细解释,与部分友商倾向用短句宣传的风格不同[5] - **透明与开放的目的**:公司的透明风格客观上能起到招人广告的效果,并真实推动产业共同进步[8] 2025年5月,公司表示因受DeepSeek开源巨大帮助,决定将自研整车操作系统理想星环OS开源,作为对社会的贡献[8] - **技术护城河**:在汽车产品定义维度友商相对容易追赶,但在芯片、操作系统、模型协同开发等深层技术领域,友商难以快速追赶[8] - **对开源的辩证看法**:中性分析立场会对公司的开源行为进行客观评估,而非一味给予高评价[10] 对公司其他业务与宣称的评估 - **大语言模型能力**:2024年12月,公司宣称要在大语言模型领域做到国内前三,但同期推出的理想同学手机版APP被评估为框架表现很差,未细化评判标准[10] 做基座大模型能力来看,国内潜在竞争对手包括豆包、DeepSeek、Qwen、Kimi,要超过其中两位挑战非常大[11] 截至2026年1月,预期公司的纯软件大语言模型在较长一段时间内都无法进入国内前三,竞争对手还需加上MiniMax[11] - **学术成果评价**:中性分析立场认为,对于公司多篇论文被ICCV录用一事,其价值点在于公司所做的具体工作,而非ICCV会议本身,因为ICCV每年录用两三千篇论文,对于大体量公司而言,在头部会议发多篇论文是认真做就能做到的事[10]
对谈清华教授汪玉:为什么数据流架构适用智驾芯片?
晚点Auto· 2026-04-02 23:00
文章核心观点 - 理想汽车自研的“马赫100”智驾芯片采用数据流架构,是行业内一项大胆且具有前瞻性的技术选择,旨在应对以VLA模型为代表的下一代智驾算法需求,并提升计算效率[3][5][8] - 数据流架构通过让数据在处理单元间直接流动,减少反复访问内存的开销,从而提升计算效率,但其编译难度较大,不过AI辅助编程和软硬件协同优化可以缓解此问题[5][6][9] - 车企自研芯片在成本可控、技术自主迭代以及软硬件垂直整合优化方面具有长期价值,尽管面临挑战,但若能持续迭代,其投入产出比是合理的[15] 技术路线:数据流架构的优劣势 - **优势:提升计算效率**:数据流架构让数据在芯片处理单元间直接流动,减少了反复从外部存储器读取数据的开销,从而提升效率[5] - **优势:适合VLA模型**:VLA模型包含视觉(算力密集型)、语言(内存密集型)和行动(计算模式不规律)三种运算,数据流架构能有效减少语言部分的内存访问开销,是支持此类持续演进智驾模型的不错选择[6][8] - **劣势:编译难度大**:数据流架构的应用难点在于编译器的代价较大,但当前可利用AI技术辅助完成映射工作,甚至让算法适配底层架构[5][6] 芯片与算法演进趋势 - **架构趋于稳定**:智驾模型的核心骨架(如Transformer及其变种)在未来几年内发生剧烈变化的可能性不大,因此一颗芯片有能力支持多代算法演进[11] - **软硬件协同优化**:通过模型压缩、量化(如采用FP4、FP8而非FP32)以及内存调度优化,可以在固定算力下提升性能,这类似于在固定面积房间内用更多椅子替代沙发以容纳更多人[9][10] - **关键技术方向**:未来3-5年,智驾芯片的关键演进方向包括采用Chiplet技术以突破单芯片面积限制并实现异构集成,以及通过内存堆叠(如3D堆叠)解决“存储墙”问题,让计算和存储更近[9][11] 车企自研芯片的逻辑与挑战 - **成本与可控性**:车企自研芯片若能成功并持续迭代,将实现自主可控并降低成本[15] - **应对性能瓶颈**:对于智驾乃至机器人应用,追求高实时性要求极高的Token处理速度,例如机器人可能需要每秒1000个Token的指挥控制频率,这需要性能强大的芯片支持[13][14] - **制程与能耗需求**:汽车对先进制程芯片的需求同样迫切,并非因空间大而降低要求,先进制程有助于降低功耗、解决散热问题并提升性能,汽车电子系统占比已约30%,能耗是关键问题[15] - **生态壁垒可克服**:智驾或大模型所需的计算算子数量(估计几百个)远少于英伟达CUDA生态为广泛通用计算所支持的数千个算子,且AI辅助编程降低了开发门槛,因此CUDA并非不可逾越的壁垒[16] 理想汽车的具体实践与行业定位 - **技术突破点**:理想汽车的重要突破在于敢于采用VLA模型,并进一步选择数据流架构,这在行业内是领先的尝试[3][8] - **研发背景**:理想于2022年启动芯片自研,在研发过程中预见到Transformer架构的潜力,其马赫100芯片以数据流架构为核心,同时兼容CNN等计算[13] - **垂直整合优势**:类似苹果,理想具备将应用、软件、芯片与整车进行垂直整合优化的能力,这是其提升系统级性能的关键[15]
李想:M100芯片不是算法焊死的ASIC,AI怎么进化,它就怎么进化
理想TOP2· 2026-03-30 14:15
文章核心观点 - 理想汽车自主研发的“马赫100”芯片的学术论文被全球顶级学术会议ISCA的Industry Track录用,标志着公司在AI原生芯片架构上的创新获得了国际权威学术界的认可 [1] - 马赫100芯片采用创新的数据流架构,相比传统GPGPU在执行效率和灵活性上具有显著优势,旨在为AI时代提供更优的算力解决方案 [1][2] - 理想汽车成为汽车行业中首家在ISCA Industry Track发表论文的公司,与DeepSeek、Google、Meta、NVIDIA等科技巨头并列 [1] - 全新一代理想L9将首发搭载马赫100芯片,强调创新从实验室到生产线的产品落地是最终目标 [1][3] 芯片技术架构与优势 - 马赫100采用为AI原生设计的数据流架构,由数据驱动,计算单元之间直接传输数据,执行效率更高,带来更高的有效算力 [1] - 传统GPGPU由指令驱动,数据在计算单元和全局内存之间反复搬运,规模越大瓶颈越大 [1] - 数据流架构完全可编程,不是把算法焊死的ASIC,AI如何进化,芯片就如何进化,灵活性更高 [1] - 该芯片执行效率高于GPGPU,同时灵活性大大优于传统AI加速器 [2] - 该芯片采用5nm制程工艺,并通过了百万片级量产的产品部署验证 [3] 学术成就与行业地位 - ISCA是计算机体系结构领域全球最顶级的学术会议之一 [1] - ISCA从2020年开始设置独立的Industry Track,仅面向工业界,要求第一作者及大部分作者都来自企业,每年入围数量只有个位数 [1] - 在此之前,DeepSeek、Google、Meta、NVIDIA的论文也曾在ISCA Industry Track发表 [1] - 理想汽车是汽车行业的第一家在ISCA Industry Track发表论文的公司 [1] - 该论文是公司的第一篇ISCA论文,也是第一篇完整的芯片体系架构研究报告 [2] 研发背景与团队 - 芯片研发团队进行了过去三年多低调的深耕 [3] - 马赫100芯片的架构思想受到数据流架构的开创和奠基者高光荣教授毕生研究的启发,并基于MIT的Avind、Jack Dennis等计算机体系架构先驱们从上世纪70年代开始的研究基础 [3] - 以M100为起点,公司有机会在AI时代逐步打开数据流架构路线的巨大潜力 [3]
英特尔投资SambaNova3.5亿美元挑战GPU在AI推理领域的主导地位
搜狐财经· 2026-02-25 18:36
融资与合作 - AI基础设施公司SambaNova成功完成3.5亿美元融资,旨在推进其数据流架构技术,将其定位为基于GPU的AI系统的替代方案 [2] - 英特尔资本参与了本轮融资,打破了其计划收购SambaNova的传言,双方建立了“多年期”合作关系 [2] - 合作内容包括SambaNova的新一代可重构数据流单元将使用英特尔至强处理器,以及双方将进行硬件软件协同设计,旨在为客户提供生成式AI部署的GPU替代方案 [2][8] 产品与技术进展 - SambaNova计划今年晚些时候发布SN50加速器,日本软银已成为其首批客户之一 [3] - SN50相比2024年推出的SN40L有显著提升,提供2.5倍的16位浮点性能和5倍的FP8性能,分别达到1.6 petaFLOPS和3.2 petaFLOPS [3][7] - 每个RDU配备432MB片上SRAM、64GB HBM2E内存(带宽1.8TB/s)以及256GB到2TB的DDR5内存,其三层内存架构允许在几分之一秒内在模型之间切换并高效卸载键值缓存 [3][7] 性能与竞争优势 - SambaNova声称其数据流架构通过重叠计算和通信减少数据移动开销,与英伟达B200相比,可提供高达5倍的每用户生成速度 [4][8] - 根据第三方数据,SambaNova的SN40L加速器在服务2300亿参数的MiniMax M2模型时,能以高达每秒378个token的速度提供大语言模型服务,比最接近的基于GPU的推理服务提供商快100多个token每秒 [5] - 对于SN50,单个推理工作器现在可以扩展到多达256个加速器,是英伟达NVL72机架中加速器数量的3.5倍以上,并支持通过交换结构实现的2.2TB/s双向芯片间带宽 [5][6] 市场定位与战略 - SambaNova认为其大容量DDR5内存池使其能在几毫秒内快速切换客户模型和键值缓存,这有助于解决因模型定制化导致的机架运行效率低下问题 [6] - 公司表示已将产品优化到使每个机架都具备合适的推理经济性,使服务提供商能够通过提供token服务实际获利,未来的重点将是销售基础设施而非构建专用推理云 [6]
大雨解读理想L9搞全线控底盘底层逻辑
理想TOP2· 2026-02-08 12:51
公司技术架构升级 - 公司指出传统2D视觉Transformer模型无法真正理解物理世界 且供应商芯片的视频编码器是黑盒无法修改[1] - 公司通过自研的马赫100芯片采用数据流架构 获得了足够算力来运行3D视觉Transformer模型[1] - 公司搭配全线控系统 使模型能直接输出控制转向和刹车 获得了比人类更好的响应时间与灵敏程度[1] 3D视觉Transformer技术解析 - 早期2D视觉Transformer处理数据是切片式的 将图像切成16x16像素的小方块 信息有限且缺乏时空关联[1] - 3D视觉Transformer的输入是视频流片段 其Token是时空管 同时包含物体在空间的位置和在时间轴上的变化[1] - 许多运行在上一代芯片的端到端模型是混合架构 先用2D视觉Transformer提取特征 再将连续帧堆叠进行时间融合 本质是先静态分析再推断动态[2] - 转向3D视觉Transformer是原生支持处理连续视频流 这里的3D指的是张量的高、宽和时间维度 而非空间坐标x y z[2] 自研芯片与数据流架构优势 - 上一代芯片无法原生支持3D视觉Transformer的原因是内存带宽和数据搬运效率跟不上[2] - 公司自研芯片采用的数据流架构 可将3D视觉Transformer的层与层之间在硅片上硬连接 减少频繁读写外部显存 实现极致的延迟优化[2] - 公司CTO表示自研芯片采用新颖的数据流架构 模型计算主要由数据驱动而非指令驱动 实现了更高的并行度[4] - 数据驱动的逻辑由公司自研的编译器进行调度 芯片 编译器 运行时系统及操作系统是作为一个整体共同设计的软硬协同方案[4] 全线控底盘的必要性 - 在智能驾驶大脑算力提升后 需要全线控底盘使车辆的“身体”跟得上 以实现更直接和快速的控制响应[3]
一颗颠覆传统的芯片
半导体行业观察· 2026-02-06 09:33
文章核心观点 - NextSilicon公司推出的Maverick 2处理器采用了一种创新的数据流架构,旨在通过直接执行编译中间表示的计算图来大幅提升高性能计算和人工智能工作负载的性能,其性能优势可达数量级级别 [2][5][13] NextSilicon公司及其Maverick 2处理器 - NextSilicon是一家致力于计算机体系结构创新的公司,其策略与主流不同,公司内部拥有众多聪明人才 [2] - Maverick 2处理器是该公司最新推出的产品,其前身是Maverick 1,公司从中吸取了经验并优化了开销 [15] - 公司选择高性能计算作为首要目标市场,该市场规模约为几十亿美元,远小于数万亿美元规模的人工智能市场,但选择HPC是出于战略考虑,旨在与最成熟的客户和合作伙伴共同推动技术成熟 [16][17] - 公司已与桑迪亚国家实验室等顶级计算中心合作,以获得切实可行的反馈并验证技术 [17] 数据流架构的技术原理 - 传统CPU和GPU基于已有八十年历史的冯·诺依曼架构,其核心需要将程序的中间表示图序列化为指令流,然后在芯片上重构依赖关系图以进行乱序执行,这个过程存在开销 [5][6] - NextSilicon的架构核心思想是绕过指令流,直接使用编译器生成的中间表示图,并制造硬件来直接执行这个图,从而消除指令提取、解码、重排序等环节的开销 [5][7][12] - 该架构通过将计算图流水线化,使得大量线程和迭代可以在图的不同阶段同时执行,从而实现每个周期执行整个循环,而非传统CPU每周期执行少数几条指令 [9] - 架构中没有指令提取单元、指令缓存、乱序执行引擎或指令重排序缓冲区 [12] 内存系统的创新与优势 - 架构将内存访问分散到芯片各处,每个内存管理单元只需处理少量内存访问,相比于需要处理整个程序所有内存访问的CPU MMU,其优化潜力更大 [10] - 该架构可以同时产生远高于CPU和GPU的未完成内存访问请求数量,高出一个数量级,从而能更充分地利用HBM内存带宽 [11] - 公司通过收集运行时遥测数据并动态调整内存分配来解决伪共享等问题,而非在编译时处理 [11] - 在STREAM基准测试中,该架构能够充分利用HBM带宽;在GUPS随机内存访问测试中,其性能数据在其他任何平台上都是前所未闻的,即使缓存完全失效也能充分利用HBM内存 [18] - 该架构计算性能极高,能够将通常受计算限制的工作负载转化为受内存限制的工作负载,并使其性能达到内存带宽的极限 [18] 软件生态与编程模型 - 公司的明确目标是无需任何代码更改即可运行现有程序 [19] - 公司提供性能分析工具,可以识别性能瓶颈并推荐源代码更改,这些更改通常也适用于提升在其他平台上的性能 [19] - 该架构不支持自动并行化,开发者仍需在源代码中明确表达并行性,可以使用OpenMP、Kokkos、CUDA等模型编写并行代码 [20][21] - 公司宣传“自带代码”模式,并探讨了通过HIP等工具支持CUDA代码的可能性,以应对所谓的“CUDA护城河” [21][22] 性能表现与竞争优势 - 公司通过分析高性能计算常用内核,找到了一种适用于多种场景的硬件配置组合,能够以极高的性能满负荷运行各种应用程序 [13] - 其性能目标不仅是领先竞争对手几个百分点,而是领先一个数量级 [13] - 公司可以生成多个硬件配置,并在应用程序运行时以微秒级甚至纳秒级的速度动态重新配置,以高效应对包含数百个不同内核的复杂程序 [14][15] - 与需要同时运行GPU和HPC加速器的系统相比,该芯片在HPC+AI融合工作负载市场拥有非常大的潜力 [23][24] 未来发展方向 - 数据流架构本身比CPU或GPU更高效,但公司目前专注于HPC市场,并研究如何利用现有芯片实现人工智能应用 [22][23] - 公司以高性能计算为核心,保持对FP64精度的支持,以应对HPC+AI工作负载 [23] - 公司采用芯片组架构,着眼于未来通过提升芯片间连接性来扩展工作负载,例如将庞大的AI模型分片到不同芯片上运行 [24][25] - 在多芯片应用中,公司使用类似GPUDirect的技术,通过Infiniband RDMA进行MPI操作,使加速器能直接驱动网卡而无需CPU参与 [25]
英伟达为何斥资200亿美元收购Groq
半导体行业观察· 2026-01-01 09:26
文章核心观点 - 英伟达以200亿美元获得Groq的知识产权非独家授权并吸纳其核心团队,实质上是为获取其创新的数据流架构技术,以应对未来AI芯片性能提升的瓶颈,并强化其在推理市场的产品布局 [1][2][10] 交易结构与实质 - 英伟达支付200亿美元,获得Groq语言处理单元及配套软件库等知识产权的非独家授权,Groq公司本身保持独立运营 [2] - 交易后,Groq首席执行官Jonathan Ross、总裁Sunny Madra及大部分工程人才加入英伟达,使Groq作为独立公司的长期生存能力存疑 [2] - 该交易结构被设计为授权而非收购,可能旨在规避监管审查,但其效果等同于收购并消除潜在竞争对手 [2] 关于SRAM与内存架构的探讨 - 一种猜测认为英伟达看中Groq LPU使用的SRAM,其速度比当前GPU使用的HBM3e快10到80倍,有助于应对内存短缺危机 [3] - Groq的LPU在Llama 3.3 70B测试中生成速度达350 tok/s,在gpt-oss 120B混合专家模型中可达465 tok/s [3] - 但SRAM容量小、空间利用率低,Groq单个LPU仅230 MB SRAM,运行Llama 70B模型需将574个LPU互连,而单个HBM3e堆栈容量达36 GB [4] - SRAM本身并非稀有技术,英伟达若想采用SRAM无需收购Groq,因此该猜测可能不成立 [4] 核心动机:数据流架构 - 英伟达收购的核心动机可能是Groq的“流水线架构”或可编程数据流设计,旨在加速推理中的线性代数运算 [5] - 数据流架构在处理数据时让其流经芯片,而非传统的冯·诺依曼架构的加载-存储操作,能消除GPU中内存或计算瓶颈 [6] - 该架构允许多个LPU协同工作,理论上能在相同功耗下实现更好的实际性能,且不限于SRAM,也可基于HBM或GDDR构建 [7] - 数据流架构实现难度大,但Groq已成功应用于推理,为英伟达提供了提升芯片性能的新技术路径 [7][8] 对英伟达产品战略的意义 - 英伟达现有“推理优化”芯片与主流芯片差异不大,而Groq提供了专为推理优化的计算架构 [8] - 英伟达计划2026年推出的Rubin系列芯片采用分散式架构,Groq的技术可能有助于优化推理流程中的预填充或解码阶段 [9] - Groq的LPU因其SRAM容量限制,不适合作为主要解码加速器,但可能适用于参数规模较小的推测性解码草稿模型,以提升系统性能 [9] - 收购有助于英伟达销售更多芯片和配件,且200亿美元对其而言是可承受的数额,其上季度运营现金流达230亿美元 [10] 对其他猜测的否定 - 关于交易能为英伟达开放三星等额外代工厂产能的猜测站不住脚,因英伟达此前已委托三星代工,且产能转移本身不依赖此交易 [11] - 英伟达可能不会对Groq当前一代LPU采取立即行动,此次交易更可能是为长远技术布局 [12]
理想CTO谢炎在云栖大会分享理想自动驾驶芯片设计思路
理想TOP2· 2025-09-27 16:58
自动驾驶算法演进 - 自动驾驶算法发展分为三个阶段:规则算法阶段、端到端(E2E)加视觉语言模型(VLM)阶段、视觉语言动作模型(VLA)加强化学习(RL)阶段 [4][5] - E2E加VLM技术使自动驾驶行为更接近人类驾驶体感 通过模仿学习实现加速、减速、转弯等操作的优化 [5] - VLA+RL结构更简单 主体为语言模型(L) 视觉信号编码后输入L学习 最终通过diffusion生成轨迹 [5] 语言模型在自动驾驶中的必要性 - 技术原因:语言是人类泛化能力的基础 语言模型提供长链推理能力 解决最后5%-10%的极端场景(corner case)问题 [6][7] - 非技术原因:语言模型使自动驾驶系统具备人类世界观和价值观 实现更自然的驾驶行为交互 [8] - 语言模型scaling law要求车端算力超线性增长 从2025年开始算力需求可能从400Tops跃升至2500Tops [9] 计算架构演进与挑战 - 从CPU到GPU再到GPGPU 均遵循冯诺依曼架构 以计算为一等公民、数据为第二等公民 [11][12] - AI时代计算算子减少但数据处理复杂度增加 需要转向数据流架构 让程序更关注数据而非计算 [12] - GPGPU存在共享内存压力问题 高并行度下内存带宽需求急剧增加(如HBM) [11] 数据流架构历史发展 - 数据流架构先驱为MIT的Jack B Dennis和Arvind 提出数据驱动执行(Data driving execution)概念 [13] - 关键发展包括:静态数据流图(不支持循环)、tag token标记、I-structure内存模型(类似Java对象不可更改特性) [13] - 1990-2000年高光荣教授提出Threaded Dataflow Architecture 将计算粒度放大到thread级别 并开发RC编程语言 [14] - 2000-2015年应用于DSP领域 形成Codelet计算模型、COStream编程模型和配套memory model的完整体系 [14][15] 理想汽车自研计算架构实践 - 车端计算架构核心为NPU而非SOC NPU采用同构重合架构与Mesh Bus互连 独创CCB(Central Control Computing Block)处理非张量计算 [17] - 架构提供Ring Bus广播功能 为国内独家设计的AI推理架构 [17] - 与行业最佳推理芯片相比:同等晶体管消耗下CNN性能达4.4倍 transformer base模型性能达4-6倍 LlaMA2 7B模型性能达2-3倍 [2][18] - 编译器开发是主要挑战 涉及编程模型和编译架构的协同设计 [18] 算力需求趋势 - 语言模型应用推动车端算力需求指数级增长 2025年后算力规划从400Tops跃升至2500Tops(约6倍增长) [9] - 算力增长主要驱动因素为语言模型的长链推理需求 而非纯视觉处理需求 [9]
聚焦“新算力”,清微智能新架构助力AI科技“换道超车”
经济网· 2025-09-18 17:15
文章核心观点 - 全球AI芯片行业正经历架构迭代,数据流架构成为新兴技术路径,有望突破传统GPU瓶颈 [1][2] - 清微智能作为国内领先企业,通过数据流可重构芯片技术实现“换道超车”,其产品已实现规模化落地 [1][2] - 产业资本和政策支持加速“国产新算力”发展,市场风向显示行业向数据流架构转变的关键信号 [3] 海外AI芯片市场动态 - 2023年全球独角兽榜单中,芯片公司SambaNova估值5年内飙升至50亿美元,Groq获6亿美元融资后估值翻倍至60亿美元 [1] - 海外初创或后发AI芯片公司大多采用新兴的数据流架构技术,而非传统GPU架构 [1] - 芯片架构存在“类摩尔定律”,约20年一迭代,当前正从GPU架构向新一代架构转变 [1] 数据流架构技术定位 - 数据流芯片被行业称为“新算力”或“新GPU”,国际半导体路线图将其定义为新一代芯片架构 [2] - 2017年计算机图灵奖获得者大卫·帕特森认为,计算机架构领域将迎来新的黄金十年 [2] - 该技术从原理上突破传统GPU架构瓶颈,不依赖先进存储和芯片制程,性价比显著提升 [2] 清微智能技术与产品 - 公司源于清华大学,具有近20年技术积累,在全球领先完成数据流可重构芯片技术的工程化和量产落地 [1] - 选择“换道超车”技术路线,旨在实现“高阶国产替代”,不依赖传统技术路径 [2] - 首款“新算力”芯片“TX81”推出半年内,即在全国多地落地千卡智算中心,累计订单超过20000枚 [2] 行业支持与市场信号 - 各级投资机构如大基金投资、国开基金纷纷入场投资,看到新算力的价值 [3] - ChatGPT宣布转向数据流架构,DeepSeek3.1宣布支持包括清微智能在内的下一代国产芯片 [3] - 新技术规模化落地需要充足的研发时间、技术迭代、资本注入及政策扶持 [3]
理想自动驾驶芯片最核心的是数据流架构与软硬件协同设计
理想TOP2· 2025-09-05 12:56
自研芯片技术架构 - 理想汽车自研芯片采用数据流架构 计算由数据驱动而非指令驱动 实现更高并行度 更适合大型神经网络[2][5][6] - 芯片集成大量MAC乘加单元 采用软硬件协同设计 将芯片 编译器 运行时系统和操作系统垂直整合 深度优化VLA结构性能[2][3][6] - 与市场顶尖芯片相比 运行大语言模型性能达2倍 运行视觉模型性能达3倍[5][8] 芯片开发进展 - 芯片于2025年初成功流片并返回 目前正在进行车辆测试 预计2026年部署在旗舰车型并交付用户[5][8] - 从项目立案到交付上车周期为三年 2023年左右开始设计 2024年下半年确定VLA架构搭建思路[1][2] VLA架构与推理优化 - VLA在车端芯片实现实时推理是巨大挑战 需通过小词表 投机推理和创新性并行解码方法提升效率[3][4] - 针对语言逻辑推理采用因果注意力机制逐字输出 针对action token采用双向注意力机制一次性输出 实现超过10赫兹推理速度[4] - 自动驾驶模型需输入几秒钟视频和各种信息 与TPU适合处理大批量输入的特性高度契合[3] 行业技术对比 - NPU专为神经网络计算设计 资源集中于矩阵乘法与加法运算 相比GPU通用性更低但效率更高[2] - TPU是谷歌专为TensorFlow定制的NPU 采用脉动阵列架构 数据在计算单元间流动 减少内存访问次数并提升数据复用率[2] - Thor芯片集成CPU集群 GPU集群和NPU阵列 在通用性方面更具优势[3]