Workflow
缓存
icon
搜索文档
基于PCIe XDMA 的高速数据传输系统
傅里叶的猫· 2025-07-05 19:41
高帧率高分辨率相机的FPGA视频传输方案设计 核心观点 - 设计基于CXP和PCIe接口的高速数据传输系统,满足高带宽、多通道相机接入及长时间稳定传输需求 [1][5][22] - 采用DDR4/UltraRam缓存结合XDMA多通道分块控制机制,优化读写顺序以避免数据跨块 [6][8][19] - 方案支持灵活扩展,可适配4通道相机、CXP-12 8lane或100G光口相机等极限场景 [14][19][21] 技术架构 带宽与接口配置 - PCIe Gen3x8带宽达6.5GB/s,Gen3x16达12GB/s,满足CXP电口12.5G 4lane/8lane或光口40G/100G需求 [1][5] - DDR4(64bit×2400M)实测极限读写带宽约16GB/s,UltraRam在ZU19EG芯片上实现PCIe Gen3x16读带宽11-12GB/s [8][11] 多通道分块控制 - 采用Multi_ch_dma_wr模块实现1-4通道分块缓存,按translate size(如4M)自动分配块 [6][14] - 读写逻辑交替执行:通道0按0→2→4→8顺序读,通道1按1→3→5→7顺序读,确保不跨块 [6] - 支持动态调整:写速率快时写指针追读指针,读速率快时反之,保证实时性 [8] 扩展性与应用场景 - 多设备接入时通过软件拆分数据块并拼接画面,支持2/4通道传输 [19][21] - 适配CXP-12 8lane或100G相机需双通道DDR4缓存及软硬件协同修改 [19] - 方案通用性强,可扩展至ADC/DAC等高速采集设备 [22] 系统验证 - 已在Win10/Ubuntu/CentOS系统下实现长时间稳定运行,无丢数或错报 [22] - 需驱动与软件配合,通过寄存器定义及中断流程实现完整交互逻辑 [22] 行业资源 - 提供GPU服务器资源(A100/H100/H200/B200等),支持半导体与AI领域应用 [23]
3个中国程序员 vs 3个美国程序员,不得不承认,差距太大了!
猿大侠· 2025-06-27 22:57
以下文章来源于码农翻身 ,作者liuxin 码农翻身 . 一个技术和职场的宝藏博主 大概是2009年,我和两个好哥们聊天,觉得智能手机可能是风口,商量着要弄一个照片分享网站。 用户可以用手机把随手拍的照片放到网上分享,名称都起好了,叫 InstantPost 。 可是我们的执行力太差了,聚了两次,做了一点儿技术验证,就没有下文了。 过了几年,我看到美国一个叫Instagram的火了,不由地一拍大腿:卧槽!这不就是我们当年要做的事儿吗?! 后来我看到Instagram初期的故事,他们也是三个程序员, 从2010年10月到2011年12月,在一年多的时间内,就把用户数量从0增长到了1400 万! 看完他们的架构设计,我就释然了,抛开执行力,在2009年那个时间点,我们确实不行。 负载均衡 Instagram制定的架构指导准则是: 所以早期的Instagram跑在云上,使用 EC2 和 Ubuntu Linux 11.04 。 接下来,站在一个用户会话(Session)的角度,来看看Instagram的处理过程。 1.保持简单 2.不要重新发明轮子 3.尽可能使用经过验证的可靠技术 前端 Session:用户打开了 ...
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 12:50
大模型推理优化技术R-KV 核心观点 - 推出R-KV技术解决大模型推理冗余问题 通过实时token排序和动态压缩 实现显存降低90% 吞吐提升6.6倍 准确率保持100% [1][2][3] - 技术突破在于边生成边压缩 结合重要性评分和冗余过滤 保留关键信息同时去除重复内容 [9][15] - 在数学基准测试中表现优异 如R1-Llama-8B模型在MATH-500准确率达34% 超过完整KV缓存效果 [17][19] 技术原理 - 采用三步走策略:冗余识别+重要性评估+动态淘汰 解决链式思考导致的推理长度膨胀问题 [5] - 通过多头注意力评估token贡献度 计算key向量余弦相似度识别冗余 按优先级调度KV配额 [9] - 可视化对比显示 R-KV保留跨段落关键信息如题目数值和最终答案 SnapKV则误删关键步骤 [13][14][15] 性能表现 - 显存节省显著:固定1024预算时节省87.5% 比例10%预算时节省90% [20] - 吞吐量提升:8K序列下最大批处理479时达3809 tok/s 16K序列下最大批处理402时达3188 tok/s [20] - 计算开销可控 注意力成本降低抵消评分消耗 长序列场景优势更明显 [20][21] 应用场景 - 边端设备长链推理 使消费级GPU和手机NPU可运行大模型 [22] - 支持多轮Agent复杂流程 如反思-重写-自评 突破显存限制 [22] - 即插即用特性 可加速强化学习采样过程 无需额外训练 [22] 基准测试数据 - DeepSeek-R1-Llama-8B处理AIME数学题时 原生生成3.2万token 显存占用达4.1GB [6] - R1-Qwen-14B在AIME24测试准确率25% 较基线提升显著 [19] - 16K序列下采用10%比例预算 实现90%显存节省同时维持271最大批处理量 [20]
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 12:49
R-KV团队 投稿 量子位 | 公众号 QbitAI 推理大模型虽好,但一个简单的算数问题能推理整整三页,还都是重复的"废话",找不到重点…… 一种可以把大模型的"碎碎念"转化为可控记忆条目的高效压缩方法,出现了! R-KV开源登场: 显存↓90%、吞吐×6.6、准确率=100% 。 它可以通过实时对token进行排序,兼顾重要性和非冗余性,仅保留信息丰富且多样化的token,从而解决大模型推理时的冗余问题。 让"长时间推理"不再是奢侈品。 项目详情可见文末链接。 R-KV三步走:冗余识别+重要性评估+动态淘汰 链式思考(Chain-of-Thought,CoT)让LLM解题思路清晰可见,却也让推理长度指数级膨胀。 以DeepSeek-R1-Llama-8B为例,一道AIME数学题就能写出 3.2万 个Token:模型权重15.5GB,KV缓存再吃 4.1GB ——显存瞬间见底。 可视化:R-KV vs. SnapKV 现有KV压缩方法(SnapKV、StreamingLLM、H2O等)主要针对 长输入 设计,可一旦模型在输出端开始"碎碎念",相似句子之间互相打高 分注意力,反而让"按注意力删低分"策略失灵: ...
【七彩虹教育】架构介绍
搜狐财经· 2025-06-04 03:05
微服务架构技术栈 - 后端采用SpringCloud+SpringBoot搭建微服务框架,前端基于微信小程序商城 [1] - 核心组件包括:服务网关Zuul、服务注册发现Eureka+Ribbon、服务框架Spring MVC/Boot、服务容错Hystrix [1] - 分布式技术栈涵盖:Redis分布式锁、Feign服务调用、Kafka消息队列、私有云盘文件服务 [1] - 辅助组件包含:UEditor富文本、xxl-job定时任务、Apollo配置中心 [1] 秒杀系统设计 - 秒杀场景特点为瞬时高并发流量(远大于库存量)、简单下单业务流程 [1] - 架构设计四大理念:限流(控制后端流量)、削峰(通过缓存/消息中间件)、异步处理(提升并发)、内存缓存(减少数据库I/O瓶颈) [1] - 系统需具备弹性扩展能力以应对流量波动 [1] 电商技术架构 - 基础设施包含:ZK/Eureka注册中心、MySQL集群(读写分离)、Redis集群(缓存/热点数据/分布式锁) [3] - 流量处理采用Nginx+Keepalived负载均衡、CDN加速、Gateway网关 [3] - 数据服务层部署ES集群(全文检索)、Kafka消息中间件(业务解耦) [3] - 服务调用通过Dubbo/Feign实现RPC远程通信 [3]
5499的iPhone 16 Pro确实划算,但我劝你别冲动
虎嗅APP· 2025-05-17 18:33
618促销与iPhone 16 Pro降价 - iPhone 16 Pro 128GB在某平台叠加国补后售价5499元,较官方定价7999元降低2500元 [3] - 降价后全配色迅速售罄,下单后发货时间延迟至7天后 [4] - 2025年Q1苹果中国市场出货量980万部,同比下降9%,市场份额从17.4%降至13.7% [39] 128GB存储容量问题 - 用户反馈显示存储空间接近满时会出现打字延迟、应用启动慢等卡顿现象 [7][11] - iOS系统需要15%-25%空闲空间维持SLC缓存机制,128GB机型难以满足 [23] - 典型用户场景中微信等应用占用超60GB,照片视频40GB,系统预留20GB,128GB机型空间紧张 [24] 存储技术原理分析 - iPhone采用TLC/QLC闪存配合SLC模拟缓存机制,写入速度最高3000MB/s [19] - SLC缓存区域随剩余空间动态变化,小容量机型更易出现缓存不足 [22] - 128GB闪存性能测试显示写入速度870MB/s,显著低于256GB版本的1446MB/s [35] 行业趋势与产品策略 - 2024年Q2数据显示256GB存储已成为50%用户首选,512GB占比30.2% [38] - 国产手机2000元以上机型普遍采用256GB起步配置 [38] - 苹果通过降价策略应对产品力下滑,但128GB版本在续航、影像等核心功能表现不足 [40]
5499的 iPhone 16 Pro 确实划算,但我劝你别冲动
36氪· 2025-05-16 17:12
产品降价与市场反应 - iPhone 16 Pro 128GB在某东平台叠加国补后售价5499元,较官方定价7999元降幅达31%[1] - 降价策略导致全配色版本售罄,预定发货时间延迟至7天后[3] - 2025年Q1苹果中国出货量同比下降9%至980万台,市场份额降至13.7%,在前五大厂商中唯一负增长[31][32] 存储容量技术瓶颈 - 128GB版本实际可用空间不足,需预留15%-25%空间维持SLC缓存机制,但微信等应用占用超60GB+系统40GB后剩余空间不足5GB[16] - TLC闪存写入速度仅500MB/s,128GB版本实测写入速度870MB/s,显著低于256GB版本的1446MB/s[22][23][26] - 存储满载时触发写放大效应,128GB版本闪存寿命理论值较256GB缩短30%-50%[20][22] 行业趋势与竞品对比 - 2024年Q2中国智能手机市场256GB容量占比超50%,512GB占比30.2%,128GB已成千元机配置[27][29] - 安卓阵营2000元以上机型普遍采用256GB起步,苹果在iPhone 15 Pro Max已取消128GB版本[29] - 小米2025年Q1出货量同比增39.9%至1330万台,华为增10%至1290万台,均超越苹果[31] 用户体验问题 - 存储接近满载时出现打字延迟、应用启动慢等问题,Reddit相关吐槽帖获900+用户附议[4][5][6] - SLC缓存机制失效导致性能下降,128GB版本随机写入延迟达0.071ms,显著高于大容量机型[14][25] - 主流游戏安装包超10GB,应用安装包普遍达500MB-1GB,128GB容量难以满足需求[27]
苹果彻底改变了这颗芯片
半导体行业观察· 2025-04-24 08:55
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容 编译自 appleinsider ,谢谢。 自蒂姆·库克发布Apple Silicon芯片以来,即将迎来五周年纪念日。其实,关于它的传闻也已持续 了十多年。以下是整个故事的起源、发布过程以及未来的展望。 在多年应对英特尔芯片限制之后,苹果在 2020 年WWDC期间宣布转向 Apple Silicon。放弃常用 架构的努力将使苹果从同年晚些时候开始转向为其Mac和 MacBook 产品线设计新的内部芯片系 列。 从英特尔到 Apple Silicon 的两年过渡开启了公司乃至整个行业的重大变革。除了宣称高效设计和 高性能之外,这款芯片的发布也符合预期。Apple Silicon 还将其iPhone芯片中最具前瞻性的功能 引入了桌面平台。在其 M 系列芯片中添加神经引擎是一项突破性举措,并迫使其他计算行业考虑 在处理器选择上采取类似的举措。 该芯片从根本上遵循了内置 GPU 处理器的基本理念,这在处理领域过去和现在都是一种相当传统 的概念。神经引擎无疑提升了机器学习任务的性能,但另一个与常规做法不同的变化也起到了一定 作用。 苹果决定使用统一内存,而不是为 ...
如何选CPU?一份指南!
半导体行业观察· 2025-04-07 09:04
时钟速度的局限性 - 时钟速度仅代表CPU每秒完成的周期数,而非实际指令执行能力,不同品牌或代际的CPU时钟速度直接比较意义有限[1][3] - 现代CPU性能更依赖每时钟指令数(IPC)和架构优化,例如Zen 5的双提前分支预测器可提升执行效率[3] - 单核时代时钟速度决定性能,但多核普及后核心数量对多数应用的影响超过时钟频率[4] 核心性能评估维度 - 架构与连接性:新架构普遍更优,但需注意PCIe/USB支持差异,如Thunderbolt 4需英特尔Core Ultra 9 285K原生支持[6] - 核心配置:核心数量并非绝对标准,Ryzen 7 9800X3D的单一CCD设计使其游戏表现优于双CCD的Ryzen 9 9950X3D[7] - 缓存容量:大缓存减少内存访问延迟,AMD X3D系列通过额外缓存显著提升游戏性能[8] - 指令扩展:AVX-512等指令集可加速特定任务,如Zen 5支持原生512位AVX-512而英特尔未跟进[8] 实际应用场景适配 - 游戏性能更依赖缓存和8核以内优化,而视频编辑等任务需要更多核心而非大缓存[10] - 异构设计影响效率,如Core i9-14900K混合架构中效能核心性能显著低于主核心[7] - 标准化测试工具(如Geekbench)比单一规格更能反映实际性能差异[6][10] 规格与真实性能的差距 - 同一代产品规格可比性强(如Ryzen 5与Ryzen 7核心数差异),但跨代或跨品牌需结合评测数据[10] - 工作负载特性决定关键指标优先级,例如AI任务需关注指令集而非单纯核心数量[8][10]
无需训练让扩散模型提速2倍,上交大提出Token级缓存方案|ICLR‘25
量子位· 2025-02-28 13:19
文章核心观点 - Diffusion Transformer模型通过token粒度的缓存方法实现图像和视频生成模型上无需训练的两倍以上加速,上海交通大学等团队提出的Toca方法有效解决了Diffusion Transformers高计算成本问题,在多种模型上表现优异 [1][4] 背景 - 扩散模型在图像、视频生成等任务中性能出色,Diffusion Transformers扩展参数量和计算规模推动视觉生成领域发展,但面临高计算成本、推理速度慢的挑战 [5] - 研究者提出减少采样步数和加速去噪网络模型等加速方法,基于特征缓存的方法因无损加速、无需训练受工业界关注 [5] - 不同计算层及同层不同Token对缓存误差适应性不同,有必要将模型加速粒度细化到token级并筛选重要token [5] 核心贡献 - ToCa首次在DiT加速中引入token级缓存复用策略,并从误差积累与传播角度分析特征缓存方法 [7] - ToCa提出4种适用于不同情形的token selection策略,应用于多种最新模型实验证明其更优秀 [7] 研究动机 - 不同token特征缓存引入误差值及对模型输出影响差异大,需考虑token级特征缓存 - 复用策略 [8] 方法 计算流程 - Cache初始化:推理完整时间步,将各层特征放入cache [9] - 重要性得分计算:计算各token重要性得分,标记最低部分token为cache状态 [9] - 部分计算:对传入token执行正常计算得到输出 [10] - Cache更新:调出cache中token输出,更新计算得到的新输出,循环长度2 - 4个时间步,还设计了随层深度上升而衰减的计算比例 [11] 重要性得分计算 - ToCa基于4个不同方面计算重要性分数,实际应用中加权求和给出总得分 [13] 实验结果 图像生成模型 - ToCa在PixArt - alpha上相比其他加速方法和无加速原图对齐效果更佳,图 - 文对齐能力更好,FID - 30k和CLIP Score表现远超其他方法 [15][16] - ToCa在FLUX模型上生成质量佳,和原图基本无差异,在文字生成任务细节有差异,后续将研究,在FLUX上1.5倍加速,数值指标基本不变优于其他方法 [17][18] - ToCa在基础模型DiT上结果证明其优越性 [19] 视频生成模型 - 团队制作网页展示OpenSora上加速效果,将视频生成结果部分抽帧浏览 [20][21] - ToCa在VBench测试中远优于其他方法,取得2.36倍无损加速,在加速效果和生成质量上最优,大部分指标和原模型得分几乎相同 [21][22] 总结 - ToCa是首次从Token级实现扩散模型加速的方法,适配性强,在多种任务上表现佳,基于特征缓存的扩散模型加速方法值得进一步探索 [23]