Workflow
核开发
icon
搜索文档
中朝贸易额上半年增长30%
日经中文网· 2025-07-23 15:26
在横跨中国和朝鲜边境的铁桥上通行的卡车 在美国和韩国采取与朝鲜对话路线的背景下,中方意在以中朝贸易为杠杆,维持对地区局势的主 导权。 中国海关总署7月18日公布的数据显示,2025年上半年中国对朝鲜出口额同比增长33%,达10亿 5048万美元,来自朝鲜的进口额同比增长20%,达2亿1027万美元。 中国方面的贸易相关人士表示,建筑的内部装饰材料的出口表现强劲。从中国海关总署公布的1 ~5月各品类的出口金额来看,壁纸类增至2024年的2.3倍,塑料家具也增至2倍。 据悉,朝鲜在2024年夏季遭受洪水侵袭的北部地区重建了大量住宅,从2025年初开始正式开始内 部装修。6月下旬,可容纳2万人的海滨度假村在朝鲜东部竣工。可能是应朝鲜的要求,中方允许 出口建筑用品,从而推动了贸易额的上升。 除贸易之外,中国还将扩大包括游客在内的人员往来。韩国联合通讯社7月16日报道称,朝鲜国 家观光总局运营的网站上登载的"国际列车时刻表"中,新增了连接朝鲜首都平壤和中国首都北京 的国际线路信息。 两国首都之间的旅客列车因新冠疫情影响而长期停运。如果恢复运行,将是5年半以来首次。连 接平壤和中国辽宁省丹东的线路也出现在该时间表上。 中 ...
无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了
量子位· 2025-07-11 14:16
核心观点 - 提出名为QuACK的SOL内存绑定内核库,完全用Python编写,无需CUDA C++代码,借助CuTe-DSL实现高效GPU内核开发[1] - 在带宽3TB/s的H100上,比PyTorch的torch.compile、Liger等深度优化库快33%-50%[2] - 通过优化内存密集型内核的细节处理,使其速度逼近"理论极限"[3] - 利用现代GPU的线程和内存层级结构,结合CuTe-DSL实现高效开发[14] 技术实现 内存密集型内核优化 - 重点优化内存密集型内核(如逐元素运算、归一化、损失函数计算),这类内核大部分时间耗在内存访问而非计算上[14] - 内存密集型内核的算术强度小,吞吐量由每秒传输字节数决定[14] - 逐元素激活操作适合完全并行处理,而softmax、RMSNorm等算子需要归约操作[15][16] GPU内存层级结构 - H100的CUDA执行分为线程、线程块、线程块集群和完整网格四个层级[22] - 每个层级对应不同的内存访问延迟和带宽,寄存器访问最快(100 TB/s),DRAM最慢(3.35 TB/s)[26] - 设计内核时需遵循内存层级,将大部分本地归约操作分配在较高层级,减少低层级传递[27] 硬件感知策略 - 加载和存储策略需优化以最大化HBM带宽利用率,实现内存合并访问[30][31] - 归约策略从线程级到集群级逐层进行,充分利用各层级带宽[39][42] - 集群归约是H100新特性,允许16个线程块通过分布式共享内存协同工作[57][59] 性能对比 - 在H100上测试,QuACK的DRAM吞吐量达3.01TB/s(峰值3.35TB/s的89.7%)[70] - 归约维度≥65k时,QuACK显著优于torch.compile(快近50%)和Liger[81] - Liger在输入规模从32k增至65k时,吞吐量从3.0 TB/s降至2.0 TB/s,而QuACK保持稳定[85] 应用前景 - CuTe-DSL兼具Python开发效率和CUDA C++性能,适合高效GPU内核开发[92] - 未来可能通过大语言模型自动生成高度优化的GPU内核[96] - 作者团队在FlashAttention、Mamba等工作中已有显著成果[105][106]
怼天怼地的 Linux 之父,被另一大佬怼了:你就是歌姬吧!
程序员的那些事· 2025-07-09 08:55
Linux内核开发冲突事件 - Linux创始人Linus Torvalds威胁将Bcachefs文件系统从内核移除 因与维护者Kent Overstreet存在开发理念分歧 [1] - 冲突导火索是Kent在6 16-rc3阶段提交了涉及1000+行代码的"journal-rewind"新功能补丁 违反rc阶段只修Bug的规则 [2] - Linus认为该行为破坏开发流程共识 Kent则坚称这是修复数据损坏隐患的必要改动 双方在邮件中激烈争执 [3][4] 技术争议焦点 - Kent开发的"journal-rewind"功能旨在解决Bcachefs文件系统的数据恢复问题 但被Linus认定为违规添加新特性 [2] - Kent强调文件系统缺陷可能导致用户数据永久丢失 与其他可重启恢复的内核模块存在本质区别 [4] - 尽管补丁被暂时合入 Linus明确表示可能在6 17合并窗口期间与Bcachefs分道扬镳 [5] 开发模式冲突 - Kent批评Linus在Pull Request阶段过度干预 希望减少合并时的争议 [4] - Linus认为维护者不应剥夺其对代码的质疑权 最终双方唯一共识是"we're done" [5] - 事件反映出开源社区中技术权威与子系统维护者之间的权限边界争议 [1][5]