Workflow
开源项目
icon
搜索文档
AI Infra 工程师们如何应对大模型流水线里的“暗涌”?
AI前线· 2025-06-26 13:44
大模型基础设施工程挑战 - 训练任务中断是万卡集群的普遍现象,GPU错误率导致每天必然出现不同故障,同步训练特性使单卡故障可导致整个训练停滞[4] - 硬件故障定位困难,早期依赖人工二分法排查准确率低,误判会导致任务反复重启失败,涉及网络系统、交换机、光模块等多环节问题[4][5] - 损失函数异常飙升成因复杂,需算法团队与Infra团队紧密协作排查硬件差异、算法缺陷或代码错误[7] 推理部署核心问题 - 运行时错误和性能问题是用户最高频反馈,前者涉及显存分配溢出等配置错误,后者常因环境差异导致测试结果无法复现[6] - KV缓存内存分配不足会降低推理批次规模,预填充到解码各环节异常均可能引发延迟偏高或吞吐量下降[7] - 性能剖析工具如PyTorch Profiler和GPU监控系统对定位CUDA算子执行问题至关重要,人工排查效率低下[12] 工程流水线管理难点 - 并行策略兼容性挑战显著,如Multi Token Prediction与数据并行注意力机制存在代码耦合问题,需经历重构阵痛期[8] - 新特性与旧算法冲突时采用分版本独立启用策略,通过持续迭代逐步解决分支冲突,仅靠CI流水线保障不足[9] - 研发环节受资源限制,CI测试无法模拟万卡规模问题,功能更新导致MFU下降时需依赖二分法回退测试定位[10] 成本优化关键技术路径 - MoE架构专家并行可减少单卡权重负载,释放显存用于KV缓存,模型设计与部署需联合规划[14] - 推理缓存策略优化涉及CPU内存KV缓存驱逐机制,需针对Agent工作流等场景定制调度算法[15] - GPU利用率提升依赖计算通信重叠技术,如双批次重叠策略可掩盖通信开销[16] - 大型机柜整合方案通过NVLink拉远技术将跨节点通信带宽提升近节点内水平,显著改善MFU[18] 开源项目运营挑战 - 社区运营需构建用户反馈与开发者贡献的良性循环,超越代码能力成为项目持续进化核心[21] - 平衡公司工作与社区投入依赖开源热情,技术监督委员会运营和全球影响力建设需从零起步[20] - 硬件厂商锁定效应构成壁垒,如昇腾开源项目初期被认知为仅支持特定硬件[21] 异构计算发展趋势 - 预填充与解码阶段硬件需求分化推动异构部署,前者需要高算力芯片后者侧重显存管理[24] - GPU虚拟化依赖厂商支持,英伟达MIG基于SR-IOV技术实现设备级虚拟化资源分配[23] - 智能调度混部技术成熟使CPU/GPU混合部署成为基础设施演进方向[25]
开源项目 Alist 被卖,疑上传隐私,用户和数据原来也是交易的一部分~
菜鸟教程· 2025-06-17 20:25
这几天网上有人在传知名开源网盘聚合工具 Alist 被曝疑似已经被某公司收购,中文文档被大幅修改为商业化内容(新增 QQ 群、VIP 技术支持 等): 新维护者提交的 PR #8633被曝包含收集用户操作系统信息并上传至私有地址的代码,虽因舆论压力撤回,但网友担心开源项目会被投毒,提醒 大家谨慎使用: Alist 是一款功能强大的文件列表和 WebDAV 程序,支持多种存储方式,由 Gin 和 Solidjs 提供支持。 Alist 是一个开源项目,旨在为用户提供了一个简单而强大的方式来管理和访问各种云存储服务中的文件,允许用户将多个不同的存储服务挂载到 一个统一的界面下,方便进行文件的浏览、搜索、下载等操作。 Alist 出售引发安全争议的事件,之所以引起如此激烈的讨论,恰恰也证明了用户对它的 热爱和依赖。。。 49k+ star 数也说明了它的热度: 后面应该有很多云盘会撤销 Alist 的 API 授权,免的引发的数据泄露风险,毕竟对我们个人用户来说 数据隐私泄露是不能接受的。 目前也有开发者创建了分支项目 OpenList,移除所有不可信链接及私有 API,并全面审计近半年代码(确认暂未发现恶意代码) ...
GitHub汉化神器!英语渣解锁全中文界面!再也不用担心看不懂Pull Request~
菜鸟教程· 2025-05-27 20:20
GitHub 本身没有中文界面,但 github-chinese 通过脚本对 GitHub 网页进行汉化 ,覆盖 GitHub 网站的 主要界面元素 把 GitHub 的菜单、按 钮、标题翻译成中文, 再也不用担心看不懂 Pull Request~ 做开发的应该都知道 Github 吧?各种开源项目直接 clone 过来使用~ 听说线上面试如果不知道,会被 pass~ GitHub 作为全球最大 "同性交友平台",成立于 2008 年,2018 年被微软收购。 GitHub 好用是真,毕竟很多项目可以拿来直接用,但满屏英文也很容易劝退英文不好的初学者! 今天就给 英语渣介绍一个 GitHub 的汉化项目 -- github-chinese 。 github-chinese 目前收获了11.5k+ Star,看来喜欢中文界面的还挺多: 如何使用 github-chinese? 1、安装浏览器扩展 Tampermonkey 首先,我们需要在浏览器中 安装油猴插件(Tampermonkey),Chrome 浏览器扩展地址: https://chromewebstore.google.com/detail/%E7%A ...
curl 项目创始人被 AI“逼疯”,怒斥垃圾报告堪比 DDoS 攻击!网友:但老板们认为 AI 无所不能
AI前线· 2025-05-19 17:11
作者|冬梅、核子可乐 近日,curl 项目(一款用于通过 URL 传输数据的命令行工具和库)创始人 Daniel Stenberg 在领英发帖称,已经受够了由 AI 生成的大量"垃圾"漏洞报 告,因此近期引入额外复选框,用以过滤此类平白浪费维护人员时间的低效提交内容。 curl 创始人被 AI 垃圾"逼疯了" Stenberg 表示,项目维护人员需要花费大量时间对每一份通过 HackerOne 提交的 AI 辅助漏洞报告进行分类,但往往发现这些报告的内容一无可取, 在效果上约等于针对项目发起的 DDoS 攻击。 Stenberg 在 LinkedIn 上引用了近期一份"令他忍无可忍"的报告,并表示"到此为止吧,我受够了。我要坚决制止这种疯狂行为。" 在 HackerOne 上提交 curl 相关安全报告有了一些新规定,例如所有通过 HackerOne 提交 Curl 安全报告的研究人员,现在必须回答以下问题: "您是否使用 AI 来发现该漏洞或生成此报告?" 如果选择"是",bug 报告者将会面临一连串后续问题,包括要求他们提供相关证据以证明该 bug 真实存在,而后 curl 团队才会花时间加以验证。 St ...
大家开始学做饭了?Github 上的程序员做饭指南 HowToCook 热度上来了
菜鸟教程· 2025-04-17 20:06
OSS Insight 上看到程序员在家做饭指南排到了趋势第一,是不是大家现在开始在家自己做饭了? 看这 star 的走势,应该是隔离的时候整出来的: 做菜术语不友好,所以作者在隔离期间整了一个做菜"开发文档",要求描述要准确: | Rank | Repository | Stars | Forks | | --- | --- | --- | --- | | | Anduin2017/HowToCook [ 程序员在家做饭方法指南。 | | | | | Programmer's guide about how to | | | | #1 | cook at home (Simplified Chinese | 1878 | 133 | | | only). | | | | | · Dockerfile | | | | | virattt/ai-hedge-fund [ | | | | #2 | An Al Hedge Fund Team | 1184 | 150 | | | · Python | | | | #3 | droidrun/droidrun ሬ | 812 | 77 | | | · Python ...