小熊跑的快
搜索文档
DeepSeek 开源 TileLang 与 CUDA 算子:AI 底层国产替代的关键尝试
小熊跑的快· 2025-09-30 09:11
文章核心观点 - DeepSeek发布实验版本,包含DSA(DeepSeek Sparse Attention)长文本训练推理降本技术和开源TileLang与CUDA算子版本[1] - 开源TileLang与CUDA算子版本被视为推动AI底层技术栈“自主可控”与“生态破局”的关键尝试,其意义远超技术分享本身[2][11] 技术自主权突破 - 旨在打破NVIDIA CUDA生态在GPU算子开发领域的长期垄断,CUDA作为闭源平台主导了从底层指令集到上层算子库的标准[2] - 解决技术卡脖子风险,避免国内在新模型研发中受限于NVIDIA的接口规范和更新节奏,甚至可能因供应链限制无法使用高阶功能[2] - TileLang作为“跨平台原型层”,其高级语言特性可脱离CUDA依赖,让开发者快速验证算子逻辑并轻松适配国产GPU框架[4] - 保留CUDA版本作为“精度基线”,为国产平台提供对齐标准,通过精度对比快速验证国产硬件上算子实现的正确性[4] 国产硬件生态适配 - 针对国产GPU(如华为昇腾、壁仞BR100、寒武纪思元)虽硬件算力追赶但缺乏与CUDA兼容算子库的适配壁垒问题[3] - 解决国产GPU生态中“算子库不完善”的瓶颈,避免新模型所需的定制化算子在国产平台上缺失导致“有硬件用不了”的局面[5] - 通过“分层开发”降低门槛:研究阶段用TileLang快速迭代,无需掌握CUDA或国产平台底层开发细节[6] - 落地阶段向国产硬件迁移,基于TileLang的精度基线用国产平台底层语言实现高效版本,形成“硬件迭代-算子适配-模型落地”的正向循环[6] 开源生态协同构建 - 通过共享核心算子的双版本实现吸引社区参与,构建自主算子生态网络,单一企业或机构难以覆盖所有场景的算子需求[7][8] - 研究者可基于TileLang快速开发并开源新算子原型,这些原型可直接被国产硬件厂商或框架团队复用[8] - 国内GPU厂商或AI框架团队可基于TileLang精度基线将开源算子适配到自家平台,并反馈优化代码到社区,逐步形成覆盖主流国产硬件的“统一算子库”[8] 新模型研究国产路径 - 为国内大模型、多模态等前沿领域研究提供“国产替代路径”,避免因长期使用CUDA及配套闭源工具导致“优化黑箱”和功能限制[9][10] - 研究阶段用TileLang实现快速原型,避免CUDA版本兼容性、License限制等问题阻碍创新[10] - 落地阶段基于国产硬件的优化版本,确保新模型能在自主可控的算力平台上部署,实现从研究到应用的全链条国产化[10]
以前你干不过工商银行 现在你干不过黄金
小熊跑的快· 2025-09-29 12:40
黄金市场表现 - 黄金价格表现强劲,自2022年11月以来上涨超过45% [2] - 黄金价格在2024年3月突破每盎司2200美元,创下历史新高 [2] 银行股表现对比 - 工商银行等大型银行股表现不及黄金 [2] - 银行股在同期未能跑赢黄金的强劲上涨势头 [2]
英伟达约等于 ai央行
小熊跑的快· 2025-09-28 19:29
文章核心观点 - 英伟达通过大规模投资行为 正在成为人工智能领域的"央行" [1][2] - 公司的投资行为为其带来了超越商业范畴的巨大"软实力"和准政治色彩的影响力 [2] 英伟达的投资活动 - 公司向OpenAI投资1000亿美元 [1] - 公司与CoreWeave达成价值63亿美元的协议 为这家数据中心公司提供巨额担保 [2] - OpenAI CoreWeave 英伟达三方关系密切 [2] 投资带来的战略影响 - 大规模资金投入类似央行刺激经济的方式 [1][2] - 投资行为帮助公司缓和紧张的监管关系 例如在英国的投资获得首相站台 改善了因收购Arm失败造成的局面 [2]
ai应用-机器人更新
小熊跑的快· 2025-09-25 10:37
特斯拉Optimus人形机器人进展 - 特斯拉Optimus Gen3人形机器人计划于2025年第四季度启动首批量产,初期产能为5000台,并计划在2026年将产能提升至10万台,2027年冲刺50万台[1] - Gen3在机械结构上采用钛合金与碳纤维混合框架,使整机重量降至63公斤,较前代72公斤显著减轻,并通过关节模组液冷散热设计,将持续工作时长提升至8-10小时,支持10分钟快充技术[1] - 特斯拉在2025年第三季度调整AI训练策略,转向纯视频学习方案,利用Dojo超算集群将单台Gen3的模型迭代周期从Gen2的2周缩短至72小时,任务泛化能力较Gen2提升3倍[1] - 马斯克在2025年第三季度财报会议上强调,Optimus将成为特斯拉最具价值的产品,预计到2030年将贡献公司总营收的40%[2] 国内具身智能与机器人行业动态 - 阿里巴巴通过阿里云领投自变量机器人近10亿元融资,此前已投资逐际动力、星动纪元、宇树科技等公司,试图为AI大模型构建完整的人形机器人生态版图[3] - 国内白牌机器人厂商正尝试向行业纵深发展,专注于行业知识(Know-how)的垂直机器人应用,以期实现放量,这被视为国内机器人产业可能实现弯道超车的关键领域[7] - 在云栖大会上设立了具身智能分论坛,并有众多白牌厂商进行展示,反映出行业活跃度[3] 机器人板块市场表现 - 机器人指数最近半年的涨幅相对于AI其他板块(如通信板块上涨113%,电子半导体板块上涨63%)要小,显示出补涨需求[3] - 机器人ETF富国(159272)是跟踪国证机器人产业指数的产品,其投资广泛分布于人形机器人产业链核心领域,人形机器人主题权重占比达78%[5] - 该ETF于9月初首发规模达23亿元,最新规模为27亿元,显著高于冷门行业基金常见的10亿元级规模,反映出市场对人形机器人板块的舒适认知度[5] - 在特定交易日(09-24),该ETF成交额为1.21亿元,成交量为121.8万份,换手率为4.43%[6]
吴泳铭发言 解析阿里未来
小熊跑的快· 2025-09-24 21:58
AI发展阶段定义 - 公司首次系统阐述通往超级人工智能(ASI)的三阶段演进路线:第一阶段"智能涌现"AI通过学习海量人类知识具备泛化智能[3] 第二阶段"自主行动"AI掌握工具使用和编程能力以辅助人类[3][6] 第三阶段"自我迭代"AI通过连接物理世界实现自学习最终超越人类[3][8] - 当前行业处于第二阶段 AI通过Tool Use能力连接数字化工具完成真实世界任务 并借助Coding能力解决复杂问题[6][7] - 第三阶段需满足两个关键要素:AI连接真实世界全量原始数据[8][10] 以及实现Self-learning自主学习能力[11][12] 行业发展趋势与规模 - 全球AI行业投资总额最近一年超过4000亿美元 未来5年累计投入将超过4万亿美元[3] - AI Chatbot是人类有史以来用户渗透率最快的功能 行业渗透速度超过历史上所有技术[3] - Tokens消耗速度每两三个月翻一番[3] - 未来每个人可能需要使用100张GPU芯片 全球Agent和机器人数量可能超过全球人口[8][24] 技术架构变革 - 大模型是下一代操作系统 将替代现有OS地位 成为承载用户 软件与AI计算资源交互调度的中间层[14][15] - 自然语言成为AI时代编程语言 Agent是新的软件形态 Context替代Memory功能[14][15] - 模型部署方式将多样化 运行在所有计算设备中 具备持久记忆和端云联动能力[16] - 数据中心计算范式从CPU为核心转向以GPU为核心的AI计算 需要更稠密算力和更大集群规模[18] 公司战略与投入 - 公司积极推进三年3800亿人民币的AI基础设施建设计划 并持续追加更大投入[1][22] - 2032年全球数据中心能耗规模将较2022年提升10倍[1][22] - 通义千问选择开放路线 已开源300多款模型 全球下载量超6亿次 衍生模型超17万个[16][19] - 定位全栈人工智能服务商 提供一站式模型服务平台百炼和Agent运行环境AgentBay等开发者套件[19] 产品与基础设施 - 运营中国第一 全球领先的AI基础设施和云计算网络 具备软硬件垂直整合能力[20] - 正在打造全新AI超级计算机 协同创新基础架构设计和模型架构[20] - 通义千问覆盖全模态 全尺寸 是全球第一的开源模型矩阵[19] 应用场景影响 - AI将渗透物流 制造 软件 商业 生物医疗 金融 科研等几乎所有行业领域[7] - 未来几乎所有与计算世界打交道的软件都由大模型产生的Agent替代[15] - 开发者规模将从几千万扩大到数亿 终端用户可通过大模型直接满足需求[15] - ASI将解决医学难题 发明新材料 解决可持续能源和气候问题 甚至推动星际旅行[4]
阿里云栖大会第一日——超节点
小熊跑的快· 2025-09-24 12:38
阿里云超节点架构 - 大模型训练推理对显存容量和带宽需求增长 传统GPU单机8卡方案无法满足业务需求[4] - 超节点解决方案采用多卡组成 具备大容量显存和低延迟共享特性[4] - 超节点设计基于高密度集成的PPU芯片 充分发挥芯片设计优越性[6] UALink互联协议 - 超节点采用UALink协议 联盟成员包括AMD AWS Google Intel Meta Microsoft等[5] - AMD贡献Infinity Fabric协议促成联盟成立 阿里云加入该联盟[5] - 协议针对行业自有技术演进成本高问题 提供开放互联方案[5] 硬件性能参数 - PPU配备96GB HBM2e显存 高于A800的80GB 与H20容量一致[10] - 片间互联带宽达700GB/s 远超A800的400GB/s 略低于H20[10] - 支持PCIe 5.0×15接口 优于A800的PCIe 4.0×16 与H20同代[10] - 功耗400W与A800相同 低于H20的550W[10] - 基础版峰值算力120TFLOPS专注AI推理 高级版支持AI训练[10] 网络与拓扑架构 - ALS-D系统在UALink上补充在网计算加速特性 支持Switch组网模式[9] - 采用基于Switch硬件连接方案 支持单层和二层互连拓扑[9] - 可扩展至数百/数千节点互连 满足并行计算发展需求[9] 系统集成方案 - 超节点实现单机64卡配置 磐久机柜功率达300千瓦[9] - 采用铜线链接方案提升密度 对互联协议有特定要求[9] - 通过MoE技术提升模型表达能力 降低算力需求[8]
软件+金融科技总结
小熊跑的快· 2025-09-23 14:36
最近有人抱怨应用萎靡,终于找到时间梳理分享一下数据,看到底怎么样: 先看看整体业绩,2025 年 中报计算机板块利润显著改善 以申万计算机板块为基准,共计 361 家公司进行中报业绩分析。 2025 年计算机板块公司中报业绩情况如下: 1)在营收层面,计算机板块的 25H1 营业收入合计为6120.4 亿元, 同比增长 10.89%; 分季度看, 计算机板块 25Q2 营业收入合计为 3300亿元,同比增 长 7.49%,环比增长 16.99%。 2025 年 H1,金融 IT 板块在金融强国政策深化与 AI 技术落地的双重催化下实现强劲增长。《关于进一步加强监管防范风险推动资本市场高质量发 展的若干意见》等政策效果初步显现,推动金融机构科技投入持续加大。AI 成为 核心驱动力,智能投顾、大数据风控、自动化运维等应用场景加速 落地,显著提 升产品附加值与客户粘性。 随着金融机构对科技投入的持续增加, 以及 AI 大模型 在金融场景的深度融合,具备产品化能力和技术壁 垒的头部厂商有望持续领先, 金融科技出海也将开辟更广阔增长空间。同时头部金融科技企业通过技术研发投入、核心系统市占率、场景拓展深度 形成差异化壁垒 ...
美股黄金股 逆天
小熊跑的快· 2025-09-22 21:34
MicroSectors 3倍做多黄金ETF表现 - 该ETF当前交易价格为186.9870美元,较前一日收盘价173.3700美元上涨13.6170美元,涨幅达7.85% [1] - 当日最高价为187.4000美元,最低价为182.9550美元 [1] - 成交量为13.1万手,成交额为862万美元 [1] - 移动平均线呈上升趋势,其中MA5为162.7334,MA10为158.7047,MA20为139.9599 [1] 市场观察 - 该ETF价格走势被描述为“逆天的走势” [1] - 其强劲表现甚至令“AI人都叹为观止” [1]
这周大事件一览
小熊跑的快· 2025-09-22 15:01
阿里科技大会 - 大会于周三至周五在杭州举行 包含大模型 AI应用和芯片三大板块 [1] - 市场资金在会议前已提前布局国产算力领域 重点流向海光及存储相关标的 [1] 电子行业资金集中度 - 电子板块成为当前市场唯一资金聚集的行业 其他行业均出现资金流出 [2] - 光模块等前期强势板块亦出现资金撤离现象 行业热度显著下降 [3]
Gemini 数据好过chatgpt
小熊跑的快· 2025-09-21 19:30
Gemini和Cla ude 还在冲! 如上图,chatgpt 日活走平了! - Standard_NV18ads_A10_v5 Standard_NV36adms_A10_v5 - Standard_NV12ads_A10_v5 = - Standard_NV36ads_A10_v5 -Standard_NV6ads_A10_v5 Standard_NV72ads_A10_v5 2.5 2 1.5 1 0.5 0 s and and and the state of the start of the state of the state 1 2 8 2 8 2 all of the 如上图azure云 A10 价格最近还在上 租赁价格 如上图AWS A10租赁价格 还比较好。 ...