Workflow
Parallel Computing
icon
搜索文档
NVIDIA Corporation (NVDA) Presents at Bank of America Global Technology Conference Transcript
Seeking Alpha· 2025-06-05 02:45
公司介绍 - NVIDIA公司副总裁Ian Buck负责加速计算业务部门 领导GPU计算相关的硬件和软件产品线、第三方支持及营销活动 [1][2] - Ian Buck于2004年加入NVIDIA 同年创建了CUDA平台 该平台目前仍是加速并行计算领域的领先平台 [2] - 加入NVIDIA前 Ian Buck曾担任Brook项目的开发负责人 该项目是GPU通用计算的先驱 [2] 行业活动 - 该会议是美银证券全球科技大会第二天的主题演讲 由美银半导体及半导体设备分析师Vivek Arya主持 [1] - 这是NVIDIA第三次在该大会进行主题演讲 突显公司在科技行业的重要地位 [3] 技术发展 - 公司正处于AI技术快速发展时期 行业变化速度极快 一年时间跨度已感觉像是一个时代 [4]
刚刚!DeepSeek,硬核发布!
券商中国· 2025-02-27 11:35
DeepSeek开源动态 - 开源周第三天宣布Optimized Parallelity Strategies,旨在提高计算效率、减少资源浪费并最大化系统性能,通过任务分配、资源协调和通信优化实现高效并行执行 [2][3] - 开源周第四天再度发布优化并行策略,包括DualPipe、专家并行负载均衡器(EPLB)及性能分析数据,需根据任务类型、数据规模和硬件环境灵活选择 [5] - 此前开源的DeepEP在20分钟内获得超1000个GitHub Star,该库为MoE模型提供Expert Parallelism通信基础,支持FP8低精度计算并优化非对称带宽转发场景 [5] - 连续开源FlashMLA(Hopper GPU高效译码内核)、DeepGEMM(支持稠密/MoE模型的FP8计算库)等工具,强化AI模型训练与推理支持 [9] 英伟达技术突破 - 开源首个Blackwell架构优化的DeepSeek-R1-FP4模型,推理速度达21,088 token/秒(较H100提升25倍),每token成本降低20倍 [7][8] - FP4量化技术将Transformer线性算子权重压缩至4位,显存需求减少1.6倍,在MMLU基准测试中达到FP8模型99.8%性能 [7][8] - 结合TensorRT-LLM部署,需8颗B200 GPU实现张量并行,供应商可提供每百万token 0.25美元的低成本服务 [8] 商业策略调整 - 北京时间每日00:30-08:30下调API价格,DeepSeek-V3降至原价50%,DeepSeek-R1低至25%(降幅75%),鼓励夜间资源利用 [6]