Workflow
模型推理
icon
搜索文档
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 12:18
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 满血DeepSeek一体机 ,价格竟然被打到 10万元 级别了! 而且还不是量化版本,正是那个671B参数、最高质量的FP8原版。 △ 左:一体机;右:DeepSeek官网 从视频中不难看出,不仅答案精准,一体机的速度也是肉眼可见地比DeepSeek官网快上一些,粗略估计是已经接近了 22 tokens/s 。 那么这个一体机到底是什么来头? 或许有小伙伴要问了,那跑DeepSeek-R1/V3的 速度 ,能跟官方一较高下吗? 可以的,甚至是 更快 的那种。例如我们提个问题,来感受一下这个feel: 一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字即可。 不卖关子,它就是由北京 行云集成电路 最新推出的产品—— 褐蚁HY90 ,具体价格定到了 14.9万元 。 而且除了产品,这家公司本身也是有不少的"标签"在身上的,其中最为吸睛或许当属CEO了: 季宇 ,清华90后博士、前华为"天才少年"、计算机学会CCF优博奖获得者。 那么褐蚁HY90具体执行起更多任务时,又会是什么样的效果? 来,更多维度的一波实测走起。 实测10万元级的Deep ...
北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
机器之心· 2025-04-28 16:04
本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成,核心成员包括仇是、郭绍 阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。 PHYBench 项目汇聚了来自物理学院及兄弟院系的 200 余名学生,共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中,包含至少 50 位 全国中学生物理竞赛金牌得主,更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作,不仅充分展现了北大学子深厚的学术功底和卓越 的组织协调能力,也为 PHYBench 产出高质量成果提供了坚实保障。 在大语言模型(LLMs)飞速发展的当下,模型的推理能力俨然成为模型能力的代名词。OpenAI 的 o 系列、DeepSeek R1 等前沿模型相继发布,这些大模型凭借强 化学习技术的助力,在许多科学评测基准上频频刷新纪录,甚至声称 "超越人类专家"。 但是,随着模型能力和评测基准的军备竞赛白热化, 越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。 这些题目虽然能 ...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 15:28
在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而 推理性能优化 正成为应对算力挑战、内存瓶颈与通信压力的关键突破口。 当前,大模型推理性能优化主要围绕 模型优化、推理加速与工程优化 在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站 中,我们特别策划了《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人 王德山 担任专题出品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~ 向乾彪 – 腾讯推理架构师 向乾彪在 GPU 推理加速拥有丰富经验。他的技术专长覆盖高性能异构计算及深度性能优化,并在实 践中不断突破前沿技术瓶颈。目前,向乾彪带领团队负责混元大语言模型的推理加速框架 【AngelHCF】 三大方向展开:通过模型量化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成速度与系统吞吐能力;同时结合实际业务场景,合理规划 并发策略、优化 GPU 配置 ...
榨干3000元显卡,跑通千亿级大模型的秘方来了
量子位· 2025-04-14 17:09
金磊 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 书接上回 ,用几块 3000元 显卡作为加速主力的 一体机 ,就能跑通671B的 DeepSeek 。 放在个把月前,你敢想象这样的场景么? 正在埋头苦干,希望有更多样化产品交付的一体机厂商们,pick 英特尔锐炫 显卡 + 至强 W 处理器 这套组合拳,首要原因就是它的成本确 实诱人——基本算是砍掉了一个数量级 (下线可以控制在10万元以内) 。 其次就是这套组合也很能打,上面那个场景就是它目前的 "标杆式"战绩。 这两点加起来就是"真香"定律的复现。 但别光说不练,这种极具性价比的一体机实测的体感到底如何呢? 带着这个问题,我们直接上手亲自测试了一波。 例如我们先用QwQ-32B离线状态下问了个经典题目: 9.9和9.11哪个大? 同样的,我们可以看到输出速度依旧是非常的快。 从效果上来看,若是 单人 使用,一体机的速度已经达到了 32 tokens/s 。 讲真,这个速度在体感上已经是非常OK了。 而且这还不是个偶然事件,在同样的情况下,我们再问一个问题: 一个外星人来到地球后等可能选择以下四件事中的一件完成: 1,自我毁灭; 2,分裂成两个外 ...
天翼云CPU实例部署DeepSeek-R1模型最佳实践
量子位· 2025-03-03 15:58
文章来源:天翼云网站 量子位 | 公众号 QbitAI 本文介绍了 英特尔 ® 至强 ® 处理器在AI推理领域的优势,如何使用一键部署的镜像进行纯CPU环境下基于AMX加速后的 DeepSeek-R1 7B蒸馏模型推理,以及纯CPU环境下部署DeepSeek-R1 671B满血版模型实践。 大模型因其参数规模庞大、结构复杂,通常需要强大的计算资源来支持其推理过程,这使得算力成为大模型应用的核心要素。随着DeepSeek-R1模型 的问世,各行各业纷纷展开了关于如何接入大模型能力的广泛调研与探索,市场对大模型推理算力的需求呈现出爆发式增长的趋势。 例如在医疗、金融、零售等领域,企业迫切希望通过接入DeepSeek大模型来提升决策效率和业务能力,从而推动行业的创新发展。在这一背景下,算 力的供给和优化成为推动大模型落地应用的重要因素。 近年来,CPU制程和架构的提升以及 英特尔 ® 高级矩阵扩展AMX(Advanced Matrix Extensions)加速器的面世带来了算力的快速提升。英特尔对大 模型推理等多个AI领域持续深入研究,提供全方位的AI软件支持,兼容主流AI软件且提供多种软件方式提升CPU的AI性 ...
两台运行“满血版”DeepSeek,第四范式推出大模型推理一体机解决方案SageOne IA
IPO早知道· 2025-02-28 12:11
此 外 , 一 体 机 解 决 方 案 还 集 成 了 智 能 算 力 池 化 技 术 , 在 支 持 DeepSeek V3/R1 、 QWen2.5 、 LLama3.3等主流大模型的基础上,企业可灵活在满血版和多个蒸馏模型之间切换,GPU利用率提升 30%以上,推理性能平均提升5-10倍;同时内置大模型应用开发平台,并搭载了丰富的开箱即用AI 应用套件,帮助开发者高效开发企业级的生成式AI应用,让企业享受高效的大模型应用服务,加速AI 智能化落地进程。 具体来讲:SageOne IA大模型推理一体机解决方案,具备三大核心优势: 1) 智能算力池化,资源动态调度,突破物理机架构 大模型应用成本"一降再降"。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,第四范式日前推出大模型推理一体机解决方案SageOne IA,进一步减低了大模 型推理成本。如满血版的DeepSeek V3/R1仅需要两台一体机即可使用。 方案支持企业按需选择DeepSeek V3/R1、QWen2.5、LLama3.3等主流大模型,还预装了丰富的 AI应用套件,包括AIG ...
【英伟达(NVDA.O)】FY25Q4业绩超预期,Blackwell需求强劲,推理计算需求高速增长——FY25Q4业绩点评
光大证券研究· 2025-02-27 21:48
文章核心观点 英伟达发布FY25Q4及FY25全年业绩,业绩超市场预期,各业务有不同表现,AI大模型推理需求加速增长,下一代产品将推出 [2][3][4] 业绩情况 - FY25Q4营收393.3亿美元,YoY+78%,QoQ+12%,超彭博一致预期;Non - GAAP毛利率73.5%,QoQ - 1.5pct,YoY - 3.2pct;Non - GAAP净利润220.7亿美元,QoQ+10%,YoY+72%,对应Non - GAAP EPS 0.89美元,超彭博一致预期 [2] - FY25全年收入1305亿美元,同比上升114%,超彭博一致预期;Non - GAAP净利润742.6亿美元,同比增加130%,对应EPS 2.99美元,超彭博一致预期 [2] - FY26Q1指引营收430亿美元,YoY+65%,QoQ+9%,超彭博一致预期;Non - GAAP毛利率71%,QoQ - 3pct,低于彭博一致预期 [2] 业务表现 数据中心业务 - FY25全年营收1152亿美元,YoY+142%;FY25Q4营收356亿美元,QoQ+16%,YoY+93%,约50%收入来自大型云厂商,Q4营收贡献占比增至90.6% [3] - Hopper200出货持续环比增长,Blackwell需求强劲,贡献约110亿美元收入,大模型对推理芯片需求持续增长 [3] 游戏业务 - FY25全年营收114亿美元,YoY+9%;FY25Q4营收25亿美元,YoY - 11%,QoQ - 22%,Q4出货量受供应链限制影响,假期需求维持强劲 [3] - 公司预计FY26Q1出货量将恢复增长,搭载GeForce RTX 50系列显卡的笔记本电脑将于3月起发售 [3] 专业可视化业务 - FY25全年营收19亿美元,YoY+21%;FY25Q4营收5亿美元,YoY+10%,QoQ+5%,客户对RTX GPU工作站需求持续提升 [3] 汽车业务 - FY25全年营收17亿美元,YoY+55%;FY25Q4营收6亿美元,YoY+103%,QoQ+27%,增长系自动汽车持续量产爬坡 [3] AI发展情况 - Open AI o3、DeepSeek - R1等大模型推动推理需求加速增长,长思维推理相比一次性推理,需要超100倍的数据量,未来AI大模型计算需求会远超当前大语言模型 [4] - Blackwell需求将持续提升,其供应链问题已解决,下一代Blackwell Ultra将于2025年下半年发布 [4]
​晚点财经丨任天堂起诉《幻兽帕鲁》制作商侵权;苹果面临欧盟要求其进一步开放 iOS 的威胁
晚点LatePost· 2024-09-19 21:28
吴泳铭说 AI 算力远远不能满足需求。 蔚来计划竞购奥迪在比利时的电动车工厂。 这是大众在比利时的唯一一家工厂,主要生产奥迪 Q8 e-tron,有约 3000 名员工,因为需求疲软, 大众集团 7 月时考虑关闭该厂。据媒体报道,蔚来近几周参观了工厂,并启动了相关的报价准备程 序,准备在下周一向大众汽车提交正式报价。蔚来收购奥迪工厂可能是为应对欧盟对中国电动车加 征关税。 喜茶发布内部信,退出低价内卷。 9 月 18 日喜茶向事业合伙人发布内部信,主题为《为用户创造差异化的品牌和产品》,信中称喜 茶将 "不做同质化产品、不做单纯的低价内卷"。喜茶认为当前茶饮行业的同质化竞争是在消耗用 户对茶饮产品和品牌的热情,差异化是破局的关键,并指出 "门店规模并不是茶饮行业的关键"。 吴泳铭接管阿里巴巴集团和阿里云智能集团已经一年,今天首次在云栖大会登台演讲。他说大模型 推理成本下降速度已经远远超过摩尔定律,一年来通义千问 API 的调用价格下降了 97%,阿里云 还会继续降价。同时 CPU 主导的计算体系正在加速向 GPU 主导转移,新增算力市场超过 50% 的 需求由 AI 驱动产生,过去一年阿里云投资了大量 AI ...