Workflow
推理
icon
搜索文档
内存压缩技术新突破,提高AI推理效率!
半导体芯闻· 2025-04-25 18:19
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容编译自 eetimes ,谢谢。 ZeroPoint Technologies 和 Rebellions 旨在开发一种 AI 加速器,以降低 AI 推理的成本和功耗。 据称,ZeroPoint Technologies 的内存优化技术能够快速压缩数据、增加数据中心的内存容量并提 高每瓦的 AI 推理性能。 2025年4月,瑞典内存优化知识产权(IP)供应商ZeroPoint Technologies(以下简称ZeroPoint) 宣布与Rebellions建立战略合作伙伴关系,共同开发用于AI推理的下一代内存优化AI加速器。该 公司计划在 2026 年发布一款新产品,并声称"有望实现前所未有的代币/秒/瓦特性能水平"。 作为合作的一部分,两家公司将使用 ZeroPoint 的内存压缩、压缩和内存管理技术来增加基本模 型推理工作流程的内存带宽和容量。 ZeroPoint 首席执行官 Klas Moreau 声称其基于硬件的内存 优化引擎比现有的软件压缩方法快 1,000 倍。 ZeroPoint 的内存压缩 IP 价值主张 首先,压缩和解压缩。其次,压缩生成的 ...
卓驭科技接入通义大模型,联合打造端到端世界模型
阿里云· 2025-04-24 17:13
公司动态 - 卓驭科技宣布接入通义大模型并基于阿里云打造端到端世界模型 [1] - 公司大数据等核心业务系统已接入阿里云 [1] - 卓驭科技总经理沈劭劼与阿里云智能集团副总裁李强共同推动合作 [2] 技术突破 - 端到端世界模型引入强化学习和思维链推理技术 [2] - 模型将城市领航辅助安全性提升一个层级 [2] - 支持千人千面驾驶风格和自然语言交互控制驾驶行为 [2] - 具备复杂场景慢推理的智能化体验 [2] 算力优化 - 采用预训练+后训练结合方式,以"天"为单位迭代 [2] - 基于阿里云PAI平台打造多种GPU融合的算力资源池 [2] - 数据流动和管理成本显著降低 [2] - 模型训练效率相比单GPU集群提升50%以上 [2] - GPU利用率提升至95%以上 [2] 业务进展 - 大数据系统和智能制造核心业务全面搬上阿里云 [2] - 研发领域接入通义灵码和通义千问加速开发 [2] - 代码采纳率达到29% [2]
倒计时 6 天!致全球 GPU Kernel 极客:AMD 的 10 万美金“战书”请查收!
AI科技大本营· 2025-04-24 17:09
-I CSDN I- 2025.06.08 100.000美金 共赴硅谷巅峰之战! 注册报名二维码 致全球GPU kernel极客的一封战书: 亲爱的GPU kernel极客们, 是时候展现真正的实力了!我们诚挚邀请您参加由AMD发起并全程赞助的AMD 2025推理优化挑战赛!这是一个面向全球GPU kernel开发者的盛大赛事,AMD 倾力打造,邀您以代码为刃,挑战Al推理性能极限! 战,你能 斩获 什么? CSDN 智算极速争锋 AM D 2025 推理优化挑 2025.04.15 AMDA × FHE × 6 together we advance 破局时刻表 出名户站 2025 / 15 年日期期货 · 无需本地GPU! 云端算力平台,公平竞技,专注底层算子优化 ( low-level kernel ) 即可参赛! ● 单人亮剑或组队出征(≤3人),无国籍限制。 · 通过AMD官方验证后, 绑定GitHub ID解锁参赛权限。 ● 挑战优化三重DeepSeek算子:FP8 GEMM,MLA with Rope,Fused MoE。 ● 每两周一组,开放PyTorch参考实现及理论最大值性能等辅助开发的 ...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 15:28
在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而 推理性能优化 正成为应对 算力挑战、内存瓶颈与通信压力的关键突破口。 当前,大模型推理性能优化主要围绕 模型优化、推理加速与工程优化 三大方向展开:通过模型量 化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用 蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成 速度与系统吞吐能力;同时结合实际业务场景,合理规划并发策略、优化 GPU 配置,打造具备高可 用性与扩展性的推理服务体系。 在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站 中,我们特别策划了 《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人 王德山 担任专题出 品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~ 向乾彪 – 腾讯推理架构师 姜慧强专注于高效推理和训练方法的探索。在多项国际顶级会议上发表过高水平论文,他的研究领域 涵盖动态稀疏注意力、KV 缓存优化、提示压缩等前沿 ...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 15:28
大模型推理性能优化技术方向 - 大模型推理性能优化围绕模型优化、推理加速与工程优化三大方向展开 [3] - 模型优化手段包括量化、剪枝与蒸馏,例如DeepSeek-R1-Distill-Qwen-32B通过蒸馏策略显著压缩资源开销 [4] - 推理加速依赖SGLang、vLLM等高效引擎提升生成速度与系统吞吐能力 [4] - 工程优化需结合业务场景规划并发策略与GPU配置,构建高可用推理服务体系 [4] 腾讯混元AngelHCF框架实践 - 腾讯推理架构师向乾彪将分享混元大语言模型的推理加速框架AngelHCF [5] - AngelHCF在算子设计、通信优化、架构调整方面取得显著成本与性能优势 [6] - 关键技术包括混元Turbos Hybrid推理优化、Mamba Hybrid模型结构创新 [6] - 通过Kernel/显存/KVCache优化降低资源消耗,并采用超大规模MoE模型并行策略缓解通信瓶颈 [6][7] - 智能调度与计算通信重叠策略确保大规模推理环境高效运行 [7] 华为昇腾推理技术优化 - 华为昇思AI框架开发者张君将探讨大模型推理加速的算子融合、量化及Attention容量压缩技术 [9] - 通过昇腾硬件加速库ATB、图编译技术TorchAir实现模型层/框架层/算子层协同优化 [10] - 动态批处理技术与前沿融合算子设计最大化硬件资源效率 [10] 微软KV缓存长文本优化 - 微软姜慧强聚焦KV缓存优化,解决长文本推理的计算与内存压力 [13][14] - 围绕KV缓存生成、压缩、检索环节优化,并引入SCBench基准测试工具对比性能 [14] - 对比主流LLM供应商的KV缓存技术差异,展望长文本推理未来方向 [15] 阿里云跨层优化实践 - 阿里云李元龙分享从Transformer前向传播到硬件加速的全链路优化 [17] - 整合PyTorch动态图编译、算子优化与CUDA并行计算策略 [17] - 采用动态计算图与稀疏激活模式突破算力瓶颈 [18] AICon大会其他亮点 - 活动涵盖多模态、Agent、端侧智能等前沿技术 [23] - 包括AI原生产品落地、多领域Agent应用、硬件终端创新及多模态大模型实践 [24][25][26] - 50+行业专家解析大模型最新进展 [27]
特赞科技创始人范凌:如何让AI像一群“小黄人”一样默默耕耘?
混沌学园· 2025-04-22 19:31
核心观点 - AI并非真正创造内容,而是以更低成本复制人类的创造能力 [2] - 实现人类与AI高效协作将创造持续商业机会 [2][94] - 内容控制权在平台而非创作者手中,平台决定内容生产、传播和上架 [12][14] 内容平台演进 - 内容平台从早期桌子、报纸发展到广播、电视、电脑和手机 [19] - 智人通过"八卦"口耳相传战胜其他古人类物种 [19] - 平台演进导致内容碎片化、多样化和个性化 [19] AI技术发展 - 生成式AI每两年提升10倍像素生成能力 [23] - 2029年可生成完整电视节目,2031年可生成AI电影 [23] - AI从表达转向思考,如DeepSeek透明化思考过程 [25][78] - 大语言模型让主观世界变得可计算 [64] 内容生产模式 - 内容分为0到1(品牌文化)和1到无穷(转化型)两类 [32][33] - AI应提升1到无穷内容效率,让人专注0到1内容 [34] - 创作者面临预算低、质量好、时间短的不可能三角 [27] - 品牌纠结于做叫卖型内容还是文化型内容 [28] 行业应用案例 - 快消公司用AI分析客户反馈实现产品创新,将开发周期从2年缩短 [37] - 咖啡企业通过内容工厂每天生产4000条视频,单条成本仅一杯速溶咖啡 [39][41][45] - 奢侈品品牌用AI为导购提供创作范例和质量评估 [49] - 电动车品牌运营5000个社媒账号,每天发布5000条不同内容 [45] 内容运营链路 - 企业内容运营涵盖5大场景13条链路 [60] - 包括电商、门店、私域、社媒和海外内容链路 [60] - 智能体在质量监控和内容审核中发挥重要作用 [61][62] 商业智能体应用 - atypica.AI通过多智能体协作完成商业分析任务 [65][72] - 演示案例包括罗技鼠标选题、消费降级分析和无醇葡萄饮营销策划 [71][74][76] - 智能体协作过程涉及9个AI角色,53个步骤,64万token [74] AI对企业影响 - AI将带来企业根本性转型而非仅降本增效 [84] - 中国在AI应用领域可能成为全球解决方案提供者 [84] - 不同行业AI投资回报周期不同,美妆行业回报较高 [84] - AI时代个人可选择成为"打工人"或"经营者" [86][89] 人机协作 - "脑机比"概念关注人类与AI工具协作关系 [91] - AI普及面临能力、意愿和信任三重挑战 [94] - 信任感可能瞬间形成,如Waymo无人驾驶体验 [94]
前百度AI大牛亲述:押注十年,踩坑无数后,签下200家三甲医院
创业邦· 2025-04-21 10:45
医疗科技行业现状 - 医疗领域因数据壁垒高、场景复杂、容错率低成为技术落地的难点,但蕴含巨大商业和社会价值[3] - 行业当前处于AI医生热潮,各企业采用不同技术路线"八仙过海"[23] - 医疗信息化市场内卷加剧,医院因收入下降对信息化投入更谨慎,部分厂商采取免费送软件策略[26] 左医科技公司概况 - 成立于2016年,由前百度NLP负责人张超创立,专注知识图谱与医疗大模型协同[3][5] - 客户覆盖全国200多家三甲医院,其中40%为top100医院,包括北京协和等顶尖机构[5] - 当前商业化重心从B端转向C端,B端聚焦高毛利标准化产品,C端探索会员订阅和健康产品推荐[26][30] 技术路线演进 - 2020年首次将Transformer用于医患对话开发AI Doctor,显著提升交互体验[9][13] - 尝试GPT-2微调遇成本瓶颈,后转向开源模型,最终选择通义千问作为基座模型[14] - 2023年发布医疗垂类大模型,落地四川省人民医院等百强医院[14] - 2024年推出端到端AI Agent,整合CoT推理/工具调用等能力,诊断效果提升15%[16][18] 核心产品与落地 - "重儿·小乙AI家庭医生"在重庆医科大学附属儿童医院落地,集成循证知识库/报告识别/挂号等服务[21] - 儿科循证知识库基于国内外指南/专家共识构建,专业团队核验,单篇论文仅提取10条高价值数据[21] - 与宁夏/北京等地卫健委合作推出"AI家医",通过B端带动C端积累流量[27] 数据壁垒构建 - 数据清洗需反复调整如"和面",关键know-how来自实操积累的"错题集"[20] - 数据来源包括互联网/真实医患对话/诊断生成数据,经专家筛选保留1%高价值信息[21] - 病历数据处理需删除病理解释部分防止模型"漏题"[20] 商业化战略调整 - B端保留预问诊/分导诊/语音转写等高标准化产品,目标90%以上毛利率[26] - C端采用会员订阅制,未来计划基于交互数据推荐健康产品[30] - 聚焦诊前诊中场景,因诊后慢病管理商业闭环难建立[31] 行业趋势判断 - 垂直模型价值在于专有数据壁垒,但通用模型迭代将压缩其生存空间[16] - 医疗AI落地三形态:提示词/工作流/端到端,后者能突破人类能力限制[18] - 医院需求更倾向低错误率、稳定供应的技术而非"满血"性能[36]
AI动态跟踪系列(六):OpenAIo3、豆包新品首发,关注原生Agent与多模态推理
平安证券· 2025-04-17 21:10
报告行业投资评级 - 强于大市(维持) [1] 报告的核心观点 - 近期新模型解题思路在思维链CoT基础上更重视模型原生Agent能力和多模态推理能力,全球大模型领域竞争激烈,看好AI主题投资机会 [3][34] - 当前Agent在企业端落地进度靠前,AI应用关注OA/ERP/编程/办公等领域,Agent拉动推理端及整体算力需求,看好国产AI算力产业链 [3][34] 根据相关目录分别进行总结 OpenAI o3、o4 - mini新增图像深度思考与Agent能力,Codex CLI智能体开源推动AI编程生态开放 - 4月17日OpenAI发布o3和o4 - mini,是其迄今最智能模型,核心突破在于图像深度思考和Agent能力 [3][4] - o3是强大推理模型,在多方面推动前沿发展,在多个基准设新SOTA,困难现实任务重大错误比o1少20% [5] - o4 - mini针对快速、经济高效推理优化,在数学、编码和视觉任务表现好,非STEM任务及数据科学领域优于o3 - mini [5] - 图像推理方面,o3和o4 - mini首次在思维链中用图像思考,实现高级推理与多工具无缝结合,o3提供多模态代理体验 [9] - Agent方面,o3和o4 - mini可访问ChatGPT工具及自定义工具,能推理解决问题并快速生成答案 [10] - o3和o4 - mini性价比高于前身,预计实际使用更智能、便宜 [12] - OpenAI发布轻量级编程智能体Codex CLI,支持零配置启动,运行安全,可让用户从命令行体验多模态推理 [15] 豆包1.5·深度思考模型对标全球推理模型第一梯队,视觉理解模型实现更强视觉定位能力 - 4月17日火山引擎发布豆包1.5·深度思考模型等新品,推理模型性能达或接近全球第一梯队,增加视觉理解能力,APP可“边想边搜” [3][17] - 多模态方面,豆包·文生图模型3.0在权威榜单排全球第一梯队,新版本豆包·视觉理解模型视觉定位和视频理解能力提升 [17][28] - 企业级服务方面,发布OS Agent、GUI Agent大模型(豆包1.5·UI - TARS)和AI云原生·ServingKit推理套件 [17] - 截至2025年3月底,豆包大模型日均tokens调用量超12.7万亿,是2024年12月的3倍、发布时的106倍,2024年火山引擎公有云大模型调用量市场份额46.4%居中国第一 [18] - 豆包1.5·深度思考模型采用MoE架构,总参数200B,激活参数20B,有高并发承载能力和20毫秒极低延迟 [21] - 豆包APP基于该模型定向训练实现“边想边搜”,如推荐露营装备经3轮搜索给出细致推荐 [24] - 该模型具备视觉理解能力,可用于国外餐厅点餐、分析航拍地貌、企业项目管理等 [27] - OS Agent解决方案可让企业和开发者构建轻量级应用,复杂应用可调用豆包1.5·UI - TARS模型,该模型已上线火山方舟平台 [32] - ServingKit推理套件可助企业快速部署模型、优化推理、运维可观测,能提高KV cache命中率和TPS吞吐量,降低GPU消耗 [33] 投资建议 - AI应用方面,AI + 企服建议关注泛微网络、致远互联等;AI + 办公推荐金山办公、福昕软件等,建议关注合合信息 [3][34] - AI算力方面,推荐海光信息、龙芯中科等,建议关注寒武纪、景嘉微等 [3][34]
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。
数字生命卡兹克· 2025-04-17 04:34
模型发布与更新 - OpenAI发布o3和o4-mini模型,取代原有的o1、o3-mini和o3-mini-high模型,ChatGPT Plus、Pro和Team用户可立即使用[1] - o3 Pro版本需等待几周后才提供[2] - o3和o4-mini是o系列最新视觉推理模型,首次实现思维链中图像思考能力[2] 模型性能提升 - o3在AIME数学赛准确率从裸模91.6%提升至调用Python后的95.2%,o4-mini从93.4%提升至98.7%[5] - 在跨学科PhD级科学题(GPQA Diamond)上,o3以83.3%领先o4-mini的81.4%[5] - 专家级综合测试(Humanity's Last Exam)中,o3从20.3%提升至24.9%,o4-mini从14.3%提升至17.7%[5] - 多模态能力显著提升:o3在MMMU数据集从77.6%提升至82.9%,MathVista从71.8%提升至87.5%,CharXiv-Reasoning从55.1%提升至75.4%[8] 工具与代码能力 - o3首次实现满血版工具使用能力[2] - 在SWE-Lancer自由职业软件工程任务中表现突出[11] - 浏览器任务能力接近DeepResearch水平[14] - 函数调用能力(Tau-bench)相比o1未明显提升[14] - o3准确率0.59高于o4-mini的0.36,但幻觉率0.33也高于o4-mini的0.48和o1的0.16[15][16] 定价策略 - o3定价$10/$40(输入/输出),比o1的$15/$60便宜三分之一[17] - o4-mini保持$1.1/$4.4价格不变[17] - 所有新模型支持20万token上下文窗口和10万token最大输出[17] 视觉推理突破 - o3首次实现真正意义上的视觉推理能力,能像人类一样分析图像[18] - 成功识别北京门头沟109国道妙峰山段的具体位置[21][22][24] - 具备专业场景观察力潜力,可能改变安全监控、设计审稿、医疗影像等行业[30] 其他更新 - 开源AI编程工具Codex[31][33] - 视觉推理能力被视为范式级跃迁,可能带来行业变革[30][33]
OpenAI最早本周发布“o3或o4-mini”,“博士水平AI”要来了?
硬AI· 2025-04-15 23:34
编辑 | 硬 AI OpenAI最新模型取得突破性进展:具备原创构思能力。 点击 上方 硬AI 关注我们 据介绍,最新模型不仅能总结研究论文或解决数学问题,还能够独立提出新构思,连接不同领域的概念,提出创新性实验 设计,完成需要科学家跨领域合作才能实现的成果,相当于"博士水平AI"。 硬·AI 作者 | 李笑寅 据媒体援引知情人士消息, OpenAI最早将在本周发布代号为o3或o4-mini的新模型, 该模型不仅能总结 研究论文或解决数学问题,还能够独立提出新构思,连接不同领域的概念,提出创新性实验设计。 据介绍,即将推出的新模型能同时利用物理学、工程学和生物学等多个领域的知识,提供跨学科的解决方 案,而科学家通常需要跨领域合作才能实现类似成果,相当"博士水平AI"。 硬·AI OpenAI总裁Greg Brockman在2月的"AI研讨会"活动上曾表示: "我们真正的方向是开发能够花大量时间认真思考重要科学问题的模型,我希望在未来几年内,这将 使所有人的效率提高10倍或100倍。" * 感谢阅读! * 转载、合作、交流请留言,线索、数据、商业合作请加微信:IngAI2023 * 欢迎大家在留言区分享您的看法 ...