Workflow
Large Language Model (LLM)
icon
搜索文档
Cerence AI Set to Showcase Agentic AI and LLM-Powered Innovations at CES 2026
Globenewswire· 2025-12-18 21:00
公司核心动态 - Cerence Inc 将于2026年1月6日至9日在拉斯维加斯举行的CES 2026上展示其最新创新成果 展位位于拉斯维加斯会议中心西厅6826号 [2] - 公司将重点展示其混合式、智能体化AI平台Cerence xUI™的关键进展 包括新的领域专用智能体、增强的多模态边缘AI以及音频AI体验 [2] 核心平台:Cerence xUI - Cerence xUI是一个为AI定义汽车设计的混合式、智能体化平台 旨在解决汽车制造商面临的挑战 包括消费者对基于大语言模型体验的期望快速增长、购车后软件更新的需求 以及在复杂技术选择中控制成本的压力 [3] - 该平台采用混合、模块化且与技术无关的设计 在车内提供由大语言模型驱动的智能体化智能 同时赋予汽车制造商完全灵活性 以集成市场上最佳的第一方和第三方模型、数据源及智能体 [4] - 该平台支持向已上路车辆快速部署升级功能和新的大语言模型能力 支持整个车辆生命周期的持续创新 [4] - 对于终端用户 该平台通过多步骤对话线程、多模态能力和增强的个性化 将车载助手从反应式系统转变为自然、主动且具有情境感知的伙伴 [5] 技术合作与边缘AI进展 - Cerence与SiMa.ai的合作将在CES上展示新进展 即CaLLM™ Edge在SiMa.ai硬件上运行 并为Cerence xUI提供增强的多模态能力、改进的性能和更低的延迟 同时保持卓越的能效 [6] - 该边缘AI解决方案可在不依赖云端连接的情况下实现快速、低功耗的交互 从而在车辆与驾驶员之间实现更强大、更可靠的通信 [6] - 公司还将展示CaLLM™ Edge在多种不同芯片组上运行 以提供更快的性能、更低的延迟以及即使无连接也能实现的可靠车内交互 [9] 新推出的AI智能体 - 公司将在CES上推出两款新的AI智能体 一款是针对车主的拥有者伴侣智能体 它是一个主动的服务和维护助手 帮助驾驶员了解车辆健康状况、处理即将到来的服务需求并发现未充分利用的功能 [8] - 另一款是经销商辅助智能体 旨在通过销售和服务工作流程的智能自动化来支持经销商 这标志着公司业务扩展至更广泛的汽车生态系统 [8] - CES还将首次进行车内演示与微软合作开发的移动工作智能体 该智能体于IAA 2025首次宣布 它支持通过语音优先、更安全地访问Microsoft 365 Copilot 包括Teams、Outlook和OneNote [9] - 作为Cerence xUI的一部分 该移动工作AI智能体将与汽车深度集成 并能提供主动的导航建议 例如与用户的工作日历集成以引导其前往下一个会议地点 [10] 音频AI产品组合 - Cerence将展示其音频AI产品组合 包括先进的多扬声器和多区域能力 [11] - 其音频AI解决方案套件包含先进的语音信号增强、降噪、信号处理和紧急车辆检测等功能 为下一代语音助手和车内通信系统提供支持 确保在不同环境下清晰可靠的音频性能 [11] 合作伙伴生态系统 - Cerence在CES上的展示将体现其合作伙伴生态系统的价值 包括与TCL和MediaTek的集成 [12] - 其开放、模块化的平台使汽车制造商能够加速创新并提供差异化的AI体验 [12] 公司背景 - Cerence Inc 是汽车和交通领域创造直观、无缝、AI驱动体验的全球行业领导者 [14] - 公司利用在语音、生成式AI和大语言模型方面数十年的创新和专业知识 为驾驶员和乘客创造更安全、互联和愉悦的旅程 [14] - 全球已有超过5.25亿辆汽车搭载了Cerence的技术 [14]
Kyivstar and Ukrainian Ministry of Digital Transformation Select Google Gemma as the Foundation for Ukraine’s National LLM
Globenewswire· 2025-12-01 18:00
项目合作与战略定位 - VEON集团旗下公司Kyivstar与乌克兰数字转型部WINWIN AI卓越中心合作,选择谷歌Gemma作为基础模型,以开发乌克兰国家大语言模型[1] - Kyivstar作为该项目的战略合作伙伴,将主导乌克兰大语言模型的运营开发工作[2] - 该项目旨在利用谷歌Vertex AI基础设施提供算力支持[1] 技术选型与开发目标 - 选择谷歌Gemma作为基础模型,因其为开源模型且来自全球技术领导者,有助于构建反映乌克兰语言深度和文化特性的模型[3] - 国家语言模型的目标是全面捕捉乌克兰的方言、术语、历史和背景,同时将敏感的国家数据安全地存储和处理在乌克兰境内[2] - 开发主要任务是在现成开源模型基础上,使用乌克兰独特数据进行进一步训练,以最小化语言和伦理风险[4] - Kyivstar将首先优化Gemma模型以适配乌克兰语,改进分词器,并在精选的乌克兰数据集上进行训练[6] 预期影响与应用领域 - 乌克兰大语言模型预计将成为乌克兰公共和私营部门新一代人工智能服务的基础[5] - 潜在应用案例包括法规和法律分析工具,以及教育、金融、医疗等领域的特定解决方案[5] - 通过使用乌克兰数据训练模型,Kyivstar旨在提供比通用全球模型更准确、更符合本地需求且可操作的输出结果[5] - 该模型将使乌克兰消费者、企业和政府机构能够集成真正理解乌克兰语言和背景的尖端增强智能技术[5] 公司战略与投资背景 - 此项目基于VEON在其市场缩小AI语言差距的更广泛战略,此前已在哈萨克斯坦推出KazLLM,在巴基斯坦推出乌尔都语大语言模型项目[7] - Kyivstar集团计划在2023年至2027年间通过基础设施投资、技术发展、慈善捐赠和战略收购,向乌克兰投资10亿美元[8] - VEON为近1.5亿连接用户和1.2亿数字用户提供融合连接和数字服务,业务覆盖占全球人口6%以上的五个国家[9]
Kyivstar, Ministry of Digital Transformation of Ukraine Select Google’s Gemma as Base Model for Training National LLM
Globenewswire· 2025-12-01 18:00
合作项目与核心模型 - 乌克兰领先的数字运营商Kyivstar与乌克兰数字转型部下属的WINWIN AI卓越中心选择谷歌的Gemma作为训练大型语言模型的基础模型[1] - Kyivstar是乌克兰政府开发国家LLM的战略合作伙伴和运营主导方,该公司将人工智能解决方案整合进其长期技术转型战略[2] - 选定的Gemma模型将针对乌克兰语进行适配,其关键优势包括支持超过140种语言(含乌克兰语)、高达128,000个token的上下文窗口、多模态能力以及灵活的架构[3] 模型选择依据与优势 - 选择Gemma模型是基于其在性能与资源使用之间的最佳平衡,以及高质量的训练效果[3] - 该模型已被证明是MamayLM、Lapa LLM等现有乌克兰LLM以及保加利亚语现代LLM INSAIT BgGPT的成功基础模型[6] - 模型的其他优势包括多语言支持、多模态性(可处理文本和图像)、先进的tokenizer以及多种模型尺寸可供灵活选择[6] 项目实施计划 - 项目计划改进乌克兰语tokenizer以提升模型性能、减少乌克兰语文本生成错误并优化计算成本[5] - 项目将进一步在专家正在收集的独特乌克兰语文本上对模型进行训练,并创建基准测试以针对未来应用微调模型[5] - 开发的主要任务是在现成的开源模型基础上,使用独特数据进行进一步训练,以最小化语言和伦理风险[4] 公司背景与投资 - Kyivstar集团是一家在纳斯达克上市的控股公司,运营着乌克兰领先的数字运营商JSC Kyivstar,是首家在美国交易所上市的乌克兰公司[5][7] - 截至2025年9月30日,JSC Kyivstar拥有超过2250万移动客户和超过120万家庭互联网固定线路客户[8] - 公司与VEON计划在2023年至2027年间向乌克兰投资10亿美元,用于基础设施和技术开发方面的社会投资、慈善捐赠和战略收购[8] - 在过去三年中,公司已分配超过34亿乌克兰格里夫纳用于支持国防部队、用户以及社会项目的实施[9] 政府数字转型目标 - 乌克兰数字转型部是领导国家数字革命的关键国家机构,旨在为公民和企业构建最便利的国家[11] - 在六年内,乌克兰在数字公共服务发展方面的全球排名从第102位上升至第5位[11] - 该部的旗舰产品是Diia(“智能手机中的国家”),这是一个包含150多项公共服务的门户网站以及一个拥有33种数字证件和65项以上服务的应用程序[12]
AI 顶尖科学家、前 OpenAI 联创 Ilya Sutskever 的 18 个最新思考
Founder Park· 2025-11-26 21:06
AI行业发展阶段与范式转变 - Scaling(扩展)时代已结束,单纯将规模扩大100倍不会带来模型能力的质变[4][8] - 行业从2020年至2025年是扩展时代,而2012年至2020年是研究时代[9] - 行业正重新进入研究时代,特征是尝试多种方法并观察有趣现象的发生[11] - 当前真正瓶颈是模型泛化能力远不如人类,而非算力[4][13] 技术研发方向与核心挑战 - 预训练数据终将耗尽,行业正在探索魔改版预训练用于强化学习等其他方法[7] - 模型能力呈"锯齿状",评测表现与真实世界表现存在巨大断层[27][30] - 泛化能力包含两个子问题:样本效率低以及难以教会模型所需技能[25] - 人类样本效率极高,可能源于进化赋予的核心先验知识或更好的机器学习算法[26] 价值函数与情感的作用 - "情感"作为一种价值函数未来一定会被广泛使用,简单但能在广泛情境下发挥作用[4][18] - 价值函数能让强化学习更高效,无需等待任务完成即可提供实时反馈[16][17] - 人类情感对于生存和有效行动至关重要,类比为大模型中的价值函数[15] - 价值函数的使用界限开始模糊,可能是新配方的关键组成部分[10] AI公司竞争格局与商业模式 - 沿用"盲目扩大规模"路线的公司可能获得惊人收入但不一定有利润[4] - 未来竞争将导致价格下降,公司需在同质化竞争中寻找差异化[34] - 可能出现专业化竞争格局,不同AI公司专注不同复杂领域[34] - 大规模部署AI可能带来经济飞速增长,但增长速度难以预料[35] 超级智能发展与对齐目标 - 未来5-20年可能出现具备人类级别学习能力并能走向超智能的系统[44] - 最终对齐目标是让超级智能真正关心和感知所有生命[4][43] - 构建关爱感知生命的AI比只关爱人类的AI更容易,因为未来大多数感知体将是AI自身[43] - 渐进式部署AI比纯粹思考更重要,让世界感受AI能力是关键[4][39] 研究方法与公司战略 - 好的研究品味需要美感、简洁、优雅以及从大脑汲取的正确灵感[37][38] - SSI公司专注于研究,技术路线与众不同且全力以赴[57][58] - 公司认为分阶段发布模型至关重要,部署过程本身就是试错和学习时期[53][56] - 持续学习非常重要,AI应像绝顶聪明的15岁少年那样充满干劲地学习[56]
Transformer作者重磅预言:AI无寒冬,推理革命引爆万亿市场
36氪· 2025-11-14 19:51
AI行业技术范式转移 - Transformer架构共同作者Łukasz Kaiser认为,推理模型正引发AI领域重大的范式转移,这被视为继2017年Transformer之后最重大的突破[3] - 推理模型具备自我反思、动态分配计算资源、调用外部工具及生成并筛选多条推理路径的能力,完全不同于GPT-4这类纯自回归大语言模型[19] - 在绝大多数推理密集型任务中,OpenAI的首个推理模型o1显著优于当时最强的通用模型GPT-4o,尤其在数学、程序分析等结构化任务上效果明显[21][23] AI技术发展瓶颈与核心制约因素 - AI未来一两年极速跃升的瓶颈不在于算法,而在于GPU计算能力与能源供应,这是当前所有实验室面临的根本性制约[1][17] - 推理模型所需训练数据量比传统模型少几个数量级,但对算力的需求巨大,目前缺乏足够的算力支撑其并行开展更多实验[17] - 通用的互联网数据基本上已被使用完,谁也无法轻易获得比这多得多的数据,纯粹的Scaling在经济上已不可行[35] 行业内对AGI发展路径的争论 - 强化学习之父Richard Sutton与图灵奖得主Yann LeCun等专家认为大语言模型已走入死胡同,其改进能力存在极限,且这个极限远比众所周知的要近[11][13] - OpenAI等公司推动的“LLM+数据+GPU+能源”的AGI路径被部分经济学家认为已接近成功,甚至有观点认为2025年4月16日就是AGI日[4][7] - Łukasz Kaiser反驳“LLM是死胡同”的观点,认为推理模型代表着根本性突破,并指出AI能力会持续增强,但短期内物理世界相关领域仍将存在人类不可替代的工作[17][27] 推理模型的技术特点与应用前景 - 推理模型不急于生成响应,而是先进行推理、检索、调用工具等“深度思考”过程,像人类在回答问题前的犹豫,从而能真正“搞定一件事”[23] - 该方法已能真正胜任职场中的某些工作任务,并且能持续工作数小时产出有价值成果,例如在编程领域能理解大型代码库、进行代码审查、发现漏洞甚至安全威胁[28][31] - 代码模型在三个月前还只是辅助工具,但现在却能真正处理复杂代码库,展现出指数级进步[34] 多模态学习与未来研究方向 - 当前多模态训练已取得成功,模型能将音频编码成离散的音频token,图像被分成多个图像块进行编码,并通过预测下一个token来进行训练[40] - 视频训练虽然数据量巨大,但大部分信息对推理帮助有限,AI需要学会“挑重点”,只提取有意义的部分如运动、因果、变化[42] - 语言模型已掌握对抽象世界的建模,最欠缺的是对人类最熟悉的物理世界的理解,填补这个空白是实现实用机器人的关键突破[42] AI行业未来发展趋势预测 - Łukasz Kaiser认为AI冬天不会来临,未来一两年内改进可能非常猛烈,之后世界将翻天覆地[39] - 未来推理模型需要实现“多线并行思考”,例如同时运行多个思维链然后让它们“讨论”并选出最佳答案,GPT-5 Pro已初步实现这一点[39] - 谷歌的Gemini 1.5 Robotics已开始结合推理与视觉,未来机器人将具备“快反应系统”和“慢思考系统”的结合[43][45]
别被骗了,AI Coding可没那么神,22名软件开发者道出了这些弊端
36氪· 2025-11-14 11:23
AI Coding对软件开发行业的影响 - 大语言模型(LLM)驱动的代码生成器和编程助手正在重塑软件开发者的工作方式,AI Coding成为全球科技巨头和初创企业的战略焦点 [1] - 研究显示,LLM将软件开发者的工作效率提高了26% [1] - 约59%的参与者每天与LLM至少交互6次,ChatGPT是最常被使用的工具 [5][6] AI Coding带来的益处 - 在个人层面,LLM能自动生成样板代码、修复语法、提供即时反馈,帮助开发者节省时间、减少中断并保持“心流”状态 [7] - 在团队层面,LLM减少了开发者之间的协作干扰与沟通成本,并能提供“第二意见”以提升整体创造力 [9] - 在组织层面,LLM节约了软件开发公司的时间和成本,特别是对中小型企业而言,能以更少的人力完成更多任务 [9] - 在社会层面,LLM促进了创新创业,降低了创业门槛 [9] AI Coding存在的弊端 - LLM在生成代码或提供建议时容易出现错误或“幻觉”,反而可能拖慢进度,并需要额外时间验证结果 [11] - 过度依赖LLM可能削弱开发者的代码理解力与学习动力,导致开发者变得懒惰、冷漠,甚至对自身能力失去信心 [11] - LLM生成代码可能涉及版权问题或隐藏漏洞,引发安全隐患,部分公司因此明令禁止员工使用 [13] - 频繁调用LLM需要付费,增加了企业的运行负担,且可能使依赖经验和重复性工作的技术岗位面临失业风险 [13] 开发者与LLM的协作模式 - 开发者会在不同LLM之间反复试用,以找到最契合自己工作需求的工具,并认识到LLM是基于统计的工具而非“智能体” [14] - 开发者倾向让LLM参与代码优化而非直接生成,以保持对逻辑与结构的控制,部分开发者出于隐私考虑选择在本地运行模型 [14] - 开发者需要与LLM维持一种成熟的关系:既信任其能力,又保持理性距离,用人机协作的方式扩展自己的边界 [14] - 开发者基于长期经验积累形成的“直觉”在协作中起到“安全阀”作用,帮助识别LLM的错误或误导性建议 [15]
港中文中稿ICCV'25的自驾自适应快慢双系工作统AdaDrive
自动驾驶之心· 2025-11-12 08:04
文章核心观点 - 香港中文大学(深圳)与中山大学等团队提出名为AdaDrive的自适应协作快慢框架,旨在解决大语言模型融入自动驾驶系统时面临的计算开销与实时性平衡难题 [2] - 该框架通过自适应激活损失动态判断LLM调用时机,并引入自适应融合策略连续调节LLM对传统规划器的影响强度,实现按需激活与无缝协作 [2] - 在语言引导的自动驾驶基准测试中,AdaDrive在驾驶准确率与计算效率两方面均达到最先进性能 [3] 背景与挑战 - 早期方法如LMDrive和AD-H采用同步串行架构,LLM与规划器在每个驾驶步骤都参与运作,虽提升智能性但引入巨大内存开销与延迟,使实时部署面临挑战 [4] - 后续异步策略采用固定间隔激活LLM,但无法适应动态变化的驾驶场景,在安全关键场景中LLM可能未被激活,而在简单场景中激活则显得多余 [7] - 理想框架需具备动态决定LLM激活时机以及自适应控制LLM影响程度的能力 [7] AdaDrive算法架构 - 系统采用快慢路径并行运行,轻量级规划器作为快速路径高频处理每帧图像,LLM作为慢速路径低频激活并在关键场景下提供辅助 [13] - 通过Connector-W和Connector-H两个组件实现自适应整合,分别负责决定LLM激活时机和控制其贡献程度 [13][19] - Connector-W通过新颖的自适应激活损失,基于对比LLM辅助与无辅助预测结果的轨迹损失差异,动态学习LLM的最优激活条件 [20] - Connector-H利用预测置信度分数作为动态加权系数,实现LLM贡献的连续缩放,而非二元决策,公式为轨迹预测统一表示 [21][22] 技术创新点 - 提出长短时Q转换器(LS-Qformer),通过分组机制将可学习令牌分为长时组和短时组,同时提取当前帧关键特征并建模时序特征演变 [24] - 引入传播式记忆融合(PMF)机制,在固定大小的流式内存缓冲区中,将待淘汰帧的特征合并到其前一帧,实现信息前向传播并优化内存效率 [28] - 自适应LLM激活机制在训练中通过损失函数自然学习,确保仅当LLM贡献显著(差值超过预设阈值d=0.3)时才激活,以控制计算开销 [20] 实验性能结果 - 在LangAuto基准测试上,AdaDrive在LangAuto-Tiny和LangAuto-Short子任务的驾驶分数分别达到80.9%和70.6%,较排名第二的方法优势分别为12.9%和16.3% [31][32] - 在推理效率方面,自适应快慢系统与流式内存缓冲区设计使AdaDrive的GFLOPs较连续LLM激活降低62%,同时驾驶分数提升5.6% [33][38] - 消融实验表明,单独使用LS-Qformer可使驾驶分数从67.4%提升至71.9%,增加Connector-W后进一步提升至77.9%,最终完整系统达到80.9% [34][35] - LS-Qformer(20+20令牌)在驾驶分数上优于标准Qformer(75.8%)、SeqQ-Former(77.6%)等变体,达到80.9% [35]
扩散不死,BERT永生,Karpathy凌晨反思:自回归时代该终结了?
36氪· 2025-11-05 12:44
文章核心观点 - 基于RoBERTa的掩码语言模型可通过引入动态掩码率改造为文本扩散模型,实现从表示学习到文本生成的转变 [1][13][26] - 实验证明改造后的RoBERTa Diffusion能生成视觉连贯的文本,表明BERT系模型本质上是固定掩码率训练的文本扩散模型 [21][24][26] - 文本扩散模型采用在整个Token画布上迭代重采样的双向注意力机制,与自回归模型的单向生成机制形成对比 [27][28] 技术原理与实验 - 文本扩散通过在前向过程逐步添加<MASK>噪声,在反向过程训练模型迭代去噪,将掩码语言建模目标扩展为生成过程 [11][13] - 实验使用10个扩散步骤,每个训练批次随机采样从1.0到0.1的掩码比例,推理时从240个<MASK>开始逐步减少掩码比例 [17][18] - 在H200显卡上训练30分钟后,模型基于256长度提示词生成了连贯文本,尽管存在数据集格式化导致的异常 [21][22] 行业影响与前景 - 该方法表明生成领域仍存在优化创新空间,结合AR-Diffusion等技术可进一步提升生成质量与推理速度 [25][28] - 谷歌DeepMind已发布实验性Gemini Diffusion模型,业界认为扩散语言模型在速度上有优势且是下一代AI发展方向 [30] - 扩散模型采用双向注意力机制迭代更新整个Token画布,与自回归模型的单向追加机制形成技术路径差异 [28]
SK hynix Presents Next Generation NAND Storage Product Strategy at OCP 2025
Prnewswire· 2025-10-27 07:46
公司战略发布 - 公司在2025年OCP全球峰会上公布了下一代NAND存储产品战略 [1] - 为满足AI推理市场快速增长的需求,公司正式推出针对AI时代优化的“AIN (AI-NAND) Family”系列解决方案产品 [2] AIN产品系列详情 - AIN系列包含分别针对性能、带宽和密度优化的NAND解决方案产品,旨在提升数据处理速度和存储容量 [3] - AIN P (性能型) 旨在高效处理大规模AI推理工作负载下产生的大容量数据,通过最小化存储与AI操作间的瓶颈来显著提升处理速度和能效,计划于2026年底发布样品 [3] - AIN D (密度型) 是一种高密度解决方案,旨在以低功耗和低成本存储大量AI数据,目标是将密度从当前QLC SSD的TB级别提升至PB级别,实现SSD的速度和HDD的成本效益 [4] - AIN B (带宽型) 是公司利用HBF™技术的解决方案,通过垂直堆叠多个NAND来扩展带宽 [5] HBF技术发展 - HBF技术类似于堆叠DRAM芯片的HBM,是通过垂直堆叠多个NAND闪存制成的产品 [6] - 公司凭借全球顶级的HBM研发和生产能力,早期即开始研究AIN B,以解决AI推理扩展和LLM规模扩大带来的内存容量差距问题,关键是将HBM的堆叠结构与高密度、成本效益高的NAND闪存相结合 [6] - 公司正考虑将AIN B与HBM放置在一起以增强整体系统容量等多种策略 [6] 生态系统合作 - 公司与Sandisk在8月签署HBF标准化谅解备忘录后,联合举办了“HBF Night”以扩展技术生态系统 [7] - 活动吸引了众多行业架构师和工程师参与,并提出了跨行业合作以加速NAND存储产品创新的提议 [8][9] - 公司表示将通过紧密的客户与合作,成为下一代NAND存储市场的关键参与者 [9]
1000 行 Java 代码手搓 OpenAI gpt-oss 推理引擎
AI前线· 2025-10-24 12:07
模型发布与项目背景 - OpenAI于2025年8月发布了开源模型gpt-oss,提供120b和20b两个推理模型版本[3] - 该项目使用约1000行Java代码实现了一个可在CPU上运行的高性能gpt-oss推理引擎,并发布在亚马逊官方GitHub上[3] 模型架构设计 - 模型采用decode-only MoE架构,使用RoPE位置编码和RMSNorm归一化[5] - 注意力层使用Grouped Query Attention,结合Sliding Window Attention和full context交替计算以降低复杂度[5] - MLP FFN层采用MoE架构,20b模型共24层,每层含32个专家,每次前向传播仅激活4个专家[5] - 模型参数采用mxfp4量化,20b模型文件大小仅约13GB,可在单卡16GB GPU上运行[5] 技术实现关键模块 - 代码结构参照PyTorch的model.py设计,包括模型加载、基础算子、注意力块、MLP块和采样等模块[10][15] - 实现原生gpt-oss model.safetensors格式的模型加载[15] - 基础算子包括矩阵运算、RMSNorm和softmax等[15] - 注意力块实现QKV计算、GQA注意力计算及RoPE位置编码[15] - MLP块实现专家路由、SwiGLU激活函数和MLP投影[15] MXFP4量化计算优化 - 模型文件采用mxfp4量化MLP层参数,使用u8类型做块级缩放参数,其余参数采用bf16[12] - 利用Java Project Panama的Vector API实现CPU指令级并行,通过查表转换和FMA指令加速计算[17][19] - 结合多线程并行大幅加速计算过程[19] 性能优化策略 - 通过矩阵转置提高CPU缓存空间局部性,实现26倍性能提升[26] - 利用SIMD向量化指令和4倍循环展开,达到77倍加速[26] - 采用多核并行计算,实现785倍性能提升[26] - 使用分块计算优化CPU缓存命中率,最终达到942倍加速,占物理机实际算力的42%[26] 系统级优化技术 - 关键计算环节如GQA缩放点积和MLP层的4个专家执行均实现并行化[28] - 采用Java Foreign Memory API通过内存映射方式加载MLP权重,仅需16GB内存即可运行模型[29] - 减少内存拷贝,直接加载内存映射段到CPU向量寄存器,避免JVM中间内存分配[30] - 实现算子合并减少计算量和迭代次数,并采用KV缓存优化内存占用[31][32] 性能表现对比 - 在MacOS Apple M3 Pro上实现解码速度8.7 tokens/秒,预填充速度11.8 tokens/秒[33] - 在AWS EC2 m5.4xlarge实例上实现解码速度6.8 tokens/秒,预填充速度10 tokens/秒[34] - 性能显著高于PyTorch原始的0.04 tokens/秒和Huggingface transformers的约3.4 tokens/秒[34] Java在AI推理中的潜力 - Java通过Project Panama等特性不断缩小与底层语言在计算效率上的差距[38] - 项目证明经过适当优化,Java可实现接近O3优化程序95%的性能[38] - Java在性能方面的持续进步使其在AI推理领域具有应用潜力[38]