大型语言模型

搜索文档
中科院团队自研大模型,自动设计超强芯片
半导体行业观察· 2025-06-12 08:42
核心观点 - 提出全自动处理器芯片设计系统QiMeng,通过三层架构(LPCM模型层、设计代理层、应用层)解决传统设计面临的制造约束、资源需求和生态多样化挑战 [10] - LPCM作为领域专用大模型,通过多模态架构、跨阶段训练数据和反馈驱动推理机制,突破知识表示缺口、数据稀缺、正确性保证和解空间四大技术瓶颈 [10][25] - 硬件设计代理采用双循环机制实现从功能规范到物理布局的端到端自动化,软件设计代理实现基础软件自适应与性能优化 [11][47] - 已实现六大应用场景:自动化前端设计(400万门规模)、HDL生成(CodeV模型)、OS配置优化(性能提升25.6%)、编译器工具链、张量程序转译器(准确率95%)和高性能库生成(性能达OpenBLAS 2.5倍) [51][55][68][74][77] 技术架构 LPCM模型 - 多模态架构同时处理文本与图数据(AST/DFG/CFG),通过GNN编码和对比学习实现特征对齐 [26] - 级联单阶段模型自动生成TB级跨阶段对齐训练数据,采用CoT模仿学习和RLHF优化训练 [27][29][30] - 推理阶段集成双反馈循环:功能正确性反馈通过BSD验证实现99.99999999999%正确率,性能反馈通过解空间修剪提升PPA [32][34][36] 设计代理 - 硬件代理双循环:外部性能循环分解400万门电路,内部验证循环用BSD实现5小时完成RISC-V CPU设计 [39][44][55] - 软件代理双循环:外部LLM引导搜索优化OS配置,内部SMT求解器保证程序功能等价 [48][49] - 代理协同实现指令集到软件栈的全栈自动化,支持RISC-V超100种指令扩展验证 [47] 应用成果 硬件设计 - QiMeng-CPU-v1:全球首个自动设计32位RISC-V CPU,规模达400万门,性能相当于Intel 486 [55] - QiMeng-CPU-v2:首款自动超标量CPU,吞吐量比v1提升380倍,性能匹敌ARM Cortex A53 [57] - CodeV系列HDL生成模型在VerilogEval基准上pass@1达81.9%,超越GPT-4和专用模型 [59][66] 软件生态 - AutoOS在SiFive平台UnixBench测试中性能较Fedora默认配置提升25.6% [68] - QiMeng-Xpiler实现CUDA到国产芯片代码转译,平均准确率95% [74] - QiMeng-GEMM在RISC-V平台性能达OpenBLAS 2.11倍,NVIDIA平台达cuBLAS 1.15倍 [77][79] 发展路线 - 三阶段实施路径:自上而下构建组件→自下而上整合LPCM→迭代实现自我进化 [20][21] - 当前完成第一阶段六大应用,计划集成代理组件并生成训练数据推进第二阶段 [22] - 长期目标建立可进化框架,拓展自动化设计能力至更复杂场景 [21]
中科院团队自研大模型,自动设计超强芯片
半导体行业观察· 2025-06-12 08:41
核心观点 - 提出全新处理器芯片软硬件全自动设计系统QiMeng,包含底层大型处理器芯片模型(LPCM)、中间层硬件/软件设计代理和顶层应用的三层架构 [1][9] - LPCM通过多模态架构、跨阶段协作训练和反馈驱动推理三大创新设计,解决知识表示缺口、数据稀缺、正确性保证和巨大解空间四大挑战 [10][23] - 硬件设计代理采用双循环机制实现从功能规范到物理布局的端到端自动化设计,软件设计代理实现基础软件无缝适配和性能优化 [11][39] - 已实现自动化前端设计、HDL生成等应用,其中QiMeng-CPU-v2性能达到Arm Cortex A53水平 [59][60] 技术挑战 - 制造工艺接近7纳米以下物理极限,量子隧穿和短沟道效应使传统性能扩展方法失效 [4] - 传统设计流程需要大量专业知识和验证迭代,导致开发周期长、成本高昂 [4] - RISC-V等开放指令集带来组合爆炸问题,软件生态适配复杂度呈指数级增长 [50] - 32位CPU设计解空间达10^10540量级,远超传统方法处理能力 [7] LPCM创新设计 - 多模态架构同时处理文本和AST/DFG/CFG等图数据,通过GNN编码和对比学习实现特征对齐 [26][27] - 跨阶段协作训练通过级联单阶段模型自动生成TB级跨阶段对齐数据,缓解数据稀缺问题 [28][29] - 反馈驱动推理集成功能正确性验证(准确率99.99999999999%)和性能优化双循环机制 [33][34][36] 硬件设计代理 - 外部性能优化循环通过模块分解将解空间降低4个数量级,内部验证修复循环确保功能正确性 [45][47] - 采用二进制推测图(BSD)表示电路,通过香农展开实现错误节点自动修复,验证精度渐近收敛至100% [59] - 已实现400万门规模的QiMeng-CPU-v1和1700万门超标量QiMeng-CPU-v2,后者性能达Cortex A53水平 [59][60] 软件设计代理 - 外部循环采用LLM引导的蒙特卡洛树搜索优化性能,内部循环通过SMT求解器保证功能等价 [52][53] - AutoOS方法在1天内完成Linux内核15000个配置项的优化,性能提升最高达25.6% [71] - QiMeng-Xpiler实现CUDA到国产AI芯片的程序转译,平均准确率95% [77] 应用成果 - CodeV系列模型在Verilog生成任务上pass@1达81.9%,超越GPT-4和专用开源模型 [63][69] - QiMeng-GEMM生成的矩阵乘法算子在RISC-V平台性能达OpenBLAS的2.11倍 [80] - QiMeng-Attention在NVIDIA T4平台生成的注意力算子性能为cuDNN的3.04倍 [84]
世界顶尖数学家在测试中震惊地发现,人工智能模型已经接近数学天才了
36氪· 2025-06-09 07:49
AI数学推理能力突破 - o4-mini在伯克利数学会议上成功解决教授级难题,被评价为"接近数学天才"[1] - 该模型由OpenAI训练,采用轻量化架构和人类强化学习,推理能力显著优于早期LLM[1] - 在未训练过的300道数学题测试中,传统LLM正确率不足2%,而o4-mini突破此局限[2] 基准测试进展 - FrontierMath项目分四个难度级别测试,o4-mini在2025年4月已能解决20%高难度问题[3] - 第四级别测试采用严格保密协议,问题设计者每道未解题可获得7500美元奖励[3][4] - 30位数学家分组设计挑战题,最终仅10题难倒AI,显示模型解决博士级问题的能力[4][5] 技术表现细节 - o4-mini解题过程展现类人推理:先检索文献,构建简化版问题,再完成完整证明[5] - 速度优势明显,几分钟完成人类需数周的工作,被比作"优秀研究生+"水平[6] - 输出风格具有高度自信,学者担忧其"威吓证明"可能影响结果可信度[6] 行业影响与未来 - 数学家角色可能转向问题提出和AI协作,类似教授指导研究生的模式[6] - 第五层级问题(人类无法解决的难题)将重塑数学研究范式[6] - 高等教育需加强创造力培养以应对AI冲击,保持学科传承价值[6][7]
英伟达,遥遥领先
半导体芯闻· 2025-06-05 18:04
MLPerf基准测试结果分析 - Nvidia GPU在最新MLPerf基准测试中保持主导地位 包括对Llama 3 1 403B大型语言模型预训练的顶级性能表现 [1] - AMD首次提交训练基准测试 其Instinct MI325X GPU在LLM微调任务中性能与Nvidia H200相当 但整体落后Nvidia一代 [1][3] - AMD Instinct MI325X相比前代MI300X性能提升30% 主要由于高带宽内存增加30% [3] 基准测试任务特点 - 本次测试包含6个行业相关机器学习任务 包括内容推荐 LLM预训练/微调 目标检测 图像生成和图节点分类 [1] - LLM预训练是最资源密集的任务 本次使用Meta Llama 3 1 403B模型 规模是GPT3的两倍多 上下文窗口扩大4倍 [2] - 预训练后通常进行微调而非"训练" 微调是针对特定任务改进模型的关键阶段 [2] 硬件性能表现 - Nvidia Blackwell GPU在所有六项基准测试中取得最快训练时间 这是Blackwell首次大规模部署 [2] - 最大规模提交使用8192块GPU 性能扩展接近线性 达到理想性能的90% [7][9] - NVL72套件通过NVLink连接36个Grace CPU和72个Blackwell GPU 形成"单个大型GPU"系统 [9] - 相比历史记录 本轮最大提交GPU数量(8192)少于前几轮(超10000) 反映硬件效率提升 [12] 行业技术趋势 - 更大模型成为行业趋势 Llama 3 1 403B基准测试反映了这一发展方向 [2] - 网络连接效率对大规模训练至关重要 NVL72和InfiniBand技术显著提升多GPU协同效率 [7][9] - 能效问题受关注 两块Blackwell微调LLM耗电6 11千兆焦耳(1698千瓦时) 相当于小型房屋冬季供暖能耗 [13] 其他参与者表现 - 谷歌使用Trillium TPU提交了图像生成任务的单一基准测试 [3] - Cerebras采用晶圆级集成技术 声称推理性能比Blackwell好两倍以上 但测试方法不同于MLPerf [12] - 仅联想提交了功耗测量结果 行业呼吁更多公司参与能效测试 [13]
刚刚,新一届ACM博士论文奖正式公布
机器之心· 2025-06-05 15:14
机器之心报道 编辑:张倩、+0 近日,新一届 ACM 博士论文奖正式公布。 该奖项每年颁发给计算机科学与工程领域最佳博士论文的作者。今年颁发的是 2024 年的奖项,包括一个博士论文奖和两个博士论文奖荣誉提名。 获得博士论文奖的论文非常有现实意义,它研究的是:现在心理健康问题越来越多,但专业心理医生不够用,怎么办? 我们知道,在 DeepSeek 等 AI 模型火起来之后,很多人都把 AI 当成了心理医生。但很多时候,AI 并不能像真正的心理治疗师一样提供专业指导。或许,「人机 协作」是条更现实的折中路线。 在论文中,获奖作者 Ashish Sharma 探索了多种方法来实现更好的人机协作。他的方法类似于: 他最近开发的 AI 辅助心理健康工具已被公开发布,并有超过 16 万用户使用,其中大多数是低收入人群。使用这些工具的人群中,超过 50% 的家庭年收入低于 4 万美元。 除了这篇论文,还有两篇论文获得了博士论文奖荣誉提名,其中一篇研究的问题是「利用伪随机分布揭示低复杂度计算模型的固有计算局限性」;另一篇则专注 于「大型语言模型如何利用它们在训练时学习到的海量文本数据」。 随着全球心理健康问题激增,医疗保健 ...
共封装光学,达到临界点
半导体行业观察· 2025-06-04 09:09
共封装光学器件(CPO)技术概述 - 基于CPO的网络交换机已商业化,支持太比特级信号路由,但面临光纤-PIC对准、热管理和光学测试等制造挑战 [1] - CPO将光电转换靠近GPU/ASIC交换机,带宽密度达1 Tbps/mm,相比可插拔模块功耗从15 pJ/bit降至5 pJ/bit(预计<1 pJ/bit) [1][6] - 当前数据中心采用可插拔光收发器通过PCB电连接交换机,存在信号损耗和能效瓶颈 [1][2] 技术优势 - 缩短电信号传输距离至100µm,信号损耗从>20dB降至1-2dB,SerDes组件需求降低 [7] - 硅光子IC采用DWDM技术,单个光纤端口带宽扩展10倍,器件微型化推动与计算节点集成 [6] - 典型配置中计算芯片被4-8个硅光子IC收发器包围,激光器因可靠性问题单独封装 [6] 制造挑战 光纤对准 - 单模光纤(8-10µm)与SOI波导(500x220nm)尺寸差异导致模式失配,需0.1µm精度对准 [8][9] - V型槽无源对准实现最低损耗,可拆卸方案每个接口增加约1dB损耗 [8] - 光纤阵列对准需3D调整,自动化系统通过光反馈优化多通道耦合效率 [10] 热管理 - 1°C温度变化导致0.1nm波长偏移,DWDM架构下热稳定性要求更严格 [11] - 激光器可靠性是最大缺陷来源,多波长激光器将提高测试要求 [13] - 需选择热界面材料并部署传感电路,保持PIC在>105°C环境下的性能 [11][13] 可靠性设计 - 采用Telcordia GR468和JEDEC标准测试,硅光子器件故障率低于1 FIT [14][16] - 冗余设计包括备份激光器阵列和容错架构,支持自动切换降低停机时间 [15] - 集成监控/BiST功能实现自校正,晶圆级测试对复杂多芯片组件至关重要 [15][16] 封装架构 - 2.5D方案中EIC与PIC通过硅中介层互连,可集成波导/光栅等光学特性 [17] - 3D堆叠允许EIC用先进CMOS节点、PIC用硅光子平台,但增加TSV/HBI成本 [18] - 单片集成简化散热但限制IC工艺节点,3.5D方案结合EMIB实现最优性能 [18] 行业应用前景 - CPO为AI数据中心提供带宽和能效突破,光子IC性能达传统收发器10倍 [7][20] - 技术依赖精密对准、热管理及测试方法,需内置冗余保障高可靠性运行 [20]
人工智能和知识图谱:人工智能中知识图谱的概述
36氪· 2025-05-30 11:48
知识图谱定义与结构 - 知识图谱是由实体(节点)和关系(边)组成的结构化网络,用于以机器可读形式编码知识,实体对应现实世界概念(如人物、地点),边表示实体间关系(如"Person worksFor Company")[1][2] - 采用灵活的基于图的数据模型(如RDF或属性图),支持异构和动态数据,通过唯一ID或URI标识实体,属性可附加到节点和边上以补充详细信息[2] - 与传统关系数据库相比,知识图谱能更好地捕获信息上下文和含义,促进数据整合与新事实推断[2] 知识图谱在AI中的作用 - 为AI系统提供结构化背景知识,支持多跳连接查询、逻辑规则应用和上下文关联,增强语义理解与推理能力[3][4] - 主要应用包括:知识集成(打破数据孤岛)、语义丰富(为NLP/ML添加语境)、逻辑推理(推断新事实)、人机交互(生成可解释答案)[3][4] - 通过链接多源数据(如客户数据、社交媒体)实现全局分析,例如图像识别系统可结合知识图谱提升对象分类理解[3] 知识图谱的优势 - 减少AI数据需求:编码先验知识(如"阿司匹林治疗头痛")可降低对大规模标注数据的依赖[5] - 改进迁移学习:跨任务复用图谱知识(如城市道路网络理解),无需重新训练[6] - 增强可解释性:通过关系链追溯决策依据(如金融AI标记欺诈交易的原因)[6] - 提升互操作性:共享词汇表和标识符实现跨系统数据整合,如谷歌搜索利用知识图谱优化结果[7] 历史演变 - 概念源于20世纪60年代语义网络,经语义网(RDF/OWL标准)和链接数据(2006年)发展,2012年谷歌知识图谱推动商业化应用[8] - 当前形态包括领域专用图谱(医疗/金融)、开放知识库(Wikidata)和企业知识图谱,动态图谱可自动更新(如整合新研究成果)[8] - 科技巨头自建图谱案例:微软Satori、Facebook实体图谱[8] 最新技术进展(2023-2025) - **与LLM融合**:KG作为外部知识源减少LLM幻觉,支持检索增强生成(RAG);LLM辅助自动化KG构建(实体/关系提取)[9][10][11] - **嵌入与图机器学习**:TransE/ComplEx等嵌入模型升级,结合GNN/Transformer处理复杂关系;基准测试(FB15k-237)推动链接预测精度提升[12][13] - **自动推理**:SPARQL优化器改进,神经符号系统处理不确定性;超关系图谱支持n元事实推理,查询语言扩展(Cypher/GSQL)[14][15] 新兴趋势 - 企业级自动化管理(AI驱动构建/更新)与可信AI(决策溯源)成为重点[16][17] - 领域专用图谱(生物医学/法律)快速发展,多模态集成(图像/音频链接实体)受关注[16] - 知识嵌入2.0融合本体与文本描述,混合符号-神经方法成为研究方向[16]
香港金管局与香港科技大学签署合作备忘录 推动香港金融业的网络安全创新
智通财经· 2025-05-29 11:26
香港金管局助理总裁(银行监理)朱立翘表示,网络安全是银行服务数码化进程的重要一环。此次合作将 融合金管局的监管经验和科大商学院的学术专长,有助应对银行体系日益复杂的网络威胁,从而保障香 港的金融稳定与健全。 科大商学院署理院长许佳龙教授补充:"很高兴与金管局展开这项具前瞻性的合作。透过结合我们的研 究实力与金管局的监管洞察,我们期望共同开发具影响力的技术方案,应对现实世界的网络安全挑战, 并为香港金融生态系统的韧性作出贡献。" 5月29日,香港金融管理局(香港金管局)与香港科技大学工商管理学院(科大商学院)宣布签署合作备忘 录,加强在网络安全应用研究方面的合作,切合香港金融业的需要。 此次合作备忘录为双方在网络安全这一关键领域建立策略性合作框架,致力推动相关研究及增长知识, 目标包括开发具实际价值的应用方案、提升业界对新兴威胁的认识,以及培育网络安全专才,支援金融 业的持续发展。 透过本次合作,香港金管局与科大商学院将运用最新大型语言模型等前沿技术,共同探索创新的监管科 技(Suptech)及合规科技(Regtech)方案,帮助进一步提升金管局的监管能力,强化金融业的网络防卫韧 性。为使研究能针对业界当前及新 ...
蔡崇信:大多数机器人不需要像人类,年轻人选老板比选岗位更重要
搜狐财经· 2025-05-26 11:36
ters we the 来源:猎云网 第五届BEYOND国际科技创新博览会(BEYOND Expo2025)于5月21日至24日举行。 5月24日,在闭幕式上,阿里巴巴集团董事长蔡崇信现身现场,提到阿里巴巴对组织架构进行了一些调整。 蔡崇信称,阿里巴巴将专注于几大核心业务:一是电子商务;二是云计算;三是希望确保人工智能渗透到业务的各个方面,既面向客户,也面向内部。 此外,蔡崇信还发表了年轻人就业的观点。 他认为,年轻人应因为想获取更多技能和知识而工作,这才是工作的意义。 同时,他表示,当你将机器人技术与人工智能结合起来时,想到了非常令人兴奋的事情。比如,机器人可以为你煮咖啡,或者可以到你家清洁地板。 但他也认为,世界上大多数智能机器人不需要看起来像人类。 他举例,如果你想让一个机器人来清洁你的地毯,回家打扫你的厨房或客厅,你真的想要一个看起来像人类的东西吗?我会感到害怕。我只想要一个看起来 像吸尘器的东西能智能地在房间里完成清洁工作。 "当我们谈论机器人时,我们总是会想起小时候看过的电影。它们看起来都像人,但它们显然不是人。现在,我们是否正在努力向与人类完全一样的机器迈 进?我认为这实际上是一种技术。还有很多 ...
腾讯混元TurboS技术报告首次全公开:560B参数混合Mamba架构,自适应长短链融合
AI前线· 2025-05-23 03:57
腾讯混元TurboS模型技术亮点 - 采用创新的Hybrid Transformer-Mamba架构MoE设计,结合Mamba长序列处理效率与Transformer上下文理解优势,实现性能与效率平衡 [2] - 模型激活参数56B(总参数560B),为业界首个大规模部署的Transformer-Mamba专家混合模型 [2] - 引入自适应长短思维链机制,动态切换快速响应与深度思考模式,优化计算资源分配 [7] 模型性能表现 - 在LMSYS Chatbot Arena评测中获1356分,全球排名第7,国内仅次于Deepseek [1][2] - 多语种能力突出,中文/法语/西班牙语并列全球第一,韩文排名全球第二 [4] - 四大关键任务(困难提示/创意写作/多轮对话/长问题)均进入全球前五 [5] 架构与训练创新 - 采用128层交错式"AMF"(Attention→Mamba2→FFN)和"MF"模块设计,FFN层占比50%,Mamba2层占44.5% [14][15] - 预训练使用16万亿Token语料,上下文窗口扩展至256K Tokens [10][18] - 后训练包含监督微调/自适应CoT融合/多轮推敲学习/两阶段强化学习四模块 [22] 基准测试对比 - 数学推理表现仅次于DeepSeek-v3-0324,GSM8K达94.4分,MATH达90分 [41] - 逻辑推理在BBH/DROP/Zebra-Logic基准与DeepSeek-V3共同树立新标杆 [42] - 中文任务表现强劲,C-Eval得分88.7,CMMLU达89.4 [20][42] 基础设施优化 - 自研Angel-RL训练框架集成5种并行技术,ZeroCache技术降低GPU显存压力 [45][46] - 推理部署优化实现1.8倍加速,数学/编程任务Token消耗减少35%-45% [47] - Mamba Kernel优化增强计算并行性,MoE专家并行缓解解码显存瓶颈 [47]