Workflow
类脑计算
icon
搜索文档
国产类脑大模型适配国产沐曦GPU!长序列推理提速超百倍,仅用2%数据匹敌主流模型
量子位· 2025-09-11 18:19
核心技术思路 - 提出“基于内生复杂性”的通用智能实现路径,旨在通过融合神经元内部丰富动力学特性来构建高效模型,区别于现有“基于外生复杂性”(简单神经元+大规模网络)的技术路径[7][9] - 核心创新在于借鉴大脑信息处理机制,使用具有复杂内生动态的脉冲神经元构建模型,理论上存在用小规模复杂神经元网络代替大规模简单神经元网络的可能性[5][6] - 团队在理论上建立了脉冲神经元内生动力学与线性注意力模型之间的联系,揭示现有线性注意力机制是树突计算的特殊简化形式,为性能提升提供了清晰路径[13] 模型架构与性能 - SpikingBrain-1.0包含7B和76B两个版本:7B为层间混合纯线性模型,76B为层内混合的混合线性MoE模型,分别具有线性及近线性复杂度[10][14] - 7B模型在极低训练数据量(约150B token,为主流模型的2%)下实现与主流开源Transformer模型相媲美的性能,在MMLU基准上达到65.84分[18][19] - 76B模型仅激活12B参数,在MMLU基准上达到73.58分,性能接近或优于Llama2-70B、Mixtral-8*7B等先进Transformer模型[20] 效率优势与基准测试 - 在GPU上处理1M长度序列时,TTFT速度相比主流大模型提升26.5倍,4M长度下保守估计速度提升超过100倍[2][21] - 序列长度从256k扩展到4M时,推理时间开销几乎恒定(1015ms至1073ms),而Qwen baseline在1M长度时已达27929ms且难以评测4M长度[21][22] - 在手机CPU端,压缩至1B的模型在64k-128k-256k长度下较Llama3.2的1B模型Decoding速度分别提升4.04倍-7.52倍-15.39倍[23] 技术创新点 - 构建自适应阈值神经元模型模拟生物神经元脉冲发放过程,通过虚拟时间步策略实现“电位-脉冲”转换,将整数脉冲计数重新展开为稀疏脉冲序列[12] - 动态阈值脉冲化信息编码方案可将模型中计算量占比90%以上的稠密连续值矩阵乘法替换为支持事件驱动的脉冲化算子,实现高性能与低能耗兼顾[12] - 结合网络层面MoE架构与神经元层面稀疏事件驱动计算,提供微观-宏观层面的稀疏化方案,体现按需计算的高效算力分配[13] 国产化与生态建设 - 适配了面向沐曦MetaX国产GPU集群的高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语,实现百卡规模数周稳定训练[2][13][26] - 7B模型在国产算力集群上进行8k长度训练时,MFU达到23.4%,TGS per GPU达到1558 tokens/s,展示了构建国产自主可控新型非Transformer大模型架构生态的可行性[26][28] - 团队开源了SpikingBrain-1.0-7B模型并提供76B模型的网络试用端口,支持数百人并发请求,积极推动类脑研究生态构建[27][29]
高性能计算群星闪耀时
雷峰网· 2025-08-18 19:37
高性能计算(HPC)与大模型发展 - 高性能计算是大模型训练的核心基础设施 没有高性能计算就没有大模型[2] - HPC技术在大模型时代扮演降本增效的关键角色 通过软硬协同优化可显著提升训练效率[3][4] - 中国HPC发展经历了三个阶段 从自研计算机到采购工作站再到自研处理器构建超算[4] 清华高性能计算研究所 - 清华高性能所是中国HPC研究的先驱 率先采用工作站集群方案打破美日垄断[4] - 研究方向从硬件转向软件优化 在计算/存储/通信三大领域积累深厚经验[5] - 培养了大量顶尖人才 包括华为海思首席科学家/网易有道CEO等产业界精英[16] 存储技术创新 - 郑纬民团队突破大规模SAN存储技术 将产品价格大幅降低[13] - 提出云存储概念并开发国内首个云计算平台"清华云"[13] - 陆游游团队开发的SuperFS文件系统夺得IO500全球存储榜首[63] 大模型训练优化 - 开发"八卦炉"训练系统 支持174万亿参数MoE模型在国产超算上运行[37] - 推出全球首个开源MoE训练框架FastMoE 训练效率提升显著[41] - SmartMoE系统采用动态并行策略 进一步优化稀疏模型训练[42] 推理系统创新 - Mooncake系统实现KVCache共享 节省GPU算力消耗[55] - KTransformers系统实现CPU/GPU协同推理 降低显存需求[57] - "赤兔"推理引擎支持国产芯片 性能优于主流开源方案[44] 国产芯片生态建设 - 清程极智专注国产芯片编译优化 支持华为/沐曦等十余家厂商[86] - 开发九源智能基础软件栈 实现跨硬件平台适配[96] - 目标是用国产芯片训练国际一流大模型 突破算力瓶颈[85] 新兴计算方向 - 张悠慧研究类脑计算 提出类脑计算完备性理论[74] - 开发通用类脑编译器 解决软件碎片化问题[77] - 汪东升团队发现多个处理器安全漏洞 推动硬件安全防御[81]
我科学家研发新一代神经拟态类脑计算机
人民日报· 2025-08-16 05:46
新一代神经拟态类脑计算机发布 - 浙江大学脑机智能全国重点实验室发布新一代神经拟态类脑计算机"悟空" [1] - "悟空"基于专用神经拟态芯片 支持脉冲神经元规模超过20亿 神经突触超过千亿 神经元数量接近猕猴大脑规模 [1] - 类脑计算是将生物神经网络工作机理应用于计算机系统设计 构建低功耗 高并行 高效率 智能化的计算系统 [1] 技术突破与芯片配置 - "悟空"搭载960颗达尔文3代类脑计算芯片 由浙江大学联合之江实验室研制 [1] - 单颗芯片支持超过235万脉冲神经元与亿级神经突触 [1] - 支持类脑计算专用指令集和神经拟态在线学习机制 [1] - 在大规模神经元系统互连与集成架构等关键技术方面取得突破 [1]
多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》
机器之心· 2025-08-15 11:29
人工智能与脉冲神经网络 - 当前人工智能技术发展迅猛但面临高能耗问题,脉冲神经网络(SNNs)被视为更具生物合理性和能效的计算范式 [2] - 现有脉冲神经元模型(如LIF、ALIF、HH、多室模型)存在局限性,仅通过单通道连接难以同时编码输入信号的空间强度分布与时间动态性,导致SNNs在时空计算任务中性能不足 [3] 多突触发放(MSF)脉冲神经元模型 - 国防科技大学与中国科学院自动化研究所合作提出MSF脉冲神经元模型,兼具生物合理性和计算高效性,可同时编码输入信号的时空动态信息 [3][5] - MSF神经元受生物多突触连接现象启发,通过不同突触的瞬时发放率和精确脉冲时序实现时空信息编码,在多种生物大脑中广泛存在 [9][10] - 理论层面显示MSF神经元是通用且更精细的神经元抽象模型,传统LIF和ReLU神经元为其特例,揭示了ANNs与SNNs的内在联系 [10] - 实验层面通过信号重建任务验证MSF神经元可独立编码频率与时间信息,重建图像具有更好的纹理和颜色细节 [10][13] 性能与应用验证 - 在静态与动态识别、目标检测、脑机接口、强化学习等任务中,MSF神经元性能显著优于传统LIF神经元,部分任务甚至超越相同结构的ANNs并展现更高能效比 [13][16] - 研究团队已成功将MSF神经元部署于国产神经形态硬件平台,在真实自动驾驶场景下完成事件驱动的目标检测任务,验证硬件兼容性 [14][18] - 训练后模型的突触数量分布与人类大脑皮层相似,体现生物学合理性与可解释性 [15] 研究意义与未来方向 - 该成果推动类脑计算向更复杂、更具自然智能方向发展,为构建低功耗、高性能、可扩展的人工智能系统奠定基础 [18] - 未来将继续探索MSF神经元在更广泛任务中的应用潜力,助力人工智能技术向智能、绿色与可持续方向发展 [19]
告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
机器之心· 2025-08-13 17:29
模型架构创新 - 提出BriLLM模型,突破传统Transformer架构限制,采用基于有向图的神经网络设计,模拟人脑全局工作机制[3][9] - 引入信号全连接流动(SiFu)机制,以动态信号传播替代注意力机制,实现节点间信号传递[9][13] - 支持无限上下文处理,模型参数完全独立于序列长度,长上下文无需增加参数量[15][16] 性能优势 - 模型计算复杂度低,摆脱Transformer的平方级复杂度限制,提升处理效率[7] - 通过低频词元边共享技术大幅降低参数规模,中文版参数从16.90B缩减至2.19B(缩减率87%),英文版从16.90B缩减至0.96B(缩减率94.3%)[21] - 全模型具备100%可解释性,所有节点及决策流程透明,突破传统黑箱困境[9][19][25] 技术突破 - 首次在宏观尺度模拟人脑语义编码机制,静态语义映射与动态电信号传导双路径创新[8][9] - 支持多模态天然融合,节点可扩展至视觉、听觉、具身交互等模态,无需重新训练模型[25][26] - 模型规模可扩展至千亿参数级别,词表扩展至4万时预期参数量100-200B,与SOTA模型相当但无上下文扩展限制[22] 应用前景 - 为多模态AGI及具身智能提供通用框架,直接支持感知-运动整合[26][27] - 获上海交通大学"交大2030"计划2025年度重点项目资助,额度500万,聚焦颠覆性基础研究[27]
中芯国际产能供不应求;传SK海力士HBM4大幅涨价;传三星DDR4停产延后…一周芯闻汇总(8.4-8.10)
芯世相· 2025-08-11 14:46
行业政策与规划 - 七部门联合发布实施意见 提出突破关键脑机芯片 包括高通道脑信号采集芯片 高性能处理芯片和超低功耗通信芯片[9] - 上海出台具身智能产业发展方案 要求加快专用芯片和核心主板研制 推动关节模组等零部件企业落地[9] - 特朗普宣布美国将对进口芯片和半导体征收约100%关税 本土制造可豁免[9][7] 市场规模与增长 - 2025年上半年全球半导体市场规模达3460亿美元 同比增长18.9% 其中Q1增长18.1% Q2增长19.6%[10] - 逻辑半导体上半年增长37% 存储增长20% 传感器增长16% 模拟和微型器件增长4%[10] - 2025年Q2全球半导体销售额1797亿美元 同比增20% 环比增7.8% 亚太和美洲市场为主要驱动力[11] - 先进IC载板市场2024年预计142亿美元 同比增1% 2030年有望达310亿美元[11] 企业动态与产能 - 中芯国际Q2营收22.1亿美元 同比增16% 上半年累计44.6亿美元 同比增22% 产能利用率92.5%[13] - 中芯国际预计供不应求状态持续至10月 ASP上升因取消12寸晶圆折扣 但否认主动涨价[14] - 华虹半导体Q2营收5.66亿美元 毛利率10.9% 产能利用率创季度新高[14] - 三星启动1c DRAM产线建设 目标2025年上半年实现月产能15-20万片晶圆[15] - 台积电对特朗普宣称"在美投资3000亿美元"不予置评 此前已公布1650亿美元投资计划[16] 产品与技术进展 - 三星修改DDR4停产计划 将1z DRAM生产延长至2026年12月[18] - SK海力士HBM4定价较HBM3E上涨60-70% 单价约500美元 因采用台积电4nm制程导致成本上升[18][19] - 存储芯片价格连续4个月上涨 DDR4 8Gb产品7月均价3.9美元 环比涨50% 创2021年10月以来新高[19] - 中国研制出Darwin Monkey类脑计算机 含20亿脉冲神经元 千亿神经突触 功耗约2000瓦[21] 终端市场表现 - 2025年Q2中国消费级游戏本同比增24.3% 联想占42%份额 华硕占32.1%[22] - 全球平板电脑Q2出货3900万台 同比增9% 苹果出货1410万台居首 华为增29% 小米增42.3%[22] 资本与供应链 - 全球前10大半导体公司年度资本支出预计增7%至1350亿美元 台积电 SK海力士等6家计划增加预算[11] - 环球晶圆获美国芯片法案2亿美元拨款 用于德州和密苏里州硅晶片扩产[17] - 格芯与中国本土晶圆厂达成协议 优先合作汽车级CMOS技术 满足国内需求[17]
“达尔文猴”出笼!中国类脑计算机颠覆AI底层逻辑
金投网· 2025-08-06 14:19
类脑计算机“达尔文猴”技术突破 - 浙江大学研发全球首台基于专用神经形态芯片的类脑计算机“达尔文猴”,其神经元数量超过20亿个,接近猕猴水平[1] - 该系统由960块达尔文3型类脑计算芯片组成,可产生超过1000亿个突触[1] - 在典型运行条件下,该系统功耗仅为2000瓦左右,具备大规模、高并行性和低功耗特性[2] 类脑计算机应用与潜力 - “达尔文猴”已成功部署,利用深寻公司的类脑大型模型完成内容生成、逻辑推理和数学等任务[1] - 该计算机的神经元和突触资源可用于模拟猕猴、小鼠和斑马鱼等动物大脑,有望推动脑科学研究[1] - 类脑计算通过模拟决策、学习和记忆等认知功能,旨在实现更高效的信息处理、更快的问题解决以及更先进的人工智能系统[1] 类脑计算技术原理与行业对比 - 神经形态计算从大脑的神经网络和处理能力中汲取灵感,使用人工神经元和突触[1] - 脉冲神经网络使用离散脉冲传输数据,比传统人工神经网络更接近生物神经元功能[2] - 英特尔在去年4月宣布建成拥有11.5亿个神经元的神经形态计算系统Hala Point,而“达尔文猴”的神经元数量超过20亿个[1][2] 达尔文3芯片技术细节 - 达尔文3芯片由浙江大学与浙江省实验室于2023年合作研发,是“达尔文猴”系统的基础[2] - 每块达尔文3芯片支持超过235万个脉冲神经元和数亿个突触,并配备了专门的类脑计算指令集和神经形态在线学习机制[2]
浙大发布神经拟态类脑计算机“悟空”
杭州日报· 2025-08-06 11:27
技术突破 - 浙江大学脑机智能全国重点实验室发布新一代神经拟态类脑计算机Darwin Monkey(悟空),神经元规模超过20亿,为国际首台基于专用神经拟态芯片的类脑计算机[1] - 该系统由15台刀片式神经拟态类脑服务器组成,每台集成64颗达尔文3代类脑计算芯片,神经元数量接近猕猴大脑规模,典型运行功耗约2000瓦[1] - 团队采用分层资源管理架构并研制新一代达尔文类脑操作系统,实现神经拟态任务高效并发调度与系统资源动态优化[1] 应用能力 - 可运行DeepSeek完成逻辑推理、内容生成和数学求解等智能任务[1] - 初步模拟秀丽线虫、斑马鱼、小鼠及猕猴等不同神经元规模的动物大脑,为脑科学研究提供新手段[1] 行业影响 - 为现有计算场景提供新计算范式,解决深度网络及大模型高能耗、高计算量问题[2] - 作为神经科学研究脑的仿真工具,在减少生物实验基础上提升对大脑的理解[2] - 通过仿脑工作机制和超越人脑的运算速度推动通用人工智能发展[2]
浙大打造全球最大类脑计算机,拥有20亿个神经元,接近猕猴大脑规模,能运行DeepSeek
量子位· 2025-08-04 15:00
全球最大规模类脑计算机 - 浙江大学发布全球规模最大的类脑计算机"Darwin Monkey(悟空)",采用第三代类脑芯片Darwin 3构建,拥有超过20亿个脉冲神经元与1000亿突触连接,首次在工程系统中逼近猕猴大脑的神经元规模 [1] - 系统功耗降低至2000瓦,是国际上首台突破20亿神经元的神经拟态类脑计算机 [1] - 已成功部署包括DeepSeek在内的智能应用,可模拟不同神经元规模的动物大脑(如秀丽线虫、斑马鱼、小鼠及猕猴) [1][19] 类脑计算技术背景 - 神经拟态类脑计算通过人工神经元和突触模拟大脑计算机制,旨在实现更高效的信息处理,人脑约含860亿神经元 [4] - 脉冲神经网络(SNN)使用离散脉冲传输数据,比传统人工神经网络更接近生物神经元功能 [8] Darwin3芯片技术突破 - 配备960颗自研Darwin3芯片,单芯片支持235万个脉冲神经元,采用24×24二维计算节点网格架构,支持4096神经元/节点 [6][8] - 采用事件驱动架构,每次突触操作能耗低至5.47皮焦耳,最大扇入/扇出能力分别提升1024倍和2048倍 [11][13] - 支持10条专用指令集,可高效表达多种脉冲神经元模型和学习规则,指令解码时间显著降低 [9][10] 系统集成创新 - 64颗芯片组成刀片式服务器,15台服务器构成完整"悟空"系统 [16] - 采用2.5D先进封装技术开发DarwinWafer晶上系统,64颗芯片集成于12英寸晶圆,互联速度更快、功耗更低 [18] - 配套开发分层资源管理架构的达尔文类脑操作系统,实现神经拟态任务高效并行执行 [20] 行业地位与应用前景 - 超越Intel 2024年发布的Hala Point系统(11.5亿神经元),成为当前最大神经拟态计算机 [22] - 可作为AI发展的新计算基础,为脑科学研究提供模拟工具,并支持超越人脑计算速度的类脑智能研究 [23][24] - 前代产品"Darwin Mouse"(2020年)已具备1.2亿神经元规模 [21]
影响市场重大事件:央行继续实施好适度宽松的货币政策,发展人民币离岸市场
每日经济新闻· 2025-08-04 08:06
货币政策与金融支持 - 央行将继续实施适度宽松的货币政策 通过降低存款准备金率 下调政策利率及结构性工具利率 促进融资成本下行[1] - 央行推动人民币国际化 发展离岸市场并建立稳定的流动性供给渠道 优化本外币一体化资金池政策[2] - 财政部恢复对新发行国债 地方政府债券及金融债券利息收入征收增值税 8月8日起实施 此前发行债券维持免税至到期[3] 工业数字化转型 - 八部门印发机械工业数字化转型方案 目标2027年智能制造成熟度二级及以上企业占比达50% 建成超200家卓越级智能工厂 2030年占比提升至60% 工厂数量达500家[4] - 广东发布中小企业数字化转型金融服务方案 部署四项十五措施 强化金融支持与专业化服务能力[5] 科技创新与高端制造 - 中国自主研发2吨级电动垂直起降航空器完成首次海上平台物资运输 飞行58分钟跨越150公里[7][8] - 2025世界机器人大会将展出1500余件展品 首发新品超100款 数量为去年近2倍[9] - 中国工业机器人市场销量从2015年7万套增长至2024年30.2万套 连续12年全球第一 产量从3.3万套增至55.6万套[10] - 浙江大学发布新一代神经拟态类脑计算机"悟空" 脉冲神经元规模超20亿 突触超千亿 功耗约2000瓦[11] 公共卫生管理 - 国家疾控局赴佛山指导基孔肯雅热疫情防控 要求加强灭蚊消杀及医疗机构诊疗规范[6]