快捷导航
科技信息

告别卡脖子,华为黑科技破局!昇腾推理加快1.6倍冲破LLM降智魔咒

新智元报道 编辑:定慧Aeneas【新智元导读】大模子越来越大,推理部署却举步维艰?就在刚刚,华为诺亚提出的Pangu Light框架,一举冲破了「剪枝即降智」魔咒,显现出LLM瘦身的新路径。毫无疑问,算法创新与国产平台


新智元报道

编辑:定慧Aeneas

【新智元导读】大模子越来越大,推理部署却举步维艰?就在刚刚,华为诺亚提出的Pangu Light框架,一举冲破了「剪枝即降智」魔咒,显现出LLM瘦身的新路径。毫无疑问,算法创新与国产平台的联合,还将发作出无法想象的巨大潜力!


LLM发展到本日,下一步该往哪个方向探索?

显然,现在最显着的一个题目就是,大模子的参数规模照旧太大了——DeepSeek-V3的参数为671B,Llama 3.1系列最大为405B,GPT-4o为200B,Claude 3.5 Sonnet为175B。

参数规模在不断增长,高昂的盘算本钱和推理延迟,该怎么破?

显然,无论推理照旧部署,脱离了老黄的「卡」,都将寸步难行。

假设真到了这一天,我们将不得不面临这一窘境时,不打无预备之仗,就是最好的策略。

这里,就引出了一个关键题目——如何将算法创新,与国产AI盘算平台相联合。

具体来说,就是需要在保持模子性能的同时,实现高效的压缩与加快。

「裁人裁到大动脉?」

华为破悉关键

办理这个题目的关键之一,就是布局化剪枝技能。

顾名思义,这种「激进」的压缩技能,正是通过整个移除模子中的冗余组件(如留意力头等)来实现的。

布局化剪枝更适合硬件加快,由于它保持了模子的布局规则性。

然而只是简单粗暴的剪枝,却每每会遭遇滑铁卢,引发大题目。

实践表明,当实行对模子的宽度(网络通道数)、深度(层数)等多个维度同时进行激进压缩时,模子性能会断崖式下跌——究竟,大模子对于人类照旧个黑盒:

激进的剪枝操纵会严重扰乱模子原有的参数分布均衡和经心学习到的信息流动路径,使得剪枝后的模子布局失稳,性能大打扣头,以致难以通过后续微调规复。

打个不恰当的比方,这就好像是裁人裁到了大动脉,大概删除了看似不重要但起决定性作用的组件。

好在,面临这一困难,来自华为诺亚方舟实行室的研究者们,直接洞察到了题目的核心——

在剪枝之后,必须对模子的剩余参数进行经心的重新初始化与调解!

由此,他们推出了基于昇腾NPU的布局化剪枝与优化框架——Pangu Light。

通过创新性地引入了一系列权重调解与重置技能,最终,他们乐成增补了当火线法在剪枝后模子稳固与性能规复机制上的关键空缺。

Pangu Light的核心技能包括:

  • 旨在优化深度剪枝的跨层留意力剪枝(CLAP)

  • 针对宽度剪枝的稳固化LayerNorm剪枝(SLNP)

  • 为盘古模子「三明治」架构量身定制的Post-RMSNorm融合优化策略,并针对昇腾硬件平台进行了定制架构优化。

实行效果表明,Pangu Light在压缩率和推理速率方面取得了明显提升。

而且,相较于一些已有的剪枝框架(如NVIDIA Minitron/PUZZLE的部门策略),Pangu Light显现出更优的效果。

剪枝后的Pangu系列模子在多项基准测试中,精度-服从曲线都逾越了业界领先的LLM(如Qwen3系列)。

布局化剪枝的「梦魇」:

为何模子越剪越「伤」?

大模子布局化剪枝的初衷,固然是美好的——通过移除不重要的参数或布局单元,实现「瘦身健体」。

然而,当剪枝的「手术刀」同时伸向模子的深度、宽度、留意力机制以致前馈网络(FFN)时,一场潜伏的「噩梦」便大概开始。

传统的剪枝方法大多依赖于某种重要性评分机制来决定「去留」,例如神经元的激活值巨细、权重的L2范数等。

固然这些方法可以或许辨认出部门冗余组件,但在进行大刀阔斧的多维度连合剪枝时,却每每忽略了一个致命题目:模子是一个高度耦合的复杂体系。

仅仅移除「看起来不重要」的部门,会像抽掉积木塔的底层积木一样,导致整个模子的参数分布发生剧烈改变。

原来经心训练得到的权重,在移除了大量与之共同的「同事」后,其功能和意义大概已面貌全非。

激活值的统计特性发生偏移,信息流在残破的网络中通报受阻,最终导致剪枝后的模子性能大幅下降,陷入「一剪就坏,坏了难修」的逆境,即便投入大量资源进行后续微调,也常常收效甚微。

正是由于洞察到这一「剪枝后稳固性」的核心症结,Pangu Light框架祭出了两大「杀手锏」——跨层留意力剪枝(CLAP)和稳固化LayerNorm剪枝(SLNP)。

这两大技能,正是为了从根本上办理剪枝带来的模子失稳题目。

Pangu Light核心技能剖析:

稳固胜于统统

Pangu Light的乐成,关键在于其独特的「剪枝」后「修复与重建」哲学,即通过精密的参数重置与布局调解,确保模子在「瘦身」后依然「筋骨强健」。

跨层留意力剪枝(CLAP):层剪枝后的「聪明缝合」

当整个网络层被移除(深度剪枝)时,其承载的留意力盘算单元通常被完全抛弃,这对模子的信息处置处罚本事无疑是巨大打击。

传统的逐层独立剪枝未能充实利用被剪层的信息,相比之下,Pangu Light的CLAP技能却显现了一种更为精妙的「跨层聪明」。

在研究者看来,即便一个层被判断为可剪枝,其内部的某些留意力头(特别是KV group)大概依然承载着不可或缺的关键信息。

因此,在剪去第l+1层时,CLAP并不会将其留意力机制完全扬弃,而是会连合评估第l层和第l+1层中全部KV group的重要性。

这种重要性基于其内部尚存的Query Head的初始重要性:

式中,

表现query head的初始重要性,

表现一个KV group中保存的query head的聚集,

表现KV group中保存的query的数量。

从这两层的全部KV group中,选取Top-K最重要的KV group,将其参数「移植」并整合到第l层。

这相当于将被剪层l+1的「英华」留意力权重,奥妙地「缝合」并重新初始化到保存层l的留意力机制中,实现了信息的跨层保存与布局功能的有效重组。

稳固化LayerNorm剪枝(SLNP):宽度剪枝后的「定海神针」

当网络宽度被压缩,即埋伏层通道被剪枝时,RMSNorm(或LayerNorm)层中的可学习仿射参数γ的维度也随之减少。

这一变革看似简单,实则极易引发「蝴蝶效应」:γ的L2范数(即其团体尺度)大概发生剧变,进而明显改变RMSNorm层的输出激活值的统计分布。

这种分布的漂移会逐层通报、放大,最终导致整个网络内部的激活状态极不稳固,严重拦阻剪枝后模子的收敛和性能规复。

怎么办?为此,研究者们提出了SLNP技能,这套权重重置方案有效地直接针对了这一题目。

他们发现,通过精确调控剪枝后RMSNorm层γ参数的L2范数,使其规复到剪枝前的程度,对于维持模子稳固性至关重要。

具体而言,对于每个被剪枝的RMSNorm层l,SLNP管帐算一个重初始化标量:

(分子和分母分别为剪枝前后参数γ的L2范数)。然后,用这个标量重新缩放剪枝后的γ参数。

这一简单的重初始化步骤,却如「定海神针」一样平常有效。

它校正了输出尺度,明显提升了模子在剪枝后的稳固性与后续微调的收敛性。

Post-RMSNorm融合优化策略

别的,Pangu系列大模子还采取了一种独特的「三明治」归一化(Depth-Scaled Sandwich-Norm, DSSN)架构,即在每个Transformer块的留意力模块和FFN模块之后都额外增长了一个RMSNorm层。

这一操持极大地加强了大规模模子训练的稳固性,至实现了「零训练毛刺(zero loss spikes)」的佳绩。

然而,这种归一化也无可制止地带来了额外的推理盘算开销。

尺度的RMSNorm盘算公式如下:

RMSNorm会及时盘算每一个输入token的统计值,这极大影响了模子的推理服从。

为此,针对这种额外引入的Post-RMSNorm,研究者通过少量校准集求取该统计值的均值,并将该均值更换RMSNorm的及时盘算,其表达式如下:

更换后,归一化层的盘算公式表现如下:

这一变更有效地将Post-RMSNorm层更换为一个常数的逐通道缩放操纵。

同时,这一缩放操纵可以将归一化层的参数融入线性投影层的权重矩阵中,消除了PostNorm额外引入的参数。

实行验证

为了验证Pangu Light框架的实际效果,研究团队以Pangu 38B模子为基准,在华为昇腾NPUAI处置处罚器上进行了一系列细致的模子压缩实行。

从实行效果可以看出,Pangu Light在不同的压缩比例下,均能非常有效地保持模子的精度。

与参数量相近的业界知名模子Qwen3-32B相比,Pangu Light压缩后的模子在多项任务上显现出更强的竞争力,均匀精度更优。

在同样加快2.1x的环境下,Pangu Light保存了高达98.9%的原始模子推理能本事,逾越英伟达提出的PUZZLE压缩方案(保持98.4%的精度)。

在推理吞吐量方面,研究团队在昇腾NPU的设置下进行了测试。

效果表现,Pangu Light剪枝后的模子在昇腾硬件平台上表现出良好的亲和力。

以32B规模的模子为例,Pangu Light-32B的吞吐量相较于Qwen3-32B提升了靠近16.2%(2585 vs 2225 tokens/s)。

这就充实证明白其软硬协同优化的有效性,实现了模子性能与推理速率的更优均衡。

溶解实行

为了进一步验证Pangu Light中各项创新技能的独立贡献,研究团队还经心操持了溶解实行。

在一项基于14B规模模子的少量数据微调评测中,对比仅基于激活值进行剪枝的策略(NVIDIA Minitron方案的),同时采取CLAP和SLNP这两种「宽深调解」(实为权重重置与布局调解)技能的Pangu Light模子,在均匀精度上实现了高达3.6个百分点的提升。

这一明显差距,充实证明白在剪枝之后进行体系性的参数调解与重置的非常重要性,以及Pangu Light所提方法的良好性。

为了深入探究Pangu Light剪枝方法学对模子内部参数的影响,特别是其核心的SLNP权重重置策略如何维持稳固性,研究者们还过细分析了模子归一化层的仿射缩放参数γ在剪枝前后的分布变革。

分析偏重聚焦于那些在剪枝后被保存下来的通道和层所对应的γ参数。

效果清晰地表现,在应用了Pangu Light的剪枝和SLNP重置策略后,这些被保存的γ参数的均值和尺度差在每一层都与剪枝前保持了高度的划一性。

这一征象有力地分析,Pangu Light的剪枝与权重重置方法可以或许有效维持这些关键缩放参数学习到的统计特性,制止了剧烈的分布漂移。

这种参数层面的稳固性,是剪枝后模子团体鲁棒性和举动可推测性的重要基石。

昇腾赋能,华为引领AI普惠之路

可见Pangu Light框架的提出,无疑为LLM的高效部署范畴注入了强劲的新动能。

它联合了体系性的布局化剪枝与创新性的「剪枝后权重重置与布局调解」理念,尤其强调了在激进剪枝后对模子进行「再稳固化」的核心步骤。

由此,这个框架就乐成破解了长期困扰业界的「一剪就坏」困难。

以致,在昇腾AI处置处罚器的强大算力支持下,Pangu Light不但实现了超高的模子压缩率和推理加快,更难能可贵地保持了极具竞争力的模子精度,显现了良好的「精度-服从」均衡艺术。

可以说,这项由华为诺亚方舟实行室主导的研究效果,是软硬件协同操持(「软硬协同」)理念的又一次乐成实践,充实彰显了算法创新与国产AI盘算平台(昇腾)深度融合所能发作出的巨大潜力。

以后,不但Pangu系列大模子有了强大的「瘦身」与加快工具,业界更是有了一条极有前途的路径——

在包管高性能条件下,大模子应用的门槛,还将继承大幅低沉!

参考资料:

https://arxiv.org/abs/2505.20155

收藏 邀请
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP