迪士尼彩乐园门票

迪士尼彩乐园软件下载 推理本钱比MoE直降83%!字节最新大模子架构入围ICLR 2025

         发布日期:2024-06-15 08:53    点击次数:114

豆包大模子团队 投稿量子位 | 公众号 QbitAI迪士尼彩乐园软件下载

字节出了个全新架构,把推理本钱给狠狠地打了下去!

有多狠?

推理速率比拟MoE架构普及2-6倍,推理本钱最高可缩小83%。

这个全新的稀罕模子架构叫作念UltraMem,灵验地科罚了当今主流的MoE架构和PKM架构所存在的局限性。

举例MoE在作念推理时,较小的batch size会激活一谈群众,导致访存急剧上涨,推理延伸增多;而PKM天然减少了访存支拨,但效力较差且推广材干有限。

实验箝制标明,检修鸿沟达2000 万value的UltraMem模子,在同等打算资源下,可同期杀青业界率先的推理速率和模子性能,为构建数十亿鸿沟value或expert开垦了新旅途。

这项接头当今照旧被ICLR 2025承袭。

那么UltraMem架构具体是奈何作念到这点的呢?咱们络续往下看。

兼顾访存和模子效力

跟着大谈话模子材干的普及,所需的打算资源呈指数级增长,这在及时诳骗等资源受限的环境中带来了巨大挑战。

为了打法打算资源的瓶颈,接头者们提议了多种科罚决策,其中包括MoE和Product Key Memory (PKM)。

说合词,这些才略各自存在一定的局限性。

MoE 通过稀罕激活群众(expert)的形势,将打算与参数解耦,从而在检修时不祥灵验减少打算量;但在推理场景中,MoE 的证实却不尽如东谈主意。

由于推理时模子需要逐字生成输出,batch size和sequence length频繁较小,而频繁情况下,数目较少的token就不错激活险些通盘的群众。

这种全群众激活的步地使得访存需求急剧增多,进而激勉严重的访存瓶颈,最终导致推理延伸大幅上涨。

另一方面,PKM提议了 large memory layer的意见,其中包含了大王人的稀罕参数 value(每个 value 实质上是一个向量)。

在推理时,每个 token 领悟过“行路由”和“列路由”定位到得分最高的几个 value,并对其进行加权乞降(weighted sum pooling),当作 memory layer 的输出。

由于每个token在推理时仅激活少许数的value,PKM不祥灵验幸免访存瓶颈。说合词,尽管PKM在访存效力上证实优异,其模子效力却较差,且推广材干(scaling)有限,难以打法更大鸿沟的模子需求。

总的来说,MoE和PKM天然在一定进度上缓解了打算资源的问题,但它们在推理效力、模子效力和推广材干等方面仍存在显著不及,亟需新的科罚决策来进一步优化大模子的推感性能。

而UltraMem则是参考了PKM的瞎想,但针对PKM的3个残障赐与补充,以杀青更高效的访存、更优质的value检索,同期,缩小了显存和部署本钱。

荣誉:5次NBA总冠军、2次MVP、3次FMVP、15次全明星、15次入选最佳阵容、15次入选最佳防守阵容

要知道阿门汤普森职业生涯单场命中三分球纪录也不过是两球而已。也就是说本场比赛阿门汤普森又一次平了职业生涯三分命中的纪录。本赛季如果没有记错的话,阿门汤普森已经有三场比赛都投进过两记三分了,还有一个特别亮眼的数据,那就是汤普森本赛季的三分命中率已经高达29.7%。接近30%的水平,更说明阿门汤普森在三分投篮上确实下足了苦功夫。有很多火箭队的球员都表示,今年夏天的休赛期,火箭队所有球员当中训练的最卖力气的球员就是这位21岁的小伙阿门汤普森。

1、优化模子结构

PKM的瞎想中,memory layer唯一1层,插在通盘这个词Transformer的中间层,这对大鸿沟检修并不友好,况兼如斯弘大的稀罕参数应该尽可能多的参与到每次的残差连气儿中。

因此,迪士尼彩乐园是什么接头团队拆分出多个小memory layer,以固定的隔断散播在 Transformer layer中;况兼增多了skip-layer的操作,即现时层的memory layer的输出会加到背面某层Transformer layer 的输出。

这使得模子不错并行地本质memory layer的访存操作和Transformer layer的打算。

2、优化value检索形势

在检索时,唯一score最高的m个value会被激活,PKM的score是通过“行score”+“列score”得到的。

团队进一步探索了一种更复杂的乘法才略Tucker Decomposed Query-Key Retrieval(TDQKR)。

这一才略受启发于Tucker Decomposition。具体来看,给定values,shape为(n,n,h),其中h为hidden size,那么values的score S_grid不错作念如下瓦解:

其中Srow,Scol∈Rr×n,C∈Rr×r是可学习的tucker core。这个结构下,每个value的score由r个行score和r个列score的组合乘加得回,具备更高的复杂度。

3、隐式推广稀罕参数

更多的稀罕参数频繁会带来更好的效力,但过多的参数又会给显存和部署带来费事。

为此,接头团队提议了Implicit Value Expansion (IVE)才略隐式地推广稀罕参数,并引入了virtual memory和physical memory的意见。

以4倍推广为例(如下图所示),virtual memory的数目是physical memory的4倍,给定多对(score, index)后,来源按照virtual memory address table作念查表,4个virtual block会查询褪色个physical memory table,之后各自作念 weighted sum pooling,并历程不同的线性层,终末再乞降输出。

由于终末的Linear和取value之间莫得任何非线性操作,因此每个Linear王人不错和physical memory table作念领悟,生成一个全新的memory table,这个例子下,实质上隐式推广了4倍的value 数目。

较MoE最高提速6倍

1、模子性能评估

接头团队在151M、680M、1.6B三个尺寸的激活参数上作念了平凡的实验,其中MoE、PKM和UltraMem的总稀罕参数保捏在激活参数的12倍。

如下表所示,不错发现 UltraMem在680M、1.6B上具有显耀的效力上风。

跟着稀罕参数的增多,UltraMem的效力和推理速率奈何变化?

下图(b)展示了UltraMem的效力变化,横轴为稀罕参数和众多参数的比值,每个边幅的线代表了一种稀罕度。稀罕度界说为value的数目 / 每个token激活的value数目。不雅察发现,捏续增多稀罕参数和loss的下落呈对数关连;且稀罕度越小,模子效力越好;然而稀罕度捏续缩小带来的收益在冉冉满盈。下图(c)展示了UltraMem的推理技能变化,横轴为稀罕参数和众多参数的比值。不雅察发现,UltraMem在捏续增多稀罕参数时推理技能险些不变,反不雅MoE有显耀增长的趋势。

2、消融实验

接头团队在151M激活、1.5B总参数的稀罕模子上进行了全面的消融实验。

从最原始的PKM运行,冉冉增多一些 trick 和上文提议的结构翻新,最终能拿到C4 validation loss-0.092的显耀收益,同期稀罕参数和打算量险些不变。

要而言之,接头团队提议的UltraMem具有极小的访存,因此,比拟 MoE 杀青了最高达6倍的速率普及,推理本钱最高可缩小83%。

同期,在性能方面,跟着模子容量的增多,在交流的参数和打算量情况下,UltraMem跳跃了MoE,标明其具有更强的推广材干。

这项职责不错说是为成就更高效和可推广的谈话模子提供了一个有但愿的地点。

论文地址:https://arxiv.org/abs/2411.12364



 
友情链接:

Powered by 迪士尼彩乐园 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024