
新智元报谈迪士尼国际彩乐园
裁剪:定慧 好困
【新智元导读】洽商院开源的原生1bit大模子BitNet b1.58 2B4T,将低精度与高遵守并吞,始创了AI轻量化的新纪元。通过全心设想的推理框架,BitNet不仅碎裂了内存的截止,还在多项基准测试中发达出色,以致与全精度模子不相潦倒。
大模子轻量化终于又有好玩的了。
就在最近,微软亚研院开源了第一款参数目达到20亿,况且如故原生1bit精度的LLM——BitNet b1.58 2B4T。

论文地址:https://arxiv.org/abs/2504.12285
这个模子好玩在三个点上,其实齐在模子名字里了:
1. b1.58量化
这个模子里的参数,一共惟一{-1, 0, +1}三种数值,很难念念象学问是如何压缩在内部的!(字据信息论策画公式,这个模子的精度等于≈1.58,要是是纯正的1bit量化,那么惟一两个数值)。
2. 模子尽头的小!
参数惟一2B,和动辄14B、32B、617B等全量模子比较,大小还不到他们零头,况且由于参数的精度压缩到极低,是以这个模子惟一0.4GB的大小。
3. 针对CPU的推理框架
使用为CPU架构挑升设想的开源推理框架BitNet来运行,微软一经花了1-2年的时辰来完善了这个框架。

这种低精度、低参数,况且能在CPU上原生推理的大模子,为端侧AI开启了无穷可能性。
以致改日有可能可以部署在家里的电饭煲大要雪柜中,成为着实的「AI智能体」。
首个开源原生1bit模子
微软推出的BitNet b1.58 2B4T是首个开源的、原生1 bit的LLM,参数范围达到20亿。
该模子在包含4万亿个Token的语料库上进行熟悉,别看它小,这个模子在涵盖话语泄露、数学推理、编码熟练度和对话才略的基准测试中齐进行了严格评估。
惟一三种参数的BitNet b1.58 2B4T的性能与同类大小全精度的LLM相等。

上图可以看到,BitNet b1.58 2B4T在30亿参数以下的模子中,就性能与内存而言,取得了可以的均衡。
在11个基准测试中的平中分一经和1.5B和2B的全精度模子相等,用微软我方的话说等于,「鼓动了由卓越的怒放权重LLMs界说的帕累托前沿,展示了更高的成果」。
同期,BitNet b1.58 2B4T在策画成果方面提供了显赫上风,包括大幅减少的内存占用、能耗息争码蔓延。
该模子的权重一经通过 Hugging Face 发布,并提供了针对GPU和CPU架构的开源推理已矣。

极限的时代探索
开源LLMs一经是AI规模尽头紧迫的一股力量,关联词由于部署和推理所需的重大策画资源(毛糙说等于没卡)不容了社区发展——固然开源了,关联词大部分东谈主齐玩不了。
1-bit LLMs,代表了一种顶点但短长常有出路的模子量化样式。
当模子的权重被截止为二进制{-1, +1}或三进制{-1, 0, +1},通过大幅减少存储权重所需的内存并已矣高效的位运算,它们有可能显赫缩小部署资本、减少能耗并加快推理速率。
微软的这项责任诠释,当原生1 bit LLMs在大范围上数据集有用熟悉时,可以已矣与全精度肖似范围的模子相失色的性能。
BitNet b1.58 2B4T的架构选拔法度的Transformer模子,并基于BitNet框架进行了修改,该模子齐全从零启动熟悉——参数并不是后期量化成{-1, 0, +1},而是原生熟悉。
预熟悉时代阶梯
预熟悉语料库由公开可用的文本和代码数据集构成,包括大型收集爬虫数据集,如DCLM和老师网页数据集,如 FineWeb-EDU。
为了增强数学推理才略,还加入了合成生成的数学数据。
在预熟悉之后,模子进行了有监督微调(SFT),以升迁其提醒侍从才略,并改善其在对话互动花式中的发达。
SFT阶段使用了多种公开可用的提醒侍从和对话数据集。
为了进一步增强特定才略,迥殊是在推理和复杂提醒驯顺方面,还补充了使用GLAN和 MathScale花式生成的合成数据集。
为了进一步使模子的活动与东谈主类对有用性和安全性的偏好保握一致,在SFT 阶段之后应用了径直偏好优化(DPO)。
DPO是一种比传统的RLHF更高效的替代花式,它通过径直优化话语模子并应用偏好数据,幸免了熟悉单独奖励模子的需求。
DPO 阶段进一步精好意思了模子的对话才略,并使其更好地与本体使用中的预期交互模式保握一致。
性能评估
通过多种基准测试来推断模子的发达,这些基准测试包括了:
话语泄露与推理
寰球学问
阅读泄露
数学与代码
提醒侍从与对话
如表1所示,BitNet b1.58 2B4T展现了显赫的资源成果。
与通盘评估过的全精度模子比较,迪士尼彩乐园时时彩它的非镶嵌内存占用息争码进程中估算的能耗瓦解较低。
内存占用为0.4GB,输出蔓延为29ms。

在职务发达方面,BitNet b1.58 2B4T也发达得尽头具有竞争力。
它在多个涵盖推理、学问和数学才略的基准测试中取得了最好收尾。
进一步通过与Qwen2.5 1.5B的后熟悉量化(PTQ)版块进行比较,探索成果与性能之间的衡量,使用了法度的INT4花式(GPTQ和AWQ)。

INT4量化固然到手地减少了全精度模子的内存占用(从2.6GB下跌到0.7GB),但由于原生的1 bit架构,BitNet b1.58 2B4T的内存需求更低。
更紧迫的是,这种超卓的内存成果并莫得阵一火与量化模子比较的性能。
法度的后熟悉量化(PTQ)时代会导致相较于原始全精度模子,性能出现瓦解下跌(从平均55.72下跌到了51.17)。
比较之下,BitNet b1.58 2B4T在评估的基准测试中发达优于Qwen2.5-1.5B的INT4量化版块。
临了,将BitNet b1.58 2B4T与其他针对或量化到接近1 bit精度的模子进行比较。
评估收尾明确地将BitNet b1.58 2B4T定位为该类别的卓越模子。
BitNet b1.58 2B4T在大多数基准测试中取得了最高分,发达远超通盘其他比较的 1 位模子。

推理部署:GPU/CPU齐能跑
高效的推理关于LLM的部署至关紧迫,尤其是在资源受限的环境中。
BitNet b1.58 2B4T选拔1.58位权重和8位激活的独到量化决策,因此需要挑升的已矣方式,因为法度的深度学习库同样缺少针对这种搀杂精度、低位花式的优化内核。

为了处分这个问题,微软建造并开源了挑升的推理库,守旧GPU和CPU平台,迥殊地,针对CPU建造了bitnet.cpp。
bitnet.cpp是一个C++库,算作1 bit大范围话语模子(LLM)在CPU上推理的官方参考已矣,bitnet.cpp提供了针对法度CPU架构优化的内核,旨在高效施行。

但路还很长
微软洽商院提供了一个在线的,一经部署好的体验网站。
况且分为了CPU部署和GPU A100部署两种模式。

让咱们实测一下,这个模子到底能不可用?
可以看到,岂论是CPU如故GPU,输出内容的齐还可以。


看来微软所言非虚,此次这个模子还得很能打的。
毛糙测试一下数学问题,举座输出如故OK的,输出速率在27 token/s。

写代码也不在话下。

一言以蔽之,微软洽商院发布的BitNet b1.58 2B4T模子,以其仅20亿参数、革新的原生1.58位量化时代(参数仅为{-1, 0, +1})和仅0.4GB的大小,代表了LLM轻量化的一次紧迫探索。
固然各个主见方面齐追求极致的削弱,关联词这个模子保握了与同等范围全精度模子相等性能。
尽管本体测试显现其在特定任务(如非英语处理)上仍有局限。
但其开源特点和展现出的后劲,无疑为资源受限的端侧AI部署开启了新的念念象空间。
1-bit的尝试是极限的,关联词通往改日AI的谈路是无穷的。
作家先容
韦福如

韦福如博士现任微软了得科学家,素质团队从事基础模子、、语音处理和多模态东谈主工智能等规模的洽商。
比年来,他还竭力于于素质和鼓动通用型东谈主工智能的基础洽商和革新。
韦博士还担任西安交通大学和中国科技大学兼职博士生导师,香港华文大学老师部-微软要点实验室谐和主任。
马树铭

马树铭(Shuming Ma)是微软亚洲洽商院(MSRA)当然话语策画组的洽商员,责任处所位于中国北京。
在加入微软亚洲洽商院之前,于2019年赢得了北京大学的硕士和学士学位,洽商标的主要为当然话语处理。
马树铭的洽商兴致并吞在大范围规模。一经在顶级学术会议上发表了30多篇论文,包括ICML、ICLR、ACL、EMNLP等。
王鸿钰
值得一提的是,排名第6的是湖人主帅(24球)。
如今勇士也真的没有时间给科尔浪费了,毕竟之前勇士排在西部前二的位置,这个时候勇士还有机会去试验阵容,但是现在勇士已经是掉到了西部第十的位置,而且勇士想要保住这个位置都不容易,所以科尔是必须确认球队轮换去帮助球队赢球才行,否则勇士真的在这个阶段掉队的话,以西部如此残酷的竞争来看,接下来勇士想要再次来到西部前十的位置就很艰难了,毕竟国王在本赛季也试图打进季后赛,他们也曾一度看到来到西部前十的位置,但是在遭遇了4连败后国王掉到西部第十二的位置,而勇士也不能够步入他们的后尘。

现为中国科学院(CAS)三年龄博士洽商生。本科毕业于中国科学时代大学(USTC)策画机科学与时代系,时代在钱超副洽商员的带领下进行学习和洽商。
现在在微软亚洲洽商院(MSRA)通用东谈主工智能组(GenAI)担任洽商实习生,受韦福如博士和马树铭博士的带领,实习时辰为2021年8月于今。
参考而已:
https://arxiv.org/abs/2504.12285
https://huggingface.co/papers/2504.12285