首个 FP4 精度的年夜模子练习框架来了,来自微软研讨院!在雷同超参数的设置下,能够到达与 FP8 以及 BF16 相称的练习后果。这象征着所需的存储跟盘算资本能够更少。用这种方式练习的模子范围最高可达 130 亿参数范围,练习 Tokens 数目也到达千亿级别。并且用的还不是真・FP4,而是经由过程 FP8 来模仿,假如采取真的 FP4,后果还能进一步晋升。(注:研讨发展时,尚未有原生支撑 FP4 的硬件,故作者经由过程在 FP8 的 TensorCore 上模仿实现)网友批评说,效力更高品质却没什么丧失,FP4 真的是个 game changer。另有人说,假如这一发明广为人知,生怕老黄的股价又要跌了。固然,因低练习本钱而成为当红明星的 DeepSeek 也被网友 cue 了一下:在 FP8 TensorCore 上模仿 FP4如扫尾所述,在雷同超参数的设置下,作者的方式能够到达与 BF16 的练习后果。详细来说,在 1.3B、7B 跟 13B 的 LLaMA 模子上,从 0 到 1 万万 Tokens 的练习进程中,作者的 FP4 练习与 BF16 的丧失曲线基础分歧。鄙人游义务上,表示同样也跟 BF16 相称。为了实现 FP4 精度练习,研讨团队采取了定制化的 FP4 矩阵乘法(GeMM)CUDA 内核。在内核中,作者先用 FP16 将 FP4 的 A 跟 B 矩阵读入共享内存并做响应变更,而后用 FP4 实现分块矩阵乘法,最后再用 FP16 对旁边成果停止归约,失掉 FP16 格局的输出矩阵。起首须要断定量化的数据格局,该框架采取了 E2M1 的 FP4 格局,即用 2 位来表现指数,1 位表现尾数,外加 1 位标记位,统共 4 位。抉择这个格局是为了符合以后主流 ML 减速芯片的量化盘算单位计划。而且,这个框架对权重矩阵 W 跟激活矩阵 A 采用了差别粒度的量化战略。对 W 做的是列偏向(channel-wise)的量化,而对 A 做的是行偏向(token-wise)的量化。这种量化粒度是与 GeMM 在硬件上的并行实现方法相符合的,能够在不引入额定矩阵转置操纵的条件下,最年夜化施展 FP4 在矩阵乘法上的减速后果。在模子前向传布开端时,框架对每一个线性层的权重矩阵 W 跟输入激活矩阵 A 同时停止 FP4 量化。量化时,先对矩阵中的数值停止缩放跟偏移,将其映射到 FP4 所能表现的范畴内,而后经由过程查表的方法将其四舍五入到近来的 FP4 团圆值。因为差别层的数值范畴差别很年夜,以是须要对每一层的权重矩阵跟激活矩阵分辨断定一个自力的量化范畴,即停止逐层的量化参数校准。这个框架采取的是 scale+shift 的校准方式,即先用一个缩放因子将数值从原始范畴映射到 [-1,1],再用一个偏移因子把 [-1,1] 平移到 FP4 所能表现的范畴。在反向传布进程中,假如直接对量化后的矩阵求导,则权重矩阵的梯度多少乎到处为 0,从而无奈停止参数更新。为此,作者提出了一种新鲜的可微分梯度估量方式。它在前向盘算时依然应用硬量化,以保障盘算效力,但在反向传布时,用一个持续可微的函数来从新拟合这个量化函数,并求导失掉一个对梯度的修改项。别的在练习进程中,模子的隐层激活散布平日浮现出显明的长尾特点,多数维度上的数值显明偏年夜,招致呈现“离群点”(outlier)。针对这个成绩,作者提出了一种“离群点削峰跟弥补”的战略。详细来说,先在激活矩阵 A 中,经由过程分位数检索的方式找出那些幅值最年夜的离群点,将它们限幅到某一个预设的阈值范畴内,失掉削峰后的矩阵 A_clamped。而后,再基于原矩阵 A 跟削峰后的 A_clamped,结构出一个稀少弥补矩阵∆A,此中只有那些被削峰的地位长短零的。别的在局部环节傍边,作者还采取了混杂精度计划。比方在梯度通讯时采取了 FP8,在优化器状况(如动量)的存储时抉择了 FP16。在体系的其余局部,如非矩阵乘操纵的盘算、Loss Scaling 等,也都采取了 FP16。经由过程这些混杂精度的计划,在保障练习数值稳固性的条件下,尽可能地下降了盘算跟存储开支。中科年夜博士生一作这个框架由微软亚洲研讨院跟 SIGMA 团队打造,全部研讨职员都是华人。第一作者 Ruizhe Wang 是中科年夜在读博士生,现在在 MSRA 练习,研讨偏向就包含低精器量化。中科年夜科研部部长、类脑智能国度工程试验室履行主任、博士生导师查正军教学也参加了这一名目。通信作者为 MSRA 高等首席研讨司理(Senior Principal Research Manager)程鹏跟首席研讨司理(Principal Research Manager)Yeyun Gong。程鹏曾先后就读于北航跟清华,在清华读博时期还到 UCLA 拜访进修;Yeyun Gong 则是复旦博士,结业后即参加微软。MSRA 出色迷信家、常务副院长郭百宁也参加了本名目,他先后就读于北年夜跟康奈尔年夜学,1999 年就已参加微软。别的另有其余作者,完全名单如下:论文地点:https://arxiv.org/abs/2501.17116参考链接:https://x.com/arankomatsuzaki/status/1884446877837582598本文来自微信大众号:量子位(ID:QbitAI),作者:克雷西