大语言模型的高效低比特量化

主讲人:刘璟 | 莫纳什大学博士生

  • 开课时间

    2024.04.28 19:55

  • 课程时长

    60分钟

  • 学习人数

    2095人次学习

立即学习
添加助教进群领取课件&论文

立即学习

大语言模型的高效低比特量化

大语言模型(LLM)在自然语言处理领域表现卓趨,但其对计算资源和内存的高需求限制了在更广泛场景中的应用。为应对此挑战,模型量化技术成为了一种解决方案。尽管如此,在现有研究中,激活值中某些通道的异常值成为了量化精度的关键瓶颈。针对这一问题,我们提出了QLLM,这是一种专为大语言模型设计的高效且精确的低位宽后训练量化方法。QLLM采用了一种创新的自适应通道重组技术,通过将异常值的幅度重新分配至其他通道,有效减轻了其对量化范围的不利影响。此外,为了弥补量化过程中可能造成的性能损失,我们还提出了一种高效的调优策略。该策略只涉及学习少量的低秩权重,同时保持预训练的量化模型处于冻结状态。训练完成后,这些低秩参数可以无缝融合进冻结的权重中,而不会影响模型的推理速度。

大语言模型(LLM)在自然语言处理领域表现卓趨,但其对计算资源和内存的高需求限制了在更广泛场景中的应用。为应对此挑战,模型量化技术成为了一种解决方案。尽管如此,在现有研究中,激活值中某些通道的异常值成为了量化精度的关键瓶颈。针对这一问题,我们提出了QLLM,这是一种专为大语言模型设计的高效且精确的低位宽后训练量化方法。QLLM采用了一种创新的自适应通道重组技术,通过将异常值的幅度重新分配至其他通道,有效减轻了其对量化范围的不利影响。此外,为了弥补量化过程中可能造成的性能损失,我们还提出了一种高效的调优策略。该策略只涉及学习少量的低秩权重,同时保持预训练的量化模型处于冻结状态。训练完成后,这些低秩参数可以无缝融合进冻结的权重中,而不会影响模型的推理速度。

模型压缩与部署 模型压缩与部署 基础
模型压缩与部署 模型压缩与部署 基础
模型压缩与部署 模型压缩与部署 进阶