大语言模型的量化推理加速技术基础 - 深蓝学院 - 专注人工智能与机器人的学习平台

收藏

邀
请
朋
友
一
起
学

大语言模型的量化推理加速技术基础

主讲人：陈晓宇 | 沃特镁隆 LLM 推理加速负责人

开课时间

2024.03.26 19:50
课程时长

86分钟
学习人数

4968人次学习

立即学习

添加助教进群领取课件&论文

立即学习

大语言模型的量化推理加速技术基础

大语言模型的推理面临巨大的资源需求和效率的挑战，优化推理速度可以减少硬件成本，还可以提高大模型的应用体验。大语言模型在推理时分为预填充（prefill）阶段和解码（decode）两阶段，在解码阶段大模型的推理都是带宽瓶颈，加速解码阶段的推理速度最有效的方法就是通过低比特的量化，来减少访存的带宽占用，从而加速模型推理。本次分享面向零基础或初学者，首先介绍 LLM 加速和量化的背景知识，包括但不限于 KV Cache、计算访存比、加速方法分类、量化的分类和基础等，再介绍各种量化方法，最后总结不同平台下适用的 LLM 量化方法和实验结论。

课程介绍
课件领取
相关课程

大语言模型的推理面临巨大的资源需求和效率的挑战，优化推理速度可以减少硬件成本，还可以提高大模型的应用体验。大语言模型在推理时分为预填充（prefill）阶段和解码（decode）两阶段，在解码阶段大模型的推理都是带宽瓶颈，加速解码阶段的推理速度最有效的方法就是通过低比特的量化，来减少访存的带宽占用，从而加速模型推理。本次分享面向零基础或初学者，首先介绍 LLM 加速和量化的背景知识，包括但不限于 KV Cache、计算访存比、加速方法分类、量化的分类和基础等，再介绍各种量化方法，最后总结不同平台下适用的 LLM 量化方法和实验结论。

点击领取完整课件

关于我们版权声明联系电话：010-86226736

服务协议反馈建议联系邮箱：hezuo@shenlanxueyuan.com

友情链接：

在线咨询

返回顶部