深入理解大模型微调与部署的原理、方法和最佳实践,获得在不同应用场景中灵活运用大模型的能力
讲解工业界常用的模型压缩方法(量化、稀疏)以及实战经验,课程无需模型压缩的经验即可听懂
CUDA核心的并行运算操作,涵盖主流的模型加速工具cuDNN与TensorRT。
以实战的形式指导学员学习diffusion类模型的推理上线,选择最优和性价比最高的加速策略,分析模型结构并进行合并加速
3位一线青年学者直播分享大模型的压缩与部署,内容主要包括:大模型高效微调、量化、软硬件协同设计等
精选百度文心大模型ERNIE部署实践中的推理加速为例,小班教学,专家讲师直播与录播结合授课。