模型压缩与部署模型压缩与部署

精品课-202502

深度神经网络加速：cuDNN 与 TensorRT

内容精简：主讲TensorRT推理部署原理与实践

知识前沿：涵盖当下主流的深度学习模型加速工具

氛围活跃：与数百位同学交流学习

讲师：杨伟光
讲师：康博

对课程有疑问？点击视频立即观看课程介绍！

课程服务

至少3个月

作业批改

助教1v1批改

课程有效期

365天

课程时长

14.2 h

¥599.00

已报满

请确认

您已经是《深度神经网络加速：cuDNN 与 TensorRT》-学员，是否购买最新一期？

i提示：

1. 您的《深度神经网络加速：cuDNN 与 TensorRT》-暂未到期，可直接学习

2. 针对以上信息如有问题，您可联系工作人员进行咨询

购买最新一期

课程介绍课程大纲学习服务售前疑问

¥599.00

已报满

本课程包括：: 3个月群内答疑，讲师助教及时解答; 课程有效期为1年，建议合理规划学习; 课程配有作业练习，助教一对一批改; 班主任带班，严格督学，告别拖延; 根据学习情况颁发结业证书、优秀学员证书

杨伟光

原腾讯高级研究员，大连理工大学硕士，毕业后一直在腾讯从事语音领域深度学习加速上线工作。近10年CUDA开发经验，近5年TensorRT 开发经验，Github TensorRT_Tutorial作者。

康博

高级研究员，主要方向为自然语言处理、智能语音及其在端侧的部署。博士毕业于清华大学，在各类国际AI会议和刊物中发表论文10篇以上，多次获得NIST主办的国际比赛top2成绩。近年来主要研究方向为AI在场景中的落地应用。

深度学习算法商业化落地时都需要进行加速，尤其是在安防、无人驾驶环境感知等对算法速度要求较高的场景中。因此CUDA编程已成为当下AI工程师们的重要技能。尽管NVIDIA推出了CUDA，cuDNN以及TensorRT的官方文档，但对于入门者并不友好，学习效率比较低。因此，我们制作了这门课程，希望大家通过这门课程的学习，能够具备CUDA编程操作能力，使用cuDNN、TensorRT这两个当下热门的深度神经网络加速工具。

课程目标

体系化掌握CUDA基础编程知识和TensorRT实战，能够利用GPU开发高性能、高并发的软件系统

目标 O1

GPU并行编程相关理论与CUDA C编程

理解GPU并行编程的理论和概念
学习如何通过CUDA C编写可在GPU上运行的并行程序

目标 O2

GPU并行编程的相关技术及实践

学习并行计算的线性代数库cuBLAS和神经网络库cuDNN
掌握现有的并行计算库使用流程，搭建自己的网络架构

目标 O3

深度学习推理库TensorRT的实践与应用

掌握TensorRT推理框架的应用场景和实践技术栈
完成网络架构的开发与设计工作
编写第三方插件，满足场景中的个性化需求

课程脉络

01 1
首先了解GPU的基本架构和特点，为什么要使用GPU进行并行化的加速；学习基础的CUDA C语法，使用CUDA语言编写一个简单的例子，通过例子的实际运行，直观感受GPU加速的魅力
02 2
接着学习NVIDIA官方提供的矩阵运算库cuBLAS，深度神经网络基元库cuDNN和深度学习推理框架TensorRT，通过调用官方的高度优化的库，快速的搭建自己的网络架构和部署在线推理引擎
03 3
最后通过贯穿课程后半部分的一个实践大作业BERT与ViT模型，练习如何通过主流深度学习框架导出模型，如何将模型转换为TRT格式，如何通过plugin的形式编写自己的算子，完成BERT或者ViT模型完整的构建；学习通过量化模型，压缩数值类型精度的方式加速模型的在线推理

课程大纲

第1章：CUDA C编程及GPU基本知识

本节课将带领大家认识GPU的基本架构和CUDA C编程的基本语法，以及如何编写一些简单的GPU并行代码。
第2章：CUDA C编程：矩阵乘法

运用CUDA C编程完成矩阵乘法的GPU实现，通过该例子体会GPU编程的思想，并直观感受GPU加速后的运行效率。
第3章：CUDA Stream 和 Event

学习如何通过CUDA Stream将主机上的多个核函数（kernel）进行某种顺序的排序；学习CUDA Event如何控制同步，包括CPU/GPU的同步，GPU上不同engine的同步和GPU之间的同步。
第4章：cuDNN与cuBLAS

学习NVIDIA官方提供的GPU加速深度神经网络基元库（cuDNN），感受官方实现的高度优化的标准网络组件（如前向和反向卷积、池化层、归一化层和激活层）；学习了解NVIDIA官方提供的矩阵运算库cuBLAS。
第5章：TensorRT介绍

学习NVIDIA官方提供的深度学习推理SDK-TensorRT。学习TRT提供的API，掌握如何通过……

点击此处查看完整目录

学习收获

1掌握CUDA并行计算系统的分析、开发、调试与优化方法
2熟悉CUDA的基本概念以及主流的并行运算
3了解cuDNN与TensorRT两个深度学习模型加速的主流工具
4具备动手实践深度学习模型的加速的能力

课程适合谁学习: 人工智能领域的算法或者开发工程师，尤其是工作涉及深度学习的模型; 希望学习并行计算系统的科研工作者以及工程师

课程所需的基础知识: 计算机体系结构基础; 深度学习基础; 线性代数; C语言编程基础

全方位的学习服务

个性化增值服务，学习有保障更高效

作业批改

作业批改助教1V1批改作业，定期针对作业中的“通病”进行点评
结业证书

结业证书本课程将根据作业完成情况评选结业学员及优秀学员，颁发证书
实时答疑

实时答疑讲师微信群答疑，及时解决大家遇到的问题
班班督学

班班督学班主任全程带班，不定时“关照”未交作业的同学，克服拖延

课程相关问题请咨询客服

添加时请备注【CUDA】

点击查看
课程大纲点击了解
学习服务

1：【开课仪式】
21分钟 2-1：【视频】CUDA & TensorRT 保姆级安装教程
2-2：【课件】CUDA & TensorRT 保姆级安装教程
2-3：Ubuntu下环境配置手册
8分钟 2-4：【视频】如何获得免费的GPU服务器资源

第1章: CUDA C编程及GPU基本知识 4节课程1篇阅读材料·1次作业·1小时4分钟
本章节将带领大家认识GPU的基本架构和CUDA C编程的基本语法，以及如何编写一些简单的GPU并行代码。
第1节: GPU基本架构及特点
3-1：【课件】CUDA C编程及GPU基本知识
12分钟 3-2：【视频】CPU与GPU的基础知识
第2节: CUDA C编程基本知识
17分钟 4：【视频】CUDA编程的重要概念
第3节: 并行计算向量相加
26分钟 5：【视频】并行计算向量相加
第4节: 实践
8分钟 6：【视频】实践向量相加
7-1：【代码】Demo I
7-2：【作业】第一章
7-3：【作业讲解】作业1思路讲解

第2章: CUDA C编程：矩阵乘法 5节课程1篇阅读材料·1次作业·1小时10分钟
运用CUDA C编程完成矩阵乘法的GPU实现，通过该例子体会GPU编程的思想，并直观感受GPU加速后的运行效率。
第1节: 为什么矩阵乘法适合GPU实现
8-1：【课件】CUDA C编程：矩阵乘法
10分钟 8-2：【视频】为什么矩阵乘法适合GPU实现
第2节: 矩阵乘法的GPU基础实现
9分钟 9：【视频】矩阵算法GPU实现
第3节: 矩阵乘法GPU进阶实现
39分钟 10：【视频】矩阵乘法的GPU进阶实现
第4节: 代码实践
11-1：【代码】MatrixMultiple
9分钟 11-2：【视频】CUDA矩阵乘法实践
第5节: 作业题目
2分钟 12-1：【视频】作业题目
12-2：【作业】第二章
12-3：【作业讲解】作业2思路讲解

第3章: CUDA Stream 和 Event 6节课程·52分钟
学习如何通过CUDA Stream将主机上的多个核函数（kernel）进行某种顺序的排序；学习CUDA Event如何控制同步，包括CPU/GPU的同步，GPU上不同engine的同步和GPU之间的同步。
第1节: CUDA Stream介绍
13-1：【课件】CUDA C编程：cuda stream and envet
18分钟 13-2：【视频】CUDA Stream介绍
第2节: CUDA Stream为什么有效
10分钟 14：【视频】CUDA Stream为什么有效
第3节: CUDA Stream 默认流的表现
6分钟 15：【视频】CUDA Stream默认流的表现
第4节: CUDA Event
3分钟 16：【视频】CUDA Event
第5节: CUDA 同步操作
7分钟 17：【视频】CUDA 同步操作
第6节: NVVP工具演示
6分钟 18：【视频】NVVP

第4章: cuDNN与cuBLAS 4节课程·1小时26分钟
学习NVIDIA官方提供的GPU加速深度神经网络基元库（cuDNN），感受官方实现的高度优化的标准网络组件（如前向和反向卷积、池化层、归一化层和激活层）；学习了解NVIDIA官方提供的矩阵运算库cuBLAS。
第1节: 课程回顾
19-1：【课件】CUDA C编程：卷积实现与cudnn、cublas
7分钟 19-2：【视频】课程回顾
第2节: cuBLAS
38分钟 20：【视频】cuBLAS
第3节: cuDNN
21-1：【代码】conv_cudnn
28分钟 21-2：【视频】cuDNN
第4节: 实践
11分钟 22：【视频】实践卷积神经网络

第5章: TensorRT介绍 7节课程1篇阅读材料·1次作业·1小时10分钟
学习NVIDIA官方提供的深度学习推理SDK——TensorRT，学习TRT提供的API，掌握如何通过TRT的解析器来解析主流深度学习框架训练的模型，并通过一个例子直观感受一个pt模型或onnx模型如何部署在优化运行时引擎。
第1节: TensorRT是什么
23-1：【课件】TensorRT介绍
8分钟 23-2：【视频】TensorRT是什么
第2节: TensorRT整体工作流程与优化策略
7分钟 24：【视频】TensorRT优化策略
第3节: TensorRT的组成与基本使用流程
12分钟 25：【视频】TensorRT使用的基本流程
第4节: TensorRT demo：SampleMNIST
8分钟 26：【视频】demo
第5节: TensorRT进阶
15分钟 27：【视频】TensorRT进阶
第6节: Demo演示
9分钟 28：【视频】Demo演示
第7节: 作业实践（建议学完第7章再完成）
29：【资料】BERT学习资料
30-1：第五章作业思路
30-2：【作业】第五章
8分钟 30-3：【视频】如何获得免费的GPU资源

第6章: BERT和ViT优化推理实践 1节课程
第1节: BERT和ViT优化推理实践
31：【实践1】project BERT-TensorRT推理优化
32：【实践2】project ViT-TensorRT推理优化

第7章: TensorRT 转换 ONNX模型 6节课程·1小时30分钟
模型推理时，主流深度学习框架训练的模型通常转成ONNX格式，再根据需要转成TRT。这一章节将首先介绍ONNX格式，然后重点讲解ONNX格式转换成TRT时的主要痛点（API难用、支持算子不全、调试难度大等），以及针对这些痛点的解决方案。
第1节: ONNX 介绍
33-1：【课件】L6 TensorRT 转换 ONNX模型 v2.0.pdf
15分钟 33-2：【视频】ONNX介绍
第2节: 背景知识
4分钟 34-1：【视频】背景知识 lower概念
5分钟 34-2：【视频】背景知识 Myelin
第3节: TRT转换模型的主要痛点
6分钟 35：【视频】TRT转换模型的主要痛点
第4节: onnx-parser & onnx-graphsurgen
11分钟 36：【视频】onnx-parser & onnx-graphsurgen
第5节: 实践
23分钟 37-1：【视频】实践上：Transformer模型优化解决不支持的算子
10分钟 37-2：【视频】实践下：Transformer模型优化合并LayerNorm算子
第6节: polygraphy
12分钟 38：【视频】 polygraphy

第8章: TensorRT plugin用法 6节课程1篇阅读材料·1次作业·1小时4分钟
当TensorRT官方不支持某些算子时，学习如何根据TRT给出的接口编写自定义的plugin插件，并作为一个计算节点插入到TensorRT构造的计算图中。
第1节: Plugin介绍
39-1：【课件】TensorRT plugin用法
7分钟 39-2：【视频】plugin介绍
第2节: Static Shape Plugin
35分钟 40：【视频】Static Shape Plugin API & Demo
第3节: Dynamic Shape Plugin
10分钟 41：【视频】Dynamic Shape Plugin API & Demo
第4节: PluginCreator注册
5分钟 42：【视频】PluginCreator注册
第5节: 延伸：TensorRT如何debug
6分钟 43：【视频】Debug Plugin经验
第6节: 实践作业
44-1：【代码】作业代码
44-2：【作业】第六章
44-3：第六章作业思路

第9章: TensorRT量化加速 3节课程1篇阅读材料·1次作业·2小时11分钟
学习如何将模型的浮点计算转成低比特位计算的技术，通过降低模型计算时的浮点精度，在保证模型推理精度下降一点点的情况下，大幅度提高模型的推理速度。
第1节: TRT FP16优化
45-1：【课件】TensorRT INT8量化加速
4分钟 45-2：【视频】TRT FP16优化
第2节: TRT INT8量化算法
24分钟 46-1：【视频】TRT INT8量化算法（上）
25分钟 46-2：【视频】TensorRT INT8量化算法（下）
第3节: TRT大规模上线经验
13分钟 47：【视频】TRT大规模上线
48-1：【作业】第七章
48-2：第七章作业思路提示
49-1：六七章思路提示-详细文档
36分钟 49-2：【视频】六七章BERT方向作业代码讲解
26分钟 49-3：【视频】6，7章作业（ViT方向）代码梳理

第10章: 模型推理经验 4节课程·1小时4分钟
内容以经验分享为主，讲师将5年多深度神经网络加速的工程经验凝练为该章节的内容，主要包括模型转换不同方式的优缺点、TRT测试与调优的技巧，以及模型加速的上限分析。
第1节: 转换方式比较
50-1：【课件】模型推理经验
14分钟 50-2：【视频】转换方式比较
第2节: TRT如何测试并调优
7分钟 51：TRT如何测试并调优
第3节: CUDA与TRT的调试建议
13分钟 52-1：【视频】CUDA与TRT的调试建议
11分钟 52-2：【视频】CUDA与TRT的调试建议并行思维锻炼
第4节: 模型可以加速到什么程度
17分钟 53：【视频】模型可以加速到什么程度

第11章: 补充知识 1节课程·34分钟
第1节: 实践
23分钟 54-1：【视频】实践上：Transformer模型优化解决不支持的算子
10分钟 54-2：【视频】实践下：Transformer模型优化合并LayerNorm算子