课程价格 :
¥599.00
剩余名额
0
-
学习时长
8周/建议每周8个小时
-
答疑服务
专属微信答疑群/讲师助教均参与
-
作业批改
课程配有作业/助教1V1批改
-
课程有效期
一年/告别拖延,温故知新
- 1-1:Ubuntu下环境配置手册(参考文档)
- 1-2:cuda第五期开课仪式.pdf
- 1-3:【视频】如何获得免费的GPU服务器资源
- 第1章: CUDA C编程及GPU基本知识
- 第1节: GPU基本架构及特点
- 2-1:【课件】CUDA C编程及GPU基本知识
- 2-2:【视频】CPU与GPU的基础知识
- 第2节: CUDA C编程基本知识
- 3:【视频】CUDA编程的重要概念
- 第3节: 并行计算向量相加
- 4:【视频】并行计算向量相加
- 第4节: 实践
- 5-1:【代码】Demo I
- 5-2:【视频】实践向量相加
- 5-3:【作业】第一章
- 5-4:作业1思路讲解.pdf
- 第2章: CUDA C编程:矩阵乘法
- 6:【课件】CUDA C编程:矩阵乘法
- 第1节: 为什么矩阵乘法适合GPU实现
- 7:【视频】为什么矩阵乘法适合GPU实现
- 第2节: 矩阵乘法的GPU基础实现
- 8:【视频】矩阵算法GPU实现
- 第3节: 矩阵乘法GPU进阶实现
- 9:【视频】矩阵乘法的GPU进阶实现
- 第4节: 代码实践
- 10-1:【代码】L2 MatrixMultiple
- 10-2:【视频】CUDA矩阵乘法实践
- 第5节: 作业题目
- 11-1:【视频】作业题目
- 11-2:【作业】第二章
- 11-3:作业2思路讲解.pdf
- 第3章: cuda stream 和 Event
- 第1节: CUDA Stream介绍
- 12-1:【课件】CUDA C编程:cuda stream and envet
- 12-2:【视频】CUDA Stream介绍
- 第2节: CUDA Stream为什么有效
- 13:【视频】CUDA Stream为什么有效
- 第3节: CUDA Stream 默认流的表现
- 14:【视频】CUDA Stream默认流的表现
- 第4节: CUDA Event
- 15:【视频】CUDA Event
- 第5节: CUDA 同步操作
- 16:【视频】CUDA 同步操作
- 第6节: NVVP工具演示
- 17:【视频】NVVP
- 第4章: cuDNN与cuBLAS
- 18:【资料】BERT学习资料
- 第1节: 课程回顾
- 19-1:【课件】CUDA C编程:卷积实现与cudnn、cublas
- 19-2:【视频】课程回顾
- 第2节: cuBLAS
- 20:【视频】cuBLAS
- 第3节: cuDNN
- 21:【视频】cuDNN
- 第4节: 实践
- 22:【视频】实践卷积神经网络
- 第5章: TensorRT介绍
- 第1节: TensorRT是什么
- 23:【课件】TensorRT介绍
- 24:【视频】TensorRT是什么
- 第2节: TensorRT整体工作流程与优化策略
- 25:【视频】TensorRT优化策略
- 第3节: TensorRT的组成与基本使用流程
- 26:【视频】TensorRT使用的基本流程
- 第4节: TensorRT demo:SampleMNIST
- 27:【视频】demo
- 第5节: TensorRT进阶
- 28:【视频】TensorRT进阶
- 第6节: Demo演示
- 29:【视频】Demo演示
- 第7节: 作业实践
- 30-1:【作业】第五章
- 30-2:作业5思路讲解.pdf
- 第6章: TensorRT plugin用法
- 第1节: Plugin介绍
- 31-1:【课件】TensorRT plugin用法
- 31-2:【视频】plugin介绍
- 第2节: Static Shape Plugin
- 32:【视频】Static Shape Plugin API & Demo
- 第3节: Dynamic Shape Plugin
- 33:【视频】Dynamic Shape Plugin API & Demo
- 第4节: PluginCreator注册
- 34:【视频】PluginCreator注册
- 第5节: 延伸:TensorRT如何debug
- 35:【视频】Debug Plugin经验
- 第6节: 实践作业
- 36-1:【作业】第六章
- 36-2:project ViT_TRT.zip
- 36-3:project bert.rar
- 第7章: TensorRT量化加速
- 37-1:【课件】TensorRT INT8量化加速(无标记版)
- 37-2:【课件】TensorRT INT8量化加速
- 第1节: TRT FP16优化
- 38:【视频】TRT FP16优化
- 第2节: TRT INT8量化算法
- 39-1:【视频】TRT INT8量化算法(上)
- 39-2:【视频】TensorRT INT8量化算法(下)
- 第3节: TRT大规模上线经验
- 40:【视频】TRT大规模上线
- 41-1:作业第七章.pdf
- 41-2:【作业】第七章
- 41-3:作业7思路讲解.pdf
- 第8章: TensorRT 转换 ONNX模型
- 第1节: ONNX 介绍
- 42:【课件】TensorRT 转换 ONNX 模型
- 43-1:【视频】如何获得免费的GPU服务器资源
- 43-2:【视频】ONNX 介绍
- 第2节: 背景知识
- 44-1:【视频】背景知识 lower概念
- 44-2: 【视频】背景知识 Myelin
- 第3节: TRT转换模型的主要痛点
- 45:【视频】TRT转换模型的主要痛点
- 第4节: 实践
- 46-1:【视频】实践上:Transformer模型优化 解决不支持的算子
- 46-2:【视频】 实践下:Transformer模型优化 合并LayerNorm算子
- 第5节: polygraphy
- 47:【视频】 polygraphy
- 第9章: 模型推理经验
- 48:【课件】模型推理经验
- 第1节: 转换方式比较
- 49:【视频】转换方式比较
- 第2节: TRT如何测试并调优
- 50:TRT如何测试并调优
- 第3节: CUDA与TRT的调试建议
- 51-1:【视频】CUDA与TRT的调试建议
- 51-2:【视频】CUDA与TRT的调试建议 并行思维锻炼
- 第4节: 模型可以加速到什么程度
- 52:【视频】模型可以加速到什么程度