课程价格 :
¥1599.00
剩余名额
24
-
学习时长
10周/建议每周至少6小时
-
答疑服务
专属微信答疑群/讲师助教均参与
-
作业批改
每章节设计作业/助教及时批改评优
-
课程有效期
一年/告别拖延,温故知新
- 第1章: TensorRT介绍
- 第1节: TensorRT是什么
- 第2节: TensorRT整体工作流程与优化策略
- 第3节: TensorRT的组成与基本使用流程
- 第4节: TensorRT DEMO:SampleMNIST
- 第5节: TensorRT进阶
- 第6节: DEMO演示
- 第2章: TensorRT转ONNX模型
- 第1节: ONNX介绍
- 第2节: 背景知识
- 第3节: TRT转换模型的主要痛点
- 第4节: onnx-parser & onnx-graphsurgen
- 第5节: 实践
- 第6节: polygraphy
- 第3章: 模型介绍与课程目标
- 第1节: 模型介绍:ControlNet Stable Diffusion(CNSD)模型
- 第2节: 课程目标和加速内容介绍
- 第3节: 对于算法、工程和学生,学这个课有什么用
- 第4章: 环境搭建、代码结构与评价标准
- 第1节: 环境搭建:手动搭建和docker两种方式
- 第2节: 目录结构介绍
- 第3节: 评价标准介绍:从速度和精度两个方面进行评估
- 第5章: 开始节点
- 第1节: TensorRT转换方式介绍
- 第2节: 模型结构详细介绍:模型结构图、单步调试代码
- 第3节: diffusion类模型-PyTorch转TRT的工作流介绍
- 第4节: 介绍 TRT python API并介绍TRT8.6的新API
- 第6章: 节点一 FP16优化
- 第1节: FP16优化
- 第2节: 经验:TRT不同版本如何合并LayerNorm算子
- 第3节: 实践:对CNSD模型进行FP16加速并评估
- 第7章: 节点二 CUDA Graph 优化
- 第1节: CUDA-graph:是什么,为什么,如何做
- 第2节: TensorRT8.6 新特性,BuildOptimalLevel 优化
- 第3节: 实践:对CNSD模型进行CUDA Graph优化和尝试BuildOptimalLevel 优化
- 第8章: TensorRT int8量化介绍
- 第1节: int8 量化原理
- 第2节: TensorRT 饱和量化算法介绍
- 第9章: 节点三 CNSD int8量化
- 第1节: 介绍使用TRT int8优化模型经验
- 第2节: 解决精度损失问题: smoothquant 算法
- 第3节: 实践:对CNSD模型进行int8量化优化
- 第10章: 节点四 ONNX模型层面优化
- 第1节: 什么是GroupNorm
- 第2节: 如何分析ONNX模型及其优化点(以合并GroupNorm为例)
- 第3节: 实践:合并GroupNorm优化
- 第11章: 节点五 pipeline 优化
- 第1节: 番外篇:优化迭代次数、使用蒸馏等优化方案
- 第2节: nsys profile的使用
- 第3节: unet+controlnet合并,并拼batch优化
- 第4节: 优化scheduler模块:提前生成scheduler,减少耗时
- 第5节: 显存管理优化
- 第12章: 进阶 :模型内优化(模型内具体细节、使用API搭建网络)
- 第1节: 优化模型冗余计算
- 第2节: 优化Attention结构
- 第3节: 大规模合并算子