• 学习时长

    10周/建议每周至少6小时

  • 答疑服务

    专属微信答疑群/讲师助教均参与

  • 作业批改

    每章节设计作业/助教及时批改评优

  • 课程有效期

    一年/告别拖延,温故知新

  • 1:开课仪式
  • 第1章: TensorRT介绍
  • 第1节: TensorRT是什么
  • 2:【视频】TensorRT是什么
  • 第2节: TensorRT整体工作流程与优化策略
  • 3:【视频】TensorRT整体工作流程与优化策略
  • 第3节: TensorRT的组成与基本使用流程
  • 4:【视频】TensorRT使用的基本流程
  • 第4节: TensorRT DEMO:SampleMNIST
  • 5:【视频】demo
  • 第5节: TensorRT进阶
  • 6:【视频】TensorRT进阶
  • 第6节: DEMO演示
  • 7:【视频】Demo演示
  • 第2章: TensorRT转ONNX模型
  • 第1节: ONNX介绍
  • 8-1:【课件】 TensorRT 转换 ONNX模型 v2.0
  • 8-2:【视频】ONNX介绍
  • 第2节: 背景知识
  • 9:【视频】背景知识 lower概念
  • 第3节: TRT转换模型的主要痛点
  • 10:【视频】TRT转换模型的主要痛点
  • 第4节: onnx-parser & onnx-graphsurgen
  • 11:【视频】onnx-parser & onnx-graphsurgen
  • 第5节: 实践
  • 12-1:【视频】实践上:Transformer模型优化 解决不支持的算子
  • 12-2:【视频】 实践下:Transformer模型优化 合并LayerNorm算子
  • 第6节: polygraphy
  • 13:【视频】 polygraphy
  • 第3章: 模型介绍与课程目标
  • 14:【课件】模型介绍与课程目标
  • 第1节: 大模型分类介绍
  • 15:【视频】大模型分类
  • 第2节: 模型介绍:ControlNet Stable Diffusion(CNSD)模型
  • 16:【视频】 ControlNet Stable Diffusion模型简介
  • 第3节: 课程内容及目标介绍
  • 17:【视频】课程内容及目标介绍
  • 第4章: 环境搭建、代码结构与评价标准
  • 18:【课件】L2 diffusion-背景和技术介绍
  • 第1节: 环境搭建:手动搭建和docker两种方式
  • 19:【视频】Docker环境搭建
  • 第2节: 评价标准介绍:从速度和精度两个方面进行评估
  • 20:【视频】模型推理评价标准
  • 第3节: 4种模型转换方式类型与优缺点
  • 21:【视频】转换方式介绍及其优缺点
  • 第5章: 开始节点
  • 22:【课件】L5 stable diffusion加速 开始节点.pdf
  • 第1节: TensorRT转换方式介绍
  • 23:【视频】各优化节点介绍
  • 第2节: 模型结构详细介绍:模型结构图、单步调试代码
  • 24-1:【视频】如何快速了解模型结构
  • 24-2:【视频】实操演示
  • 第3节: diffusion类模型-PyTorch转TRT的工作流介绍
  • 25:【视频】Pytorch模型转ONNX
  • 第4节: 介绍 TRT python API并介绍TRT8.6的新API
  • 26:【视频】ONNX模型转TensorRT
  • 第5节: 实践
  • 27-1:【说明】项目环境搭建
  • 27-2:【视频】作业实践安排
  • 27-3:【作业】第五章
  • 第6章: 节点二FP16优化
  • 28:【课件】节点二 fp16优化
  • 第1节: FP16优化
  • 29:【视频】为什么FP16是性价比最高的优化方法
  • 第2节: 经验:TRT不同版本如何合并LayerNorm算子
  • 30:【视频】FP16优化的经验分享
  • 第3节: 实践:对CNSD模型进行FP16加速并评估
  • 31-1:【课件】节点二 fp16 实战
  • 31-2:【视频】实战内容概览
  • 32-1:【视频】项目Profile
  • 32-2:【视频】项目profile的意义
  • 33:【视频】FP16溢出调试实践
  • 第7章: 节点三 CUDA Graph 优化
  • 34:【课件】节点三 cuda-graph v1.2
  • 第1节: CUDA-graph:是什么,为什么,如何做
  • 35-1:【视频】为什么要做CUDA Graph
  • 35-2:【视频】如何在该项目中使用CUDA Graph
  • 第2节: CUDA Graph的缺点及优化策略
  • 36:【视频】解决变长输入的CUDA Graph策略
  • 第3节: TensorRT8.6 新特性,BuildOptimalLevel 优化
  • 37:【视频】BuildOptimalLevel优化
  • 第4节: 实践:对CNSD模型进行CUDA Graph优化和尝试BuildOptimalLevel 优化
  • 38:【视频】实践作业 敬请期待
  • 第8章: 节点四 pipeline 优化
  • 39:【课件】节点四 pipeline 优化
  • 第1节: 本章内容概览
  • 40:【视频】本章内容概览
  • 第2节: 迭代次数优化与GroupNorm
  • 41-1:【视频】迭代次数优化与GroupNorm
  • 41-2:【视频】模型内部优化实践
  • 第3节: 拼batch优化
  • 42:【视频】 拼batch优化
  • 第4节: 实践作业
  • 43-1:【视频】实践作业
  • 43-2:【作业】第八章
  • 第9章: TensorRT int8量化介绍
  • 44-1:【课件】TensorRT INT8量化加速
  • 44-2:【视频】TRT FP16优化
  • 第1节: int8 量化原理
  • 45-1:【视频】TRT INT8量化算法(上)
  • 45-2:【视频】TensorRT INT8量化算法(下)
  • 第10章: 节点五 CNSD int8量化优化
  • 第1节: 本章内容
  • 46:【视频】内容概述
  • 第2节: INT 8 是否值得做?
  • 47:【视频】INT8值不值得做
  • 第3节: 如何做INT8量化
  • 48:【视频】如何做INT8量化:以ControlNet为例
  • 第4节: 解决精度损失问题: smoothquant 算法
  • 49:【视频】解决INT8量化误差的3种方法
  • 第5节: 分析INT8误差
  • 50-1:【课件】节点五 int8 量化-实践
  • 50-2:【视频】分析INT8误差
  • 50-3: 【视频】解决INT8误差的方法
  • 50-4:【视频】实践演示
  • 第11章: 进阶节点:深度优化
  • 51:【课件】进阶节点:深度优化
  • 第1节: 本章内容介绍
  • 52:【视频】内容概述
  • 第2节: 模型结构详细分析
  • 53-1:【视频】CNSD模型的结构解析
  • 53-2:【视频】模型代码结构分析
  • 第3节: 优化模型冗余计算
  • 54:【视频】模型冗余计算的优化
  • 第4节: 各个模块深度优化分析
  • 55:【视频】深度优化碎碎念
  • 56:【2024.7.28直播答疑】

相关推荐

模型压缩与部署 模型压缩与部署 基础
模型压缩与部署 模型压缩与部署 基础

未注册验证后自动登录,注册/登录则视为同意

《服务协议》《隐私协议》

请完善资料,让我们更好的为您服务!

+86  (手机号已绑定)

未注册验证后自动登录,注册/登录则视为同意

《服务协议》《隐私协议》