如何通过 cuDNN 和 TensorRT 提升 NVIDIA 40 系显卡在 Stable Diffusion 中的推理性能
NVIDIA 的 40 系显卡在运行 Stable Diffusion 时,可以通过启用 cuDNN 和 TensorRT 技术来显著提高推理性能。通过这些工具的优化,特别是针对 NVIDIA 新一代 GPU 的加速,能够带来高达 2 倍以上 的推理速度提升。本文将带你了解这两项技术如何工作,以及如何在你的系统中配置它们。
为什么 cuDNN 和 TensorRT 能够提升性能?
-
cuDNN(CUDA Deep Neural Network Library)
cuDNN 是 NVIDIA 提供的深度学习加速库,专门用于优化深度神经网络(DNN)的推理和训练。在 Stable Diffusion 中,cuDNN 主要加速卷积神经网络(CNN)的计算,从而减少推理时间并提高效率。 -
TensorRT
TensorRT 是 NVIDIA 专为推理优化而设计的深度学习加速库。它通过量化(如减少 FP16 精度计算或采用 INT8 量化)和其他技术对模型进行优化,从而显著加速图像生成等任务。在 Automatic1111 Web UI 的最新版本中,已经集成了对 TensorRT 的支持,用户可以轻松启用这一加速功能。
如何配置 cuDNN 和 TensorRT 提升性能?
1. 安装 cuDNN
cuDNN 是 NVIDIA 提供的 GPU 加速库,专为加速深度学习任务设计,包括 Stable Diffusion。如果你当前的 Stable Diffusion Web UI 版本没有启用最新的 cuDNN 加速库,手动安装并更新 cuDNN 会大幅提升性能。
安装步骤:
- 访问 NVIDIA 官网 下载与你的 CUDA 版本匹配的 cuDNN 库。
- 解压下载的文件,将其中的
bin
、include
和lib
文件夹中的内容复制到 CUDA 安装目录下(通常是/usr/local/cuda
)。Windows 用户直接使用 exe 文件进行安装即可。 - 完成后,重新启动系统以确保新库生效。
2. 启用 TensorRT 优化
TensorRT 通过针对 RTX GPU 的优化加速推理过程,在 Stable Diffusion 中表现尤为突出,最多可提升 2 倍 的推理速度。
安装 TensorRT 扩展:
- 打开 Stable Diffusion Web UI。
- 转到
Extensions
标签页,点击Install from URL
。 - 输入以下 URL 安装 TensorRT 扩展:
txthttps://github.com/NVIDIA/Stable-Diffusion-WebUI-TensorRT
- 安装完成后,点击
Apply and restart UI
。
配置 TensorRT:
- 在 Web UI 主页顶部,你会看到新增的 TensorRT 选项。