NVIDIA 的 40 系显卡在运行 Stable Diffusion 时,可以通过启用 cuDNN 和 TensorRT 技术来显著提高推理性能。通过这些工具的优化,特别是针对 NVIDIA 新一代 GPU 的加速,能够带来高达 2 倍以上 的推理速度提升。本文将带你了解这两项技术如何工作,以及如何在你的系统中配置它们。
cuDNN(CUDA Deep Neural Network Library)
cuDNN 是 NVIDIA 提供的深度学习加速库,专门用于优化深度神经网络(DNN)的推理和训练。在 Stable Diffusion 中,cuDNN 主要加速卷积神经网络(CNN)的计算,从而减少推理时间并提高效率。
TensorRT
TensorRT 是 NVIDIA 专为推理优化而设计的深度学习加速库。它通过量化(如减少 FP16 精度计算或采用 INT8 量化)和其他技术对模型进行优化,从而显著加速图像生成等任务。在 Automatic1111 Web UI 的最新版本中,已经集成了对 TensorRT 的支持,用户可以轻松启用这一加速功能。
cuDNN 是 NVIDIA 提供的 GPU 加速库,专为加速深度学习任务设计,包括 Stable Diffusion。如果你当前的 Stable Diffusion Web UI 版本没有启用最新的 cuDNN 加速库,手动安装并更新 cuDNN 会大幅提升性能。
安装步骤:
bin
、include
和 lib
文件夹中的内容复制到 CUDA 安装目录下(通常是 /usr/local/cuda
)。Windows 用户直接使用 exe 文件进行安装即可。TensorRT 通过针对 RTX GPU 的优化加速推理过程,在 Stable Diffusion 中表现尤为突出,最多可提升 2 倍 的推理速度。
安装 TensorRT 扩展:
Extensions
标签页,点击 Install from URL
。txthttps://github.com/NVIDIA/Stable-Diffusion-WebUI-TensorRT
Apply and restart UI
。配置 TensorRT:
Settings
,选择 User Interface
,并在 Quick Settings List
中添加 sd_unet
。sd_unet
选项为 Automatic
。TensorRT
标签页中生成特定分辨率和批量大小的优化引擎,以进一步提高性能。如果你正在使用 NVIDIA 40 系显卡(如 RTX 4060 Ti),并希望提升 Stable Diffusion 的生成速度,启用 cuDNN 和 TensorRT 扩展是提升性能的有效方式。这些优化不仅能显著提高推理速度,还能充分发挥显卡的潜力,特别适合需要处理大量图像生成任务的用户。
如果你需要更详细的教程,参考以下链接: