logo
pub

掌握 Flux AI 和 NF4:速度和质量的提升

概述

嘿,朋友!你手上拿着 Flux AI,一个超酷的图像生成工具,来自黑森林实验室,对吧?它真的是太赞了,对吧?不过,要想真正发挥它的威力,特别是那些很方便的 Flux 检查点,你得知道怎么调。我们一起来看看怎么用不同的 Flux 检查点,获取最好的性能吧!

支持的 Flux 检查点

1. 可用的检查点

想找 raw Flux 或 GGUF?那可以看看这篇 帖子

2. 为什么选 NF4?

  • 速度:针对 6GB/8GB/12GB 的显卡,NF4 的速度能比 FP8 快 1.3 到 4 倍
  • 体积:NF4 的权重大约是 FP8 的一半。
  • 精度:在数字精度和动态范围方面,NF4 常常优于 FP8。

如何使用 Flux 检查点

1. 设置你的 GPU

  • CUDA 支持:如果你的设备支持 11.7 以上的 CUDA,那就用 NF4 吧。恭喜你,只需要 flux1-dev-bnb-nf4.safetensors
  • 老款 GPU:如果是 GTX 10XX/20XX 这些老款显卡,那就下载 flux1-dev-fp8.safetensors

2. 在界面中加载

  • 在界面里,Forge 允许强制加载权重类型。
  • 一般来说,设置为 自动,这样就能用你下载的检查点里的默认精度。

小贴士:不要用 NF4 选项加载 FP8 检查点哦!

提高推理速度

1. 默认设置

  • Forge 的预设速度其实很快,但你可以把速度再推高一点。
  • 示例系统:8GB 显存,32GB CPU 内存,16GB 共享 GPU 内存。

2. 离线和交换

  • 如果模型大小 > GPU 内存,就得分割模型。将一部分加载到 GPU,另一部分放到“交换”位置,可以是 CPU 或共享内存。
  • 共享内存大约可以快 ~15%,但在某些设备上可能会崩溃。

3. 调整 GPU 权重

  • 更大的 GPU 权重 = 更快的速度,但如果太大可能会崩溃。
  • 更小的 GPU 权重 = 更慢的速度,但可以扩散更大的图像。

示例配置

使用 Flux-dev 的示例

使用 Flux-dev 进行扩散:
- GPU 内存:8GB
- CPU 内存:32GB
- 共享 GPU 内存:16GB
- 时间:1.5 分钟

示例提示词

宇航员在丛林中,冷色调,柔和的颜色,超详细,清晰对焦。
步骤:20,采样器:欧拉,调度类型:简单,CFG 比例:1,蒸馏 CFG 比例:3.5,种子:12345,大小:896x1152,模型:flux1-dev-bnb-nf4-v2

常见问题

我该用哪个检查点?

  • 如果你的 GPU 支持较新版本的 CUDA (>11.7),用 flux1-dev-bnb-nf4.safetensors 吧,这样速度和精度都好。
  • 对于老款 GPU,建议用 flux1-dev-fp8.safetensors

如何确保我的 GPU 使用 T5 文本编码器?

  • T5 可能默认使用 FP8,这可能不兼容。确认一下你的设置能处理 NF4,这样才能发挥 T5 文本编码器的最佳效果。

如何在 CPU 和 GPU 之间交换部分?

  • 去设置里选择交换位置。共享内存通常更快,但先检查下稳定性。

我可以用 NF4 运行 SDXL 模型吗?

  • 当然可以!用 NF4 扩散大概能让 SDXL 模型速度提升 35%,不过种子不一定能完全复现。

解决 inpainting 或 img2img 问题?

  • 确保你在使用最新版本的 Forge。如果有需要,更新一下,以解决黑屏或缺少输出的问题。

如何把模型转换成 NF4?

就这样!有了这些调整,你应该能充分利用你的 Flux AI 检查点。祝你创作愉快!