Blog Playground

pub: 2023年10月8日

掌握 Flux AI 和 NF4：速度和质量的提升

概述

嘿，朋友！你手上拿着 Flux AI，一个超酷的图像生成工具，来自黑森林实验室，对吧？它真的是太赞了，对吧？不过，要想真正发挥它的威力，特别是那些很方便的 Flux 检查点，你得知道怎么调。我们一起来看看怎么用不同的 Flux 检查点，获取最好的性能吧！

支持的 Flux 检查点

1. 可用的检查点

flux1-dev-bnb-nf4-v2.safetensors：完整的 flux-dev 检查点，主模型是 NF4。
- 推荐: 从 HuggingFace 下载
flux1-dev-fp8.safetensors：完整的 flux-dev 检查点，主模型是 FP8。
- 从 HuggingFace 下载

想找 raw Flux 或 GGUF？那可以看看这篇帖子。

2. 为什么选 NF4？

速度：针对 6GB/8GB/12GB 的显卡，NF4 的速度能比 FP8 快 1.3 到 4 倍。
体积：NF4 的权重大约是 FP8 的一半。
精度：在数字精度和动态范围方面，NF4 常常优于 FP8。

如何使用 Flux 检查点

1. 设置你的 GPU

CUDA 支持：如果你的设备支持 11.7 以上的 CUDA，那就用 NF4 吧。恭喜你，只需要 flux1-dev-bnb-nf4.safetensors。
老款 GPU：如果是 GTX 10XX/20XX 这些老款显卡，那就下载 flux1-dev-fp8.safetensors。

2. 在界面中加载

在界面里，Forge 允许强制加载权重类型。
一般来说，设置为自动，这样就能用你下载的检查点里的默认精度。

小贴士：不要用 NF4 选项加载 FP8 检查点哦！

提高推理速度

1. 默认设置

Forge 的预设速度其实很快，但你可以把速度再推高一点。
示例系统：8GB 显存，32GB CPU 内存，16GB 共享 GPU 内存。

2. 离线和交换

如果模型大小 > GPU 内存，就得分割模型。将一部分加载到 GPU，另一部分放到“交换”位置，可以是 CPU 或共享内存。
共享内存大约可以快 ~15%，但在某些设备上可能会崩溃。

3. 调整 GPU 权重

更大的 GPU 权重 = 更快的速度，但如果太大可能会崩溃。
更小的 GPU 权重 = 更慢的速度，但可以扩散更大的图像。

示例配置

使用 Flux-dev 的示例

使用 Flux-dev 进行扩散：
- GPU 内存：8GB
- CPU 内存：32GB
- 共享 GPU 内存：16GB
- 时间：1.5 分钟

示例提示词

宇航员在丛林中，冷色调，柔和的颜色，超详细，清晰对焦。
步骤：20，采样器：欧拉，调度类型：简单，CFG 比例：1，蒸馏 CFG 比例：3.5，种子：12345，大小：896x1152，模型：flux1-dev-bnb-nf4-v2

常见问题

我该用哪个检查点？

如果你的 GPU 支持较新版本的 CUDA (>11.7)，用 flux1-dev-bnb-nf4.safetensors 吧，这样速度和精度都好。
对于老款 GPU，建议用 flux1-dev-fp8.safetensors。

如何确保我的 GPU 使用 T5 文本编码器？

T5 可能默认使用 FP8，这可能不兼容。确认一下你的设置能处理 NF4，这样才能发挥 T5 文本编码器的最佳效果。

如何在 CPU 和 GPU 之间交换部分？

去设置里选择交换位置。共享内存通常更快，但先检查下稳定性。

我可以用 NF4 运行 SDXL 模型吗？

当然可以！用 NF4 扩散大概能让 SDXL 模型速度提升 35%，不过种子不一定能完全复现。

解决 inpainting 或 img2img 问题？

确保你在使用最新版本的 Forge。如果有需要，更新一下，以解决黑屏或缺少输出的问题。

如何把模型转换成 NF4？

可以使用自定义脚本或社区分享的链接，比如这个 NF4 版本的 flux1-schnell-bnb 可能会有帮助：flux1-schnell-bnb-nf4.safetensors。

就这样！有了这些调整，你应该能充分利用你的 Flux AI 检查点。祝你创作愉快！

SHARE