- pub
掌握 Flux AI 和 NF4:速度和质量的提升
概述
嘿,朋友!你手上拿着 Flux AI,一个超酷的图像生成工具,来自黑森林实验室,对吧?它真的是太赞了,对吧?不过,要想真正发挥它的威力,特别是那些很方便的 Flux 检查点,你得知道怎么调。我们一起来看看怎么用不同的 Flux 检查点,获取最好的性能吧!
支持的 Flux 检查点
1. 可用的检查点
- flux1-dev-bnb-nf4-v2.safetensors:完整的 flux-dev 检查点,主模型是 NF4。
- 推荐: 从 HuggingFace 下载
- flux1-dev-fp8.safetensors:完整的 flux-dev 检查点,主模型是 FP8。
想找 raw Flux 或 GGUF?那可以看看这篇 帖子。
2. 为什么选 NF4?
- 速度:针对 6GB/8GB/12GB 的显卡,NF4 的速度能比 FP8 快 1.3 到 4 倍。
- 体积:NF4 的权重大约是 FP8 的一半。
- 精度:在数字精度和动态范围方面,NF4 常常优于 FP8。
如何使用 Flux 检查点
1. 设置你的 GPU
- CUDA 支持:如果你的设备支持 11.7 以上的 CUDA,那就用 NF4 吧。恭喜你,只需要
flux1-dev-bnb-nf4.safetensors
。 - 老款 GPU:如果是 GTX 10XX/20XX 这些老款显卡,那就下载
flux1-dev-fp8.safetensors
。
2. 在界面中加载
- 在界面里,Forge 允许强制加载权重类型。
- 一般来说,设置为 自动,这样就能用你下载的检查点里的默认精度。
小贴士:不要用 NF4 选项加载 FP8 检查点哦!
提高推理速度
1. 默认设置
- Forge 的预设速度其实很快,但你可以把速度再推高一点。
- 示例系统:8GB 显存,32GB CPU 内存,16GB 共享 GPU 内存。
2. 离线和交换
- 如果模型大小 > GPU 内存,就得分割模型。将一部分加载到 GPU,另一部分放到“交换”位置,可以是 CPU 或共享内存。
- 共享内存大约可以快 ~15%,但在某些设备上可能会崩溃。
3. 调整 GPU 权重
- 更大的 GPU 权重 = 更快的速度,但如果太大可能会崩溃。
- 更小的 GPU 权重 = 更慢的速度,但可以扩散更大的图像。
示例配置
使用 Flux-dev 的示例
使用 Flux-dev 进行扩散:
- GPU 内存:8GB
- CPU 内存:32GB
- 共享 GPU 内存:16GB
- 时间:1.5 分钟
示例提示词
宇航员在丛林中,冷色调,柔和的颜色,超详细,清晰对焦。
步骤:20,采样器:欧拉,调度类型:简单,CFG 比例:1,蒸馏 CFG 比例:3.5,种子:12345,大小:896x1152,模型:flux1-dev-bnb-nf4-v2
常见问题
我该用哪个检查点?
- 如果你的 GPU 支持较新版本的 CUDA (>11.7),用
flux1-dev-bnb-nf4.safetensors
吧,这样速度和精度都好。 - 对于老款 GPU,建议用
flux1-dev-fp8.safetensors
。
如何确保我的 GPU 使用 T5 文本编码器?
- T5 可能默认使用 FP8,这可能不兼容。确认一下你的设置能处理 NF4,这样才能发挥 T5 文本编码器的最佳效果。
如何在 CPU 和 GPU 之间交换部分?
- 去设置里选择交换位置。共享内存通常更快,但先检查下稳定性。
我可以用 NF4 运行 SDXL 模型吗?
- 当然可以!用 NF4 扩散大概能让 SDXL 模型速度提升 35%,不过种子不一定能完全复现。
解决 inpainting 或 img2img 问题?
- 确保你在使用最新版本的 Forge。如果有需要,更新一下,以解决黑屏或缺少输出的问题。
如何把模型转换成 NF4?
- 可以使用自定义脚本或社区分享的链接,比如这个 NF4 版本的
flux1-schnell-bnb
可能会有帮助:flux1-schnell-bnb-nf4.safetensors。
就这样!有了这些调整,你应该能充分利用你的 Flux AI 检查点。祝你创作愉快!