- pub
Masterizando o Flux AI com NF4: Melhorias de Velocidade e Qualidade
Visão Geral
Oi, tudo bem? Olha só, você tá com o Flux AI, uma ferramenta incrível pra gerar imagens da Black Forest Labs, né? Super bacana, né? Mas pra realmente soltar todo o potencial dela, especialmente com aqueles checkpoints Flux maneiros, você precisa saber como ajustar direitinho. Vamos lá entender como usar diferentes checkpoints Flux e tirar o máximo proveito deles!
Checkpoints Flux Suportados
1. Checkpoints Disponíveis
- flux1-dev-bnb-nf4-v2.safetensors: Checkpoint completo flux-dev com o modelo principal em NF4.
- Recomendado: Baixe aqui do HuggingFace
- flux1-dev-fp8.safetensors: Checkpoint completo flux-dev com o modelo principal em FP8.
Quer o raw Flux ou GGUF? Dá uma olhada nesse post.
2. Por que NF4?
- Velocidade: Pra GPUs de 6GB/8GB/12GB, NF4 pode ser 1.3x a 4x mais rápido que FP8.
- Tamanho: Os pesos NF4 são cerca da metade do tamanho do FP8.
- Precisão: NF4 geralmente supera o FP8 em precisão numérica e faixa dinâmica.
Usando Checkpoints Flux
1. Configure Sua GPU
- Suporte a CUDA: Se seu dispositivo tem suporte a CUDA mais recente que a 11.7, vai de NF4. Parabéns, você só precisa do
flux1-dev-bnb-nf4.safetensors
. - GPUs Antigas: Se você tem uma GPU mais antiga como a GTX 10XX/20XX, baixa o
flux1-dev-fp8.safetensors
.
2. Carregando na Interface
- Na interface, o Forge te dá a opção de forçar o tipo de peso que você vai carregar.
- Geralmente, é legal deixar em Auto pra usar a precisão padrão do checkpoint que você baixou.
Dica: Não carregue o checkpoint FP8 com a opção NF4!
Acelerando a Velocidade de Inferência
1. Configurações Padrão
- As predefinições do Forge são rápidas, mas dá pra forçar ainda mais a velocidade.
- Exemplo de Sistema: 8GB de VRAM, 32GB de memória CPU e 16GB de memória GPU compartilhada.
2. Offloading e Swapping
- Se o tamanho do modelo > memória da GPU, divide o modelo. Carrega uma parte na GPU e a outra no "local de swap", que pode ser a CPU ou a memória compartilhada.
- Memória compartilhada pode ser ~15% mais rápida, mas pode travar em alguns dispositivos.
3. Ajustando os Pesos da GPU
- Pesos maiores na GPU = velocidade mais rápida, mas se for muito grande pode causar travamentos.
- Pesos menores na GPU = velocidade mais lenta, mas dá pra difundir imagens maiores.
Configurações de Exemplo
Exemplo com Flux-dev
Usando Flux-dev na difusão:
- Memória GPU: 8GB
- Memória CPU: 32GB
- Memória GPU Compartilhada: 16GB
- Tempo: 1.5 min
Exemplos de Prompt
Astronauta na selva, paleta de cores frias, cores apagadas, muito detalhado, foco bem nítido.
Passos: 20, Amostrador: Euler, Tipo de agenda: Simples, Escala CFG: 1, Escala CFG destilada: 3.5, Semente: 12345, Tamanho: 896x1152, Modelo: flux1-dev-bnb-nf4-v2
FAQ
Quais checkpoints devo usar?
- Se sua GPU suporta versões mais recentes do CUDA (>11.7), use
flux1-dev-bnb-nf4.safetensors
pra ter mais velocidade e precisão. - Pra GPUs mais antigas, fique com
flux1-dev-fp8.safetensors
.
Como posso garantir que minha GPU tá usando o codificador de texto T5?
- O T5 pode por padrão usar FP8, que pode ser incompatível. Garanta que sua configuração aguenta NF4 pra aproveitar o melhor do codificador de texto T5.
Como posso fazer swap entre CPU e GPU?
- Vá nas configurações e selecione os locais de swap. A memória compartilhada tende a ser mais rápida, mas checa a estabilidade primeiro.
Posso usar modelos como SDXL com NF4?
- Claro! Usar NF4 na difusão acelera modelos como SDXL em cerca de 35% em média, embora não replique exatamente as sementes.
Tô tendo problemas com inpainting ou img2img?
- Certifique-se de que você está na versão mais recente do Forge. Atualize se necessário pra resolver problemas de imagem preta ou saídas faltando.
Como converter modelos pra NF4?
- Scripts personalizados ou links compartilhados pela comunidade, como essa versão NF4 de
flux1-schnell-bnb
, podem ajudar: flux1-schnell-bnb-nf4.safetensors.
E aí, tá tudo certo! Com essas dicas, você tá pronto pra aproveitar ao máximo os checkpoints Flux AI. Boa criação!