logo
pub

Masterizando o Flux AI com NF4: Melhorias de Velocidade e Qualidade

Visão Geral

Oi, tudo bem? Olha só, você tá com o Flux AI, uma ferramenta incrível pra gerar imagens da Black Forest Labs, né? Super bacana, né? Mas pra realmente soltar todo o potencial dela, especialmente com aqueles checkpoints Flux maneiros, você precisa saber como ajustar direitinho. Vamos lá entender como usar diferentes checkpoints Flux e tirar o máximo proveito deles!

Checkpoints Flux Suportados

1. Checkpoints Disponíveis

Quer o raw Flux ou GGUF? Dá uma olhada nesse post.

2. Por que NF4?

  • Velocidade: Pra GPUs de 6GB/8GB/12GB, NF4 pode ser 1.3x a 4x mais rápido que FP8.
  • Tamanho: Os pesos NF4 são cerca da metade do tamanho do FP8.
  • Precisão: NF4 geralmente supera o FP8 em precisão numérica e faixa dinâmica.

Usando Checkpoints Flux

1. Configure Sua GPU

  • Suporte a CUDA: Se seu dispositivo tem suporte a CUDA mais recente que a 11.7, vai de NF4. Parabéns, você só precisa do flux1-dev-bnb-nf4.safetensors.
  • GPUs Antigas: Se você tem uma GPU mais antiga como a GTX 10XX/20XX, baixa o flux1-dev-fp8.safetensors.

2. Carregando na Interface

  • Na interface, o Forge te dá a opção de forçar o tipo de peso que você vai carregar.
  • Geralmente, é legal deixar em Auto pra usar a precisão padrão do checkpoint que você baixou.

Dica: Não carregue o checkpoint FP8 com a opção NF4!

Acelerando a Velocidade de Inferência

1. Configurações Padrão

  • As predefinições do Forge são rápidas, mas dá pra forçar ainda mais a velocidade.
  • Exemplo de Sistema: 8GB de VRAM, 32GB de memória CPU e 16GB de memória GPU compartilhada.

2. Offloading e Swapping

  • Se o tamanho do modelo > memória da GPU, divide o modelo. Carrega uma parte na GPU e a outra no "local de swap", que pode ser a CPU ou a memória compartilhada.
  • Memória compartilhada pode ser ~15% mais rápida, mas pode travar em alguns dispositivos.

3. Ajustando os Pesos da GPU

  • Pesos maiores na GPU = velocidade mais rápida, mas se for muito grande pode causar travamentos.
  • Pesos menores na GPU = velocidade mais lenta, mas dá pra difundir imagens maiores.

Configurações de Exemplo

Exemplo com Flux-dev

Usando Flux-dev na difusão:
- Memória GPU: 8GB
- Memória CPU: 32GB
- Memória GPU Compartilhada: 16GB
- Tempo: 1.5 min

Exemplos de Prompt

Astronauta na selva, paleta de cores frias, cores apagadas, muito detalhado, foco bem nítido.
Passos: 20, Amostrador: Euler, Tipo de agenda: Simples, Escala CFG: 1, Escala CFG destilada: 3.5, Semente: 12345, Tamanho: 896x1152, Modelo: flux1-dev-bnb-nf4-v2

FAQ

Quais checkpoints devo usar?

  • Se sua GPU suporta versões mais recentes do CUDA (>11.7), use flux1-dev-bnb-nf4.safetensors pra ter mais velocidade e precisão.
  • Pra GPUs mais antigas, fique com flux1-dev-fp8.safetensors.

Como posso garantir que minha GPU tá usando o codificador de texto T5?

  • O T5 pode por padrão usar FP8, que pode ser incompatível. Garanta que sua configuração aguenta NF4 pra aproveitar o melhor do codificador de texto T5.

Como posso fazer swap entre CPU e GPU?

  • Vá nas configurações e selecione os locais de swap. A memória compartilhada tende a ser mais rápida, mas checa a estabilidade primeiro.

Posso usar modelos como SDXL com NF4?

  • Claro! Usar NF4 na difusão acelera modelos como SDXL em cerca de 35% em média, embora não replique exatamente as sementes.

Tô tendo problemas com inpainting ou img2img?

  • Certifique-se de que você está na versão mais recente do Forge. Atualize se necessário pra resolver problemas de imagem preta ou saídas faltando.

Como converter modelos pra NF4?

E aí, tá tudo certo! Com essas dicas, você tá pronto pra aproveitar ao máximo os checkpoints Flux AI. Boa criação!