logo
pub

Mastering Flux AI con NF4: Miglioramenti nella velocità e nella qualità

Panoramica

Ehi! Quindi, hai messo le mani su Flux AI, uno strumento super figo per generare immagini creato da Black Forest Labs, giusto? È davvero fantastico, vero? Però, per sfruttarlo al meglio, specialmente con quei fighissimi checkpoint di Flux, devi sapere come modificarlo. Dai, vediamo un po' come usare diversi checkpoint di Flux e ottenere il massimo!

Checkpoint Flux Supportati

1. Checkpoint Disponibili

  • flux1-dev-bnb-nf4-v2.safetensors: Checkpoint completo flux-dev con modello principale in NF4.
  • flux1-dev-fp8.safetensors: Checkpoint completo flux-dev con modello principale in FP8.

Cerchi Flux o GGUF grezzi? Dai un’occhiata a questo post.

2. Perché NF4?

  • Velocità: Per GPU da 6GB/8GB/12GB, NF4 può essere da 1.3x a 4x più veloce di FP8.
  • Dimensione: I pesi NF4 sono circa la metà di quelli FP8.
  • Precisione: NF4 spesso supera FP8 in precisione numerica e gamma dinamica.

Usare i Checkpoint Flux

1. Configura la tua GPU

  • Supporto CUDA: Se il tuo dispositivo supporta CUDA più recente di 11.7, vai di NF4. Bravo, ti serve solo flux1-dev-bnb-nf4.safetensors.
  • GPU più vecchie: Se hai una GPU più vecchia tipo GTX 10XX/20XX, scarica flux1-dev-fp8.safetensors.

2. Caricare nell'UI

  • Nell'UI, Forge offre un'opzione per forzare il caricamento del tipo di peso.
  • Di solito, impostalo su Auto per usare la precisione predefinita del tuo checkpoint scaricato.

Consiglio: Non caricare il checkpoint FP8 con l'opzione NF4!

Aumentare la Velocità di Inferenza

1. Impostazioni Predefinite

  • Le impostazioni predefinite di Forge sono veloci, ma puoi spingere il limite della velocità ancora di più.
  • Esempio di Sistema: 8GB VRAM, 32GB di memoria CPU e 16GB di memoria GPU condivisa.

2. Offloading e Swapping

  • Se la dimensione del modello è > memoria GPU, dividi il modello. Carica una parte sulla GPU e l'altra in una posizione di "swap", tipo CPU o memoria condivisa.
  • Memoria condivisa può essere ~15% più veloce, ma potrebbe bloccarsi su alcuni dispositivi.

3. Regolazione dei Pesi GPU

  • Pesi GPU più grandi = velocità maggiore, ma se sono troppo grandi potrebbero causare crash.
  • Pesi GPU più piccoli = velocità minore ma possibile per sfocare immagini più grandi.

Configurazioni di Esempio

Esempio con Flux-dev

Usando Flux-dev nella diffusione:
- Memoria GPU: 8GB
- Memoria CPU: 32GB
- Memoria GPU Condivisa: 16GB
- Tempo: 1.5 min

Esempi di Prompts

Astronauta in una giungla, palette di colori freddi, colori smorzati, molto dettagliato, messa a fuoco nitida.
Passaggi: 20, Campionatore: Euler, Tipo di programma: Semplice, Scala CFG: 1, Scala CFG Distillata: 3.5, Seed: 12345, Dimensione: 896x1152, Modello: flux1-dev-bnb-nf4-v2

FAQ

Quali checkpoint dovrei usare?

  • Se la tua GPU supporta versioni CUDA più recenti (>11.7), usa flux1-dev-bnb-nf4.safetensors per una migliore velocità e precisione.
  • Per GPU più vecchie, attieniti a flux1-dev-fp8.safetensors.

Come posso assicurarmi che la mia GPU stia usando l'encoder di testo T5?

  • T5 potrebbe impostarsi di default su FP8, che potrebbe non essere compatibile. Assicurati che la tua configurazione possa gestire NF4 per ottenere il massimo dall'encoder di testo T5.

Come posso scambiare parti tra CPU e GPU?

  • Vai nelle impostazioni e seleziona le posizioni di swap. La memoria condivisa tende a essere più veloce, ma prima controlla la stabilità.

Posso usare modelli come SDXL con NF4?

  • Certo! Usare NF4 nella diffusione rende i modelli come SDXL più veloci di circa il 35% in media, anche se non replica esattamente i semi.

Problemi con inpainting o img2img?

  • Assicurati di essere sull'ultima versione di Forge. Aggiornala se necessario per risolvere problemi di immagini nere o output mancanti.

Come convertire i modelli in NF4?

Ecco fatto! Con queste modifiche, dovresti essere pronto per ottenere il massimo dai tuoi checkpoint Flux AI. Buona creazione!