Тонкая настройка своего собственного Flux Dev LoRA с Flux AI

Обзор: Тонкая настройка Flux AI с помощью LoRA

Хочешь создать свои собственные модели изображений? Это можно сделать, используя LoRA от Flux AI. Она очень мощная для точной отрисовки текста, сложных композиций и реалистичной анатомии. Вот как ты можешь настроить её на своих изображениях. Можешь следить за процессом здесь.

Шаги для тонкой настройки твоей Flux Dev LoRA

Шаг 1: Подготовь свои обучающие изображения

Собери кучу изображений (5-6 для простых объектов, больше, если сложные).

Рекомендации:
- Изображения должны сосредоточиться на объекте.
- JPEG или PNG — нормально. Размеры и названия файлов не важны.
- Не используй чужие изображения без их разрешения.
Запакуй свои изображения в архив:
```
zip -r data.zip data
```
Загрузи свой zip-файл туда, где он будет доступен публично, например, в S3 или на GitHub Pages.

Шаг 2: Настрой свой API токен Replicate

Скопируй свой токен API с replicate.com/account и укажи его в своей среде:

export REPLICATE_API_TOKEN=your_token

Шаг 3: Создай модель на Replicate

Посети replicate.com/create, чтобы настроить свою модель. Можешь сделать её публичной или приватной.

Шаг 4: Начни обучение

Используй Python, чтобы запустить процесс обучения. Установи пакет Replicate для Python:

pip install replicate

Затем создай свою обучающую задачу:

import replicate

training = replicate.trainings.create(
    version="ostris/flux-dev-lora-trainer",
    input={
        "input_images": "https://your-upload-url/data.zip",
    },
    destination="your-username/your-model"
)
print(training)

Опции для тонкой настройки

Лица: Добавь эту строку, чтобы сосредоточиться на лицах:
```
"use_face_detection_instead": True,
```
Стиль: Настрой скорости обучения для стилей:
```
"lora_lr": 2e-4,
"caption_prefix": 'В стиле XYZ,',
```

Отслеживай процесс своего обучения

Проверь прогресс обучения на replicate.com/trainings или программно:

training.reload()
print(training.status)

Запуск своей обученной модели

После тренировки ты можешь запустить модель через сайт Replicate или API:

output = replicate.run(
    "your-username/your-model:version",
    input={"prompt": "фото XYZ, едущего на радужном единороге"},
)

Как работает тонкая настройка

Твои изображения проходят предварительную обработку:

SwinIR: Увеличивает изображения.
BLIP: Создаёт текстовые подписи.
CLIPSeg: Удаляет неважные области.

Можешь почитать больше в README модели SDXL.

Расширенное Использование: Интеграция с Diffusers

Загрузите обученные веса в Diffusers:

from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained('stabilityai/stable-diffusion-xl-base-1.0')
pipe.unet.load_state_dict(torch.load("path-to-unet-weights.pth"))
# Теперь можешь генерировать изображения
pipe(prompt="Фотография <s0>").images[0].save("output.png")

Часто Задаваемые Вопросы

Можно ли использовать LoRA для нескольких понятий?

Да, LoRA справляется с несколькими понятиями, так что это довольно универсально.

Лучше ли LoRA с стилями или лицами?

LoRA отлично работает со стилями, но может испытывать трудности с лицами.

Сколько изображений мне нужно?

Рекомендуется минимум 10 изображений.

Где я могу загрузить свою обученную LoRA?

Ты можешь загрузить это в репозиторий Hugging Face.