- pub
Тонкая настройка своего собственного Flux Dev LoRA с Flux AI
Обзор: Тонкая настройка Flux AI с помощью LoRA
Хочешь создать свои собственные модели изображений? Это можно сделать, используя LoRA от Flux AI. Она очень мощная для точной отрисовки текста, сложных композиций и реалистичной анатомии. Вот как ты можешь настроить её на своих изображениях. Можешь следить за процессом здесь.
Шаги для тонкой настройки твоей Flux Dev LoRA
Шаг 1: Подготовь свои обучающие изображения
Собери кучу изображений (5-6 для простых объектов, больше, если сложные).
- Рекомендации:
- Изображения должны сосредоточиться на объекте.
- JPEG или PNG — нормально. Размеры и названия файлов не важны.
- Не используй чужие изображения без их разрешения.
- Запакуй свои изображения в архив:
zip -r data.zip data
- Загрузи свой zip-файл туда, где он будет доступен публично, например, в S3 или на GitHub Pages.
Шаг 2: Настрой свой API токен Replicate
Скопируй свой токен API с replicate.com/account и укажи его в своей среде:
export REPLICATE_API_TOKEN=your_token
Шаг 3: Создай модель на Replicate
Посети replicate.com/create, чтобы настроить свою модель. Можешь сделать её публичной или приватной.
Шаг 4: Начни обучение
Используй Python, чтобы запустить процесс обучения. Установи пакет Replicate для Python:
pip install replicate
Затем создай свою обучающую задачу:
import replicate
training = replicate.trainings.create(
version="ostris/flux-dev-lora-trainer",
input={
"input_images": "https://your-upload-url/data.zip",
},
destination="your-username/your-model"
)
print(training)
Опции для тонкой настройки
- Лица: Добавь эту строку, чтобы сосредоточиться на лицах:
"use_face_detection_instead": True,
- Стиль: Настрой скорости обучения для стилей:
"lora_lr": 2e-4, "caption_prefix": 'В стиле XYZ,',
Отслеживай процесс своего обучения
Проверь прогресс обучения на replicate.com/trainings или программно:
training.reload()
print(training.status)
Запуск своей обученной модели
После тренировки ты можешь запустить модель через сайт Replicate или API:
output = replicate.run(
"your-username/your-model:version",
input={"prompt": "фото XYZ, едущего на радужном единороге"},
)
Как работает тонкая настройка
Твои изображения проходят предварительную обработку:
- SwinIR: Увеличивает изображения.
- BLIP: Создаёт текстовые подписи.
- CLIPSeg: Удаляет неважные области.
Можешь почитать больше в README модели SDXL.
Расширенное Использование: Интеграция с Diffusers
Загрузите обученные веса в Diffusers:
from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained('stabilityai/stable-diffusion-xl-base-1.0')
pipe.unet.load_state_dict(torch.load("path-to-unet-weights.pth"))
# Теперь можешь генерировать изображения
pipe(prompt="Фотография <s0>").images[0].save("output.png")
Часто Задаваемые Вопросы
Можно ли использовать LoRA для нескольких понятий?
Да, LoRA справляется с несколькими понятиями, так что это довольно универсально.
Лучше ли LoRA с стилями или лицами?
LoRA отлично работает со стилями, но может испытывать трудности с лицами.
Сколько изображений мне нужно?
Рекомендуется минимум 10 изображений.
Где я могу загрузить свою обученную LoRA?
Ты можешь загрузить это в репозиторий Hugging Face.