- pub
PuLID-FLUX: Flux AIのためのIDカスタマイズソリューション
PuLID-FLUXの紹介
PuLID-FLUXは、FLUX.1-devモデル用の新しいチューニング不要のIDカスタマイズソリューションです。元のモデルの動作を維持しつつ、高忠実度なIDカスタマイズを実現します。
PuLID-FLUXって何?
PuLID-FLUX-v0.9.0は、FLUX.1-devモデルのために、チューニングなしでIDカスタマイズができるモデルなんです。すごく柔軟で、元のモデルのパフォーマンスを保ちながら、画像にユニークなIDを追加できます。
セットアップと統合
PuLID-FLUXのインストール
- リポジトリをクローン: PuLID GitHubに行ってリポジトリをクローンします。
- 環境を設定: 必要な環境を整えてください(Pythonのバージョンや依存関係など)。
git clone https://github.com/ToTheBeginning/PuLID.git cd PuLID pip install -r requirements.txt
- 必要なモデルをダウンロード:
flux1-dev.safetensors
とae.safetensors
を、black-forest-labs/FLUX.1-devからダウンロード。- PuLID-FLUXモデルは自動でHugging Faceからダウンロードされます。
- アプリケーションを実行:
python app_flux.py
様々なメモリ設定の使い方
Naive bf16
bf16
で直接実行:python app_flux.py
- ピークメモリは45GB未満です。
bf16 + Offload
- メモリを節約するためのオフロードを使う:
python app_flux.py --offload
- ピークメモリは30GB未満です。
fp8 + Offload(消費者向けGPU用)
- 追加の要件をインストールしておく:
pip install -r requirements-fp8.txt
flux-dev-fp8
チェックポイントを使います:python app_flux.py --offload --fp8 --onnx_provider cpu - ピークメモリは15GB未満(16GBメモリのGPU用)。 - 24GBのグラフィックメモリ使用の場合: python app_flux.py --offload --fp8 - ピークメモリは17GB未満。
- 注意: fp8はbf16に比べて顔のディテールに品質低下があります。
bf16 + アグレッシブオフロード
- もっとアグレッシブなオフロードを使用:
python app_flux.py --aggressive_offload
- ピークメモリは約23GBですが、処理は非常に遅くなります。
オンラインデモ
- Hugging Faceで試してみてください: PuLID-FLUX デモ
ComfyUI
- ComfyUIサポートのコミュニティ実装に注目してください。
ビジュアル結果
便利なヒント
パラメータ調整
1. ID挿入を開始するタイムステップ
- ID挿入のタイミングを制御します。IDの忠実性と編集可能性のトレードオフを設定します。
- 使い方:
- リアルな画像: タイムステップ4から開始。
- IDの類似性を高めたいとき: 値を下げる。
- スタイライズされた画像: 0-1に設定。
2. 真のCFGスケール
- FLUX.1-devは、モジュール化されたガイダンススケールを使ってガイダンス蒸留を行い、CFGをシミュレートします。
- 写実的およびスタイライズされたシーンのために、
true CFG
とfake CFG
を比較します。
技術詳細
- IDエンコーダーをMLPからTransformerに切り替えました。
- Flamingoに触発されて、ID特徴とDIT画像特徴の相互作用を処理するために、DITブロックの間に追加のクロスアテンションブロックを挿入しています。
- SDXL-Lightningに似たオプショナルな加速方法もあるけど、PuLIDの訓練には必須ではありません。
ライセンス
FLUX.1-devモデルを使用する限り、FLUX.1-devモデルライセンスに従ってください。
お問い合わせ
質問や提案があれば、Yanze Wuに連絡するか、GitHubページで問題を開く/ディスカッションを始めてください。
追加のFAQ
Q: PuLID-FLUXを試すにはどうすればいいですか? A: まずは、PuLID-FLUX GitHubを訪れて、セットアップ手順に従ってください。
Q: PuLID-FLUXは商業利用をサポートしていますか? A: PuLID-FLUX GitHubのライセンスによれば、商業利用は許可されていますが、Insightfaceのような統合モデルには商業制限があります。
Q: PuLID-FLUXに推奨されるVRAMはどれくらいですか? A: 最初は45GBが必要でしたが、最適化されて16GBで実行可能になりました。
Q: ComfyUIノードが必要な場合はどうすればいいですか? A: 互換性のあるノードはまだ利用できませんが、Cubiqのような開発者がすぐにリリースする予定です。
Q: 出力画像のぼやけをどうにかできますか? A: アップスケーリング技術を使うと、ぼやけを効果的に改善できますよ。
Q: 他のモデルと比べてPuLID-FLUXの主な利点は何ですか? A: PuLID-FLUXは、チューニング不要で高忠実度なIDカスタマイズができるオプションで、正確な画像カスタマイズのための強力なツールです。
Q: PuLID-FLUXは非人間の画像にも使えますか? A: 主に人間のIDカスタマイズ用ですが、非人間の画像で実験すると面白い結果が得られることも。ぜひデモページを試してみてください。
最新のアップデートや最適化に注目しながら、PuLID-FLUXを上手く活用すれば、真剣に画像生成を楽しむ人たちにとって、非常にやりがいのある体験ができると思いますよ。