Blog Playground

pub: 2024年9月30日

Instagram 版 Flux AI：业余摄影 Lora 评测

引言：文字和手部的问题

大家发现用 Flux AI 生成图像时，文字和手的表现有不少问题。这些问题经常会破坏原本很棒的照片效果。

解决方案：新的训练方法

为了解决这些问题，最新版本的工具做了一些改进。具体来说，就是把文字和手的变体添加进训练数据，使用更高级的提示词结合 Flux AI 也取得了不错的效果。

资源链接

步骤和有效性

步骤 1：用新数据进行训练

图像和学习率： 用 210 张图像训练，学习率设得很低，只有 0.00001，用的是 AdamW8Bit 优化器。
训练时长： 训练持续了 9000 步，确保模型有足够的时间学习细节。
提示词中的色板： 在提示词中加入颜色搭配，来打破 AI 图像的常规风格。

步骤 2：分辨率调整

推荐分辨率： 确保生成图像时使用 896x1152。这种分辨率通常效果不错，并且文件大小也比较合适。
高分辨率修复： 如果之前的高分辨率要求遇到麻烦，新模型减少了使用超高分辨率的必要。可以用 'hires fix' 设置来获得更好的效果。

步骤 3：提示词优化技巧

动态提示词： 使用同义词集合，避免生成内容时的重复。
用 GPT-4 进行高级提示： 利用 GPT-4 这种工具，帮助优化和扩展现有的提示词。可以尝试生成多个角色的互动或复杂的构图。

优化方法

为了优化输出效果：

动态提示词： 使用包含多个同义词集合的提示词，探索出不同的结果，提升多样性。
步数实验： 尝试不同的步数，比如 20、30 或 40 步，查找最佳图像质量的最佳步数。
避免放大： 放大会平滑细节，最好直接生成高分辨率图像。

理论知识：

学习率影响： 低学习率（如 0.00001）能让调整非常渐进，捕捉细节更准确。
优化器选择： AdamW8Bit 优化器能有效处理稀疏梯度和学习复杂模式。
图像分辨率： 直接生成原生高分辨率的图像质量通常比放大要好，后者可能会引入伪影和模糊。

适用场景

这个模型特别适合：

写实摄影： 制作栩栩如生的照片，细节准确。
Instagram 风格图像： 很适合社交媒体，需要吸引眼球的视觉效果。
复杂构图： 需要多个元素或者角色之间复杂互动的场景。

限制和缺点

手和文字： 这些元素依然不完美，可能会变形。
皮肤质感： 如果处理不好，有些图像可能会显得过于光滑或蜡感。
高分辨率的缺点： 虽然高分辨率可以减少背景模糊，但也可能引入新的问题，比如平滑细节。

常见问题

1. 生成图像的最佳分辨率是多少？

推荐 896x1152，不过可以试试更高的分辨率，以获取更详细的效果。

2. 如何解决光滑皮肤的问题？

换用像 DDIM_uniform 这样的采样器，并且步数设得高一点（28+）会更真实。

3. 这个工具可以用于商业用途吗？

可以，但你需要查看 Flux AI 和 Civitai 网站上的许可条款。

4. 为什么有些图像仍然有背景模糊问题？

背景模糊可以通过仔细训练和调整提示词来减小，尽量避免放大处理。

5. 如何准确生成包含文字的图像？

在训练数据中加入多样化和具体的文字实例，可以提高准确度。

6. 有没有特别的设置可以避免“塑料”效果？

使用调教得当的提示词、适合的采样器，并避免过度平滑的技术，能让效果更自然。

额外问题

如何将这个模型与其他工具结合？

你可以把这个模型和其他 Flux AI 工具或像 Hedra 这样的面部动画工具结合，达到不同的效果。

自己训练模型有哪些最佳实践？

使用多样化的数据集、加入手和文字的多样变体，实验不同的提示词和分辨率。

你如何处理生成失败的情况？

识别失败模式，调整提示词或训练数据，多次测试提升结果。

有可以提供支持的社区资源或论坛吗？

有啊，像 Reddit 或 Discord 上有相关的 Flux AI 社群，可以提供帮助和分享经验。

这个版本和其他版本比起来怎么样？

这个版本重点解决了高分辨率生成的问题，优化了色板的使用，增加了更多样化的训练数据，使整体质量更好。

这可以用于 3D 渲染或动画吗？

虽然主要专注于写实效果，但这些技术可以扩展到 3D 渲染，只需额外训练和工具整合。

SHARE