Stable Diffusion 3竟然支持中文!本地部署与官方工作流教程。

AI探索与发现
16 Jun 202409:30

TLDR本视频介绍了如何在本地部署和使用Stable Diffusion 3,特别是其对中文提示的支持。作者详细讲解了模型下载、安装ComfyUI界面程序,以及官方提供的三个工作流的使用方法。视频涵盖了硬件要求、模型配置和如何生成高分辨率图片。此外,作者还展示了如何安装插件来扩展功能,例如界面汉化和图片放大插件。通过多个实际示例,视频展示了Stable Diffusion 3生成的图片效果,并与Midjourney和DALL-E 3进行了对比。

Takeaways

  • 💡 Stable Diffusion 3 支持中文提示词生成,生成图片效果非常接近收费应用,如MidJourney V6 和 DALL-E 3。
  • 🖥️ 运行Stable Diffusion 3最低配置要求:6GB显存,16GB内存,推荐使用NVIDIA显卡,支持CUDA 12.1。
  • 📦 Stable Diffusion 3有四个版本,基础版适合二次训练,带有Clip和T5编码器的版本对硬件要求更高。
  • 📄 模型下载需通过Hugging Face申请,提交表单后通常秒通过,中国大陆用户可通过网盘下载。
  • 🧩 官方推荐使用ComfyUI作为图片生成界面程序,模型文件需放入指定目录,并通过自定义节点组成图片生成流程。
  • 🌐 ComfyUI界面支持节点式操作,用户可根据需要调整模型选择、提示词和图片尺寸等设置。
  • 📸 模型最大支持1024x1024的图片生成,想要生成高分辨率图片,可以使用图片放大插件。
  • 🚀 测试中,Stable Diffusion 3 对英文提示词表现更好,但对部分中文短语也能理解和生成正确图片。
  • 🔧 插件安装和模型下载可以通过ComfyUI管理器完成,如界面汉化插件和图片放大插件等。
  • 📊 Stable Diffusion 3在文本编码阶段依赖CPU,显存和内存占用大约为6GB和20GB,生成图片速度取决于硬件配置。

Q & A

  • Stable Diffusion 3的图片生成效果如何?

    -根据视频中的测试,Stable Diffusion 3的生成效果已接近收费的MidJourney V6和DALL-E 3,特别是在图片细节和文字生成方面,表现非常出色,生成的图片难以辨别是AI生成的。

  • Stable Diffusion 3支持中文提示词吗?

    -是的,Stable Diffusion 3可以理解中文提示词,并且能够生成符合中文描述的图片。不过,虽然部分中文短语能正确生成图片,但大多数情况下生成结果与提示不完全匹配。

  • 本地运行Stable Diffusion 3的最低硬件要求是什么?

    -运行Stable Diffusion 3的最低配置是6GB显存和16GB内存。为获得更好的性能,建议使用NVIDIA显卡并安装CUDA 12.1驱动。AMD显卡和苹果M系列芯片虽然也能运行,但效率不如NVIDIA显卡。

  • 如何下载Stable Diffusion 3的模型?

    -用户需要访问Hugging Face网站填写申请表单来下载Stable Diffusion 3的模型。除邮箱地址外,其他信息可以随意填写,通常提交后会立即通过审核。

  • Stable Diffusion 3提供了哪几种版本的模型?

    -Stable Diffusion 3提供了四个模型版本:1) 无文本编码器的基础版,用于二次训练和微调;2) 基础版加上Clip编码器,硬件要求最低,但不能运行官方的第二个工作流;3) 加入T5编码器,分为8位和16位精度版本,分别需要24GB和32GB内存。

  • 如何在本地部署Stable Diffusion 3的图形界面程序?

    -可以通过下载并安装官方推荐的ComfyUI来实现本地图形界面部署。下载好ComfyUI整合包后,解压并将模型文件放入ComfyUI的checkpoints目录,再将官方提供的工作流文件放入custom_nodes文件夹,最后启动ComfyUI。

  • ComfyUI中的节点系统是如何工作的?

    -ComfyUI的操作界面基于流程式设计,由一个个节点(或模块)组成。每个节点控制图片生成过程中的不同任务,如图片大小、使用的模型、提示词等,节点通过线条串联起来,形成工作流。

  • Stable Diffusion 3生成图片的最大分辨率是多少?

    -Stable Diffusion 3的模型最大只能生成1024*1024的图片,若需要更高分辨率的图片,可以通过放大操作实现。

  • 如何安装ComfyUI的插件?

    -安装插件可以通过ComfyUI自带的管理器插件实现。用户可以先下载并安装基础的汉化和管理器插件,放入custom_nodes目录,重启ComfyUI后,通过管理器插件检查并安装缺少的插件,如放大插件。

  • 如何解决ComfyUI工作流中的报错问题?

    -如果工作流中节点显示红色,通常是缺少插件或模型。可以通过管理器插件下载所需的插件和模型,完成后重启ComfyUI以消除报错。

Outlines

00:00

💻 Getting Started with Stable Diffusion 3: Installation and Setup

In this introduction, the speaker shares their experience testing the open-source text-to-image model, Stable Diffusion 3. They are impressed by its ability to produce images on par with paid services like MidJourney V6 and DALL-E 3, especially in handling fine details and text generation. It can even understand Chinese prompts, making it a versatile tool for generating images. The speaker walks through the system requirements, including a minimum of 6GB of VRAM, 16GB RAM, and ideally an NVIDIA GPU with CUDA 12.1. Users of AMD and Apple M-series chips can also run the software, though with less efficiency. They explain how to download the model from Hugging Face, where users can choose between four versions based on hardware and use cases, emphasizing the ease of the download process and providing options for Chinese users. The paragraph also discusses how to set up ComfyUI, the recommended interface for image generation, along with instructions for model installation and workflow setup.

05:02

🎨 Testing Stable Diffusion 3: Image Generation and Workflow Customization

This section focuses on testing the model's capabilities by generating images based on English and Chinese text prompts. While Stable Diffusion 3 handles simple Chinese prompts well, more complex phrases often result in unrelated images. The speaker emphasizes that the built-in clip encoder may not fully understand Chinese, but installing a prompt plugin can improve this. They then move on to exploring the second official workflow, which allows for multi-layered image generation by specifying details like style, background, and main subject. The speaker demonstrates how to modify the model and re-link nodes to create accurate images based on layered prompts. They conclude by showing how this workflow generates images with precise background colors and stylistic elements.

Mindmap

Keywords

💡Stable Diffusion 3

Stable Diffusion 3 是最新版本的开源文生图模型。视频中提到它的出图效果已接近收费的 MidJourney V6 和 DALL-E 3,尤其是在处理图片细节和文字生成方面表现出色。此外,它还支持中文提示语,可以直接使用少量的中文短语生成图像。

💡ComfyUI

ComfyUI 是一个用于运行 Stable Diffusion 3 的图像生成界面程序。视频详细介绍了如何下载和配置 ComfyUI 以运行不同的工作流。它的操作界面是基于节点的流程式设计,每个节点代表图片生成过程中的一个任务,如设置图片大小、选择模型等。

💡工作流

工作流指的是 Stable Diffusion 3 中的图片生成流程。在视频中,作者介绍了官方提供的三个不同的工作流,包括基础工作流、带多层提示的工作流,以及带图片放大的工作流。通过这些工作流,用户可以自定义图像生成的细节。

💡Hugging Face

Hugging Face 是一个提供开源 AI 模型的平台,Stable Diffusion 3 的模型可以在该平台上下载。视频中提到,用户需要在 Hugging Face 上提交申请表单才能下载 Stable Diffusion 3 模型。

💡Clip编码器

Clip 编码器是一种用于理解文本提示的编码模型。在 Stable Diffusion 3 中,Clip 编码器用于解析输入的提示词,并将其转换为图像生成指令。视频中提到的部分版本自带 Clip 编码器,能够理解较为简单的中文提示。

💡T5编码器

T5 编码器是一种更高级的文本编码器,它在解析和理解提示词时表现更好,尤其是复杂的描述。在视频中,作者提到 T5 编码器的版本能够更深层次地理解生成图片的提示词,但需要较大的内存配置来运行。

💡显存与内存需求

显存与内存需求是指运行 Stable Diffusion 3 模型时对硬件的要求。视频中提到,最低配置需要 6GB 的显存和 16GB 的内存,若想顺畅出图,建议使用 NVIDIA 显卡并安装 CUDA12.1 驱动。

💡二次训练与微调

二次训练和微调是指对预训练模型进行进一步优化的过程。视频中提到,Stable Diffusion 3 的基础版没有文本编码器,适合进行二次训练和微调,以调整模型生成的图像质量或风格。

💡图片放大插件

图片放大插件是一种用于提高生成图像分辨率的工具。在视频的第三个工作流中,作者提到如何通过安装插件和放大模型来放大图片,生成更高分辨率的图像。

💡插件管理器

插件管理器是 ComfyUI 中用于安装和管理插件的工具。在视频中,作者展示了如何通过插件管理器来安装界面汉化插件、放大插件等,并通过它来解决缺失插件导致的工作流错误。

Highlights

Stable Diffusion 3 的图片生成效果已经赶上 Midjourney V6 和 DALL-E 3 等收费应用。

Stable Diffusion 3 在处理图片细节和文字生成方面表现出色,生成的图片很难看出 AI 的痕迹。

Stable Diffusion 3 支持中文提示,可以直接用中文生成图片,但目前对中文短语的理解仍有限。

本地运行 Stable Diffusion 3 需要至少 6G 显存和 16G 内存,建议使用英伟达显卡和 CUDA 12.1 驱动。

Stable Diffusion 3 模型在 Hugging Face 上申请下载,提交申请表单后通常秒通过。

模型共有四个版本,基础版适合二次训练和微调,其他版本增加了不同的编码器,8 位精度的版本只需 24G 内存。

推荐使用 ComfyUI 作为 Stable Diffusion 3 的界面程序,通过节点流程设计来设置图片生成。

ComfyUI 界面基于节点模块的设计,用户可以修改节点以调整图片生成的模型和提示词。

Stable Diffusion 3 最大支持 1024x1024 分辨率的图片,想要更高分辨率可使用放大流程。

第二个官方工作流配置了多层提示,用户可以先指定图片的风格、背景色,再描述主体信息。

第三个官方工作流用于图片放大,需手动安装插件并下载放大模型。

如何在 ComfyUI 中安装插件:下载插件压缩包,解压后放入 custom_nodes 目录,然后重启程序。

汉化插件和管理器插件可以通过 ComfyUI 的插件管理器进行安装。

图片放大过程主要依靠 CPU 运行,速度较慢,生成 1920x1080 的图片可能需要 5 分钟左右。

本期视频提供了所有所需的链接,包括模型、插件下载地址,方便用户参考。