Stable Diffusion概述

定义与原理

Stable Diffusion是一种开源的潜在扩散模型(latent diffusion model),可根据任何文本提示生成高质量、超写实的图像 (CompVis/stable-diffusion: A latent text-to-image diffusion model)。
该模型利用CLIP ViT-L/14的文本嵌入(text embeddings)来对扩散过程进行条件控制,从而使生成的图像与文本提示高度相关 (CompVis/stable-diffusion: A latent text-to-image diffusion model)。

发展历程


Stable Diffusion项目介绍

官方仓库

环境与依赖


部署指南:本地环境

硬件要求

软件安装步骤

  1. 克隆仓库

    git clone https://github.com/CompVis/stable-diffusion.git
    cd stable-diffusion
  2. 创建并激活环境

    conda create -n sd python=3.10 -y
    conda activate sd
  3. 安装依赖

    pip install -r requirements.txt

    其中包含torchtorchvisiontransformers等核心包 (本地部署Stable Diffusion教程,详细教学,已安装成功 - 知乎专栏)。

  4. 下载模型权重

运行与测试

python scripts/txt2img.py --prompt "一只在月光下飞翔的猫头鹰" --plms --n_samples 1 --n_iter 1 --ddim_steps 50

执行成功后,可在outputs/目录查看生成结果 (CompVis/stable-diffusion: A latent text-to-image diffusion model)。


Stable Diffusion Web UI (AUTOMATIC1111)

项目简介

安装部署流程

  1. 克隆Web UI仓库

    git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
    cd stable-diffusion-webui
  2. 下载并放置模型
    .ckpt文件复制到models/Stable-diffusion/目录中 (Stable Diffusion web UI - GitHub)。
  3. 运行启动脚本

界面功能与实践

  • 提示词管理:支持提示词分组与正负提示。
  • 扩展插件:AnimateDiff、ControlNet、LoRA微调等多种社区扩展,可通过extensions/目录一键安装 (AnimateDiff for AUTOMATIC1111 Stable Diffusion WebUI - GitHub)。
  • 批量生成与可视化调整:结合CFG尺度、步数等参数,实时预览并导出多张高清图像。

国内外资源清单

应用资源

资源名称链接与说明
CompVis/stable-diffusion官方模型库与采样脚本 (CompVis/stable-diffusion: A latent text-to-image diffusion model)
AUTOMATIC1111 Web UI强大本地Web界面工具 (Stable Diffusion web UI - GitHub)
Hugging Face DiffusersPython SDK与示例笔记本 (Stable Diffusion with Diffusers - Hugging Face)
AnimateDiff 插件为Web UI添加GIF/视频生成功能 (AnimateDiff for AUTOMATIC1111 Stable Diffusion WebUI - GitHub)

学习资源


实操建议与最佳实践