Skip to content

Stable Diffusion学习笔记汇总

youxiaohanpian
Published date:

Stable Diffusion (SD) 学习笔记(2024-2025)

从SD小白到实操指导者的学习记录,基于WEBUI,底层逻辑适用于COMFYUI

一、学习感悟与基础建议

  1. 学习价值 :AI是时代机遇,学习具有复利效应,建议每天抽时间学习,从基础(如WEBUI)入手,精通后再进阶COMFYUI(仅报错解决较复杂,核心逻辑一致)。
  2. 核心原则 :模型训练、插件使用、参数调试均需从基础开始,避免跳过关键步骤。

二、SD基础操作:提示词、模型与输出设置

2.1 基础提示词模板(以人物骨骼三视图为例)

2.2 通用提示词(正向/负面)

2.2.1 正向通用高画质词

masterpiece, best quality, highres, original, extremely detailed wallpaper, perfect lighting, (extremely detailed CG:1.2), drawing, paintbrush

2.2.2 负面避坑词(广泛适用二次元/写实)

lowres, badhandv4, EasyNegative, EasyNegativeV2, ng_deepnegative_v1_75t, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, NSFW, (worst quality:2), (low quality:2), (normal quality:2), ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), (((extra arms and legs)))

2.3 模型相关(类型、转换、推荐)

2.3.1 模型类型与工具

2.3.2 模型转换参数

转换选项说明
精度fp32/fp16/bf16(常用fp16,平衡速度与质量)
权重处理删除EMA权重/仅保留EMA权重/禁用
模型格式ckpt/safetensors(推荐safetensors,安全)
额外选项强制CLIP position_id转int64、修复CLIP
转换后路径自动保存至模型目录

2.3.3 常用模型推荐

风格类型推荐模型列表
二次元Anything、Counterfeit、Dreamlike Diffusion、深渊橘、DreamShaper、Meina Mix、Cetus Mix、Pastel Mix、DalcefoPainting
写实系juggernaut xl、Deliberate、Realistic、Lofi
2.5DNeverEnding Dream、Protogen、国风4
电商/3D场景sdxl_base_1.0、3d类大模型、revAnimated、M-MIX-fifth version

2.4 快速出图技巧(LCM方法)

三、ControlNet全解析(安装、功能与参数)

3.1 安装与文件路径

3.2 核心功能与场景

ControlNet模型功能用途关键参数/注意事项
OPENPOSE人物姿态控制无法识别的动作换DEPTH模型;需与人物姿态图匹配
CANNY硬边缘控制(如换背景、保留轮廓)阈值调高(如233-255)可简化线稿,去除冗余背景;引导终止时机0.3,给提示词更多空间
DEPTH深度检测(补全细节、控制层次感)适合复杂姿态、场景深度优化
TILE增加局部细节、修复分辨率丢失重绘幅度0.6可改风格;Down sampling rate=4时AI自主空间大,适合换衣服
INPAINT局部重绘、融图预处理器选 inpaint_global_harmonious (全局融合好);蒙版处理选“填充”
LINEART/SCRIBBLE线稿控制(上色、风格迁移)黑色线条上色需改预处理器为INVERT,提示词不含LINEART/monochrome/grayscale
BRIGHTNESS/ILLUMINATION亮度/照明控制亮度模型:改物体亮度,无需高斯模糊,不与其他模型同用;照明模型:控发光体,需高斯模糊,可与其他模型同用,权重0.4-0.6
INSTANT_ID人物一致性控制(仅SDXL模型可用)需双重ControlNet:1重参考五官,2重参考人脸位置;CFG与步数需调低
SEG语义分割(精准控制画面元素)需ADE20K色彩参考表格;预处理器设为“无”,颜色图作前景

3.3 ControlNet关键参数调试

3.3.1 控制权重与引导时机

3.3.2 预处理图分辨率与缩放模式

四、核心插件与功能应用

4.1 插件安装与路径

4.1.1 常用插件功能

插件名称功能用途关键参数/用法
LLuL局部细节重绘精准调整画面局部(如面部、服饰细节)
Cutoff关键词间隔优化让形容词更精准生效,避免关键词冲突
UltimateSD upscale图片高清放大自定义尺寸,重绘0.5左右,放大算法R-ESRGAN 4X+ ANIME6B;分块模式选Chess
oldsix提示词快速添加左键加正向词,右键加反向词,高效优化提示词
Segment Anything精准分割(如换衣服)模型选sam_vit_h(2.56GB);检测提示词填“clothes”,蒙版扩展量10-30
fastblend视频丝滑度提升输入原视频+AI闪烁视频(尺寸/帧率一致);模式选Fast,滑动窗口=1秒帧率(如60FPS设30)
Enhanced-img2img批量图生图适合批量处理素材,按文件夹批量生成

4.2 实用功能场景

4.2.1 线稿上色

  1. 预处理模型:LINEART,预处理器设为INVERT(黑色线条)
  2. 提示词:不含LINEART/monochrome/grayscale,添加色彩描述(如 red hair, blue eyes
  3. 控制权重:0.7-0.9,引导时机0.1-0.2

4.2.2 换背景(保留主体)

  1. 前期:用PS/REMOVE BG抠出主体,新建50%灰色图层(混合模式设为“明度”),调色相饱和度(拉满)、可选颜色(匹配明暗部)
  2. 图生图:发送至蒙版重绘,勾选ControlNet INPAINT,预处理器 inpaint_global_harmonious
  3. 进阶:开启ControlNet LINEART(上传背景图),叠加DEPTH模型提升层次感;重绘幅度1,蒙版处理选“填充”

4.2.3 二维码生成(清晰且美观)

  1. 控制图尺寸:400 400,生成图尺寸768 768+(尺寸一致易粗码)
  2. ControlNet:预处理器“无”,模型QRCODE;控制权重1.1-2(越高二维码越明显)
  3. 引导时机:0.1-0.3(开始),0.7-1.0(终止);可选ControlNet 2(BRIGHTNESS/ILLUMINATION,权重0.1-0.2)

4.2.4 老照片修复

  1. 基础修复:开启Tiled diffusion + Tiled vae + ControlNet TILE/BLUR
  2. 上色:叠加ControlNet RECOLOR模型
  3. 超分优化:先超分再上色(或反之);后期处理用GFPGAN/CodeFormer(数值0.5),避免面部崩

五、提示词进阶:语法与画风优化

5.1 核心语法(优先级:AND > 逗号 > 权重符号)

语法格式作用说明示例
(关键词:权重)提升权重(默认1.1倍,如 (white dress:1.5)(masterpiece:1.2), best quality
{关键词:权重}轻微提升权重(1.05倍){blue eyes:1.05}
[关键词:权重]降低权重(0.9倍)[blurry:0.8]
[A:B:步数]迭代替换(步数前画A,后画B)a [fantasy:cyberpunk:16] landscape
A,B,C AND D,E,F多组提示词叠加(两组结果相加)1girl, blue hair AND city background, sunset
`关键词1关键词2关键词3`

5.2 画风与画质提示词模板

5.2.1 画风关键词

5.2.2 画质关键词

5.2.3 提示词结构模板

[画质词] + [画风词] + [主体特征(人物/物体)] + [服饰/细节] + [环境/光照] + [视角/镜头]
示例:masterpiece, ultra-detailed, 8k, anime style, 1girl, blonde long hair, white dress, outdoors, sunset, close-up, wide angle

六、AI动画制作(AnimateDiff、EbSynth、Deforum)

6.1 AnimateDiff(文本/图片转动画)

6.1.1 基础设置

6.1.2 进阶技巧(Prompt Travel)

masterpiece, best quality, 1girl, upper body, outdoors
0: (spring:1.2), cherry blossoms, pink theme
16: (summer:1.2), sun flowers, green theme
32: (autumn:1.2), maple leaf, orange theme
48: (winter:1.2), snowflakes, white theme

6.2 EbSynth(视频风格迁移/补帧)

6.2.1 核心流程(7步)

  1. 提取蒙版 :项目路径无中文/空格;勾选“透明背景”,蒙版阈值0.01-0.05(分离主体与背景)
  2. 提取关键帧 :最小间隔10,最大300,阈值8.5;多镜头需补关键帧
  3. 关键帧重绘 :图生图选Ebsynth脚本,重绘幅度0.35(无ControlNet)/0.5(有ControlNet);开ADETAILER修脸
  4. 放大视频 :后期处理→批量缩放,尺寸576*1024,算法R-ESRGAN 4X+(写实)/ANIME6B(二次元)
  5. 生成EBS文件 :Stage5生成,存放项目目录
  6. Ebsynth渲染 :导入EBS文件,点Run All(需下载https://ebsynth.com/
  7. 合成视频 :Stage7生成带/不带音频的MP4

6.3 Deforum(复杂运镜与特效)

6.3.1 Parseq编辑器(参数管理)

6.3.2 运镜参数含义

参数作用说明数值规则
缩放(zoom)控制画面放大/缩小>1放大,<1缩小
旋转角度(angle)2D旋转正=逆时针,负=顺时针
3D翻转X(rotation_3d_x)上下视角调整正=抬头,负=低头
3D翻转Y(rotation_3d_y)左右视角调整正=向右看,负=向左看
平移X/Y(translation_x/y)2D平移X正=右,负=左;Y正=上,负=下

七、模型训练(Embedding、LoRA)

7.1 Embedding模型训练(小概念训练,如特定人物)

7.1.1 数据准备

  1. 图片尺寸:512*512(SD1.5训练默认),用“后期→批量处理”裁剪,勾“自动面部焦点剪裁”(人物)
  2. 自动打标:BLIP(写实)/Deepbooru(二次元);报错修复:修改 postprocessing_caption.py ,将 generate_caption 改为 interrogate

7.1.2 训练参数

7.2 LoRA训练(Kohya训练器,推荐)

7.2.1 安装与准备

7.2.2 核心参数设置

参数类别选项/建议说明
LoRA类型Standard/LoCon/LoHaStandard:通用稳定;LoCon:还原度高(适合人物);LoHa:多概念(适合画风)
训练步数20-30张→1200-1500步最终步数=重复次数×图片数×epoch
学习率1e-4(Standard),8e-5(LoCon)batch size翻倍→学习率×√2;过高易过拟合,过低易欠拟合
网络维度(Rank)二次元8-32,写实32-64越高细节越丰富,但易过拟合;Alpha=Rank/2(默认)
优化器AdamW8bit(通用)/Lion(高batch)/ProdigyAdamW8bit:稳定;Lion:高batch高效;Prodigy:无参数自动调优
混合精度fp16(推荐)平衡速度与显存,BF16需显卡支持

7.2.3 训练检验

  1. Loss值 :初期高→逐渐降低→低位震荡(收敛,正常);持续升高/固定→欠拟合/过拟合
  2. TensorBoard :查看 loss/average (收敛趋势)、 lr/textencoder (学习率下降)
  3. 样例测试 :每100-200步生成样例,用训练集反推提示词,观察拟合效果
  4. X/Y/Z图表 :WEBUI文生图脚本,对比不同模型/参数效果(如Prompt S/R替换模型后缀)

7.3 数据集清洗(Dataset Tag Editor插件)

八、工具与资源汇总

8.1 模型/插件下载链接

资源类型链接地址
ControlNet模型https://huggingface.co/ioclab/ioc-controlnet(1.5含亮度/照明模型)
AnimateDiff模型https://huggingface.co/guoyww/animatediff
Kohya训练器https://github.com/bmaltais/kohya_ss
抄作业网站欧美风格:https://openart.ai/;亚洲风格:https://arthub.ai/
PIKALABS(AI动画)https://discord.com/invite/pika

8.2 常用快捷键与注意事项

九、总结

SD学习核心在于“基础+实操”:先掌握WEBUI的提示词、模型、ControlNet基础,再进阶COMFYUI与模型训练;动画制作需结合AnimateDiff/Ebsynth/Deforum,根据场景选择工具。建议多测试参数(如Lora权重、ControlNet引导时机),利用抄作业网站积累提示词,逐步形成自己的 workflow。

Previous
【推理悬疑】人偶的复活·让死者闭眼·燃眉追击等读书笔记
Next
Nano Banana最强图像编辑