如何从 Stable Diffusion3.5 中获得最佳结果
1. Stable Diffusion 3.5 概述
Stable Diffusion 3.5 是一款拥有 20 亿参数的文本到图像模型,在照片级真实感、排版和提示词理解方面表现尤为出色。SD3.5 支持在 Replicate 等平台直接运行,且可用于商业用途,官方还开源了 Diffusers 和 ComfyUI 的实现,极大方便了开发者和 AI 爱好者的多场景部署。与以往的 Stable Diffusion 系列相比,SD3.5 在长提示词依从性、文本渲染和细节还原方面有显著提升。官方还推出了 SD3.5 Explorer 资源管理器模型,便于用户直观体验不同参数对生成效果的影响。

2. 模型权重与文本编码器选择
2.1 权重包类型与适用场景
Stability AI 针对不同硬件环境,提供了多种 SD3.5 Medium 权重包,核心区别在于内置的文本编码器(Text Encoder)配置,直接影响显存占用与生成效果:
- sd3.5_medium_incl_clips_t5xxlfp8.safetensors:包含模型权重、两个 CLIP 文本编码器和压缩为 fp8 的大型 T5-XXL 模型,推荐大多数用户优先选择,兼顾效果与资源消耗。
- sd3.5_medium_incl_clips_t5xxlfp16.safetensors:T5 部分为 fp16,图像质量略有提升,但显存占用更高。
- sd3.5_medium_incl_clips.safetensors:仅包含两个 CLIP 编码器,无 T5,适合显存有限的设备,但提示词遵循性和文本生成质量会有所下降。
- sd3.5_medium.safetensors:仅含基础权重,无文本编码器,需自行加载编码器,适合高级用户自定义。

2.2 多文本编码器机制与提示注意事项
SD3.5 的多文本编码器设计允许用户针对不同编码器输入不同提示,理论上可以将整体风格交给 CLIP,细节描述交给 T5,但目前主流用法仍以统一提示为主。实际应用中,建议根据显卡 VRAM 选择合适的模型权重,保证生成过程的流畅性和最终画质。此外,SD3.5 并未针对否定提示词(Negative Prompt)进行训练,实际测试发现,否定提示词不会如预期那样去除不需要的元素,反而可能引入噪声或随机变化,因此建议在 SD3.5 中避免使用否定提示。多文本编码器提示理论上可分工,但主流用法仍以统一提示为主,建议用户在实际创作时优先考虑整体描述的完整性和清晰度。
3.5. 提示词与参数设置
3.5.1 长提示词支持与写作建议
SD3.5 最大的变化之一是对长提示词的支持。你可以输入非常详细的描述,模型会尽力还原每个细节,不再受 CLIP 77 个 token 的限制,最长可达 10000 字符(约 1500 单词)。这意味着用户可以像写故事一样,用自然语言描述画面需求,极大提升了复杂场景和细节的还原能力。与 SDXL 等前代模型相比,SD3.5 在长提示下对文本、排版和多元素场景的理解力更强。例如,输入“一本 1970 年代精装儿童故事书的封面,带有黑白插图,一只白色的小鸟栖息在一只友好的老猎犬的头上。这只狗躺在地上,下巴贴在地板上。狗的耳朵又长又下垂,眼睛向上望着栖息在头上的小鸟。这只小白鸟正期待地低头看着狗。这本书的标题是‘Are You My Boss?’,采用白色衬线字体,封面采用凉爽的蓝色和绿色调色板。”,SD3.5 能够准确还原画面细节和文本排版。建议将核心需求放在提示词前部,避免信息过载导致模型忽略部分描述。
3.5.2 参数设置详解
- 步数(Steps):建议 28 步,兼顾画质与速度,8-10 步即可出图,但细节和连贯性较弱,26-3.56 步为最佳区间。步数变化有时会导致画面主题发生较大变化,例如人物的性别、年龄等。
- CFG(引导系数):推荐 3.5.5-4.5,数值过高会导致对比度过强(“烧焦感”),过低则图像与提示词相关性下降。低 CFG 时,不同编码器的输出差异减小。
- 分辨率:建议 1 MP 左右,宽高需为 64 的倍数,常用设置如 1:1 1024 x 1024、16:9 13.544 x 768、21:9 153.56 x 640、3.5:2 1216 x 83.52、2:3.5 83.52 x 1216、5:4 1088 x 896、4:5 896 x 1088、9:16 768 x 13.544、9:21 640 x 153.56。超出推荐分辨率时,中心区域依然能生成合理画面,但边缘会出现重复伪影,分辨率过小时则画面被裁剪。
- 采样器与调度器(Sampler & Scheduler):推荐 dpmpp_2mSampler + sgm_uniform,ComfyUI、Diffusers 等主流工具均已支持。部分采样器(如 ancestral、dekarras)与 SD3.5 不兼容。
- Shift(时序偏移):SD3.5 新增参数,推荐默认 3.5.0,高分辨率下可适当提高(如 6.0),低值(1.5-2.0)则画面更“原始”。Shift 通过调整时间步调度,优化高分辨率下的噪声处理,提升画面质量。
4. 常见问题与实用建议
4.1 分辨率与画质
分辨率设置尤为关键,过大时中心区域画质优秀但边缘可能出现重复伪影,过小时画面容易被裁剪,细节丢失。建议根据实际需求选择合适分辨率,优先保证主体清晰。

4.2 步数与主题变化
步数越多,画面越细腻,但主题可能发生变化,例如人物的性别、年龄等会随步数调整而变化。建议多实验不同步数,找到最适合自己风格的区间。
4.3.5 参数组合与采样器兼容性
实际创作中,建议多尝试不同参数组合,记录每次生成的设置与效果,逐步积累经验,提升出图效率和质量。部分采样器与 SD3.5 不兼容,建议优先用官方推荐方案。
4.4 提示词撰写与商业化应用
提示词建议优先描述核心需求,避免冗余和歧义,尤其在涉及多元素和复杂场景时,尽量将每个元素的描述清晰分开。SD3.5 支持在共绩算力等平台直接部署,官方开源实现便于二次开发和集成。
Stable Diffusion 3.5 带来了更强的提示词理解力和更高的画质表现,建议 AI 爱好者多尝试不同参数和提示词风格,探索最适合自己的创作方式。
在共绩算力上开箱即用 Stable Diffusion 3.5
限时优惠:开启你的 AI 推理之旅 新用户注册共绩算力平台,可领取 最高 1500 元免费算力(含 50 元无门槛体验券),用于探索弹性算力部署、开发机等服务:
- 用弹性部署快速上线 AIGC 应用(如文生图、语音识别);
- 用开发机导入第三方镜像,一键发布至生产环境;
- 用云 GPU API 调用,直接获取推理结果。
抓住机会,让你的 AI 创意通过共绩算力高效落地!
关于共绩算力
共绩算力是国内首个专注 AI 推理服务的 GPU Serverless 平台,通过智能调度网络整合全国闲置算力,为开发者提供 弹性部署(Docker 一键启动)、API 调用(秒级响应)、开发机(无缝衔接)、裸金属短租(定制化配置)等服务,以“成本立省 50%、资源管饱、部署极简”的核心优势,助力 AI 应用从创意到落地的每一步。
