首先我们需要的模型文件如下:
- ZImageTurbo 的 模型文件,由于我们只有 4GB 显存,所以选择Q3_K模型。模型加上运算中的暂存数据一旦超出显存,整个推理过程都会减慢至少十倍,所以不要选择超过Q3_K的模型。 https://huggingface.co/leejet/Z-Image-Turbo-GGUF/tree/main
- 用来处理提示词的 LLM,使用 Q4_K_M 量化规格。https://huggingface.co/unsloth/Qwen3-4B-Instruct-2507-GGUF/tree/main
- VAE 模型,原始的和 FLUX.1 的都行,他们是一样的。 https://huggingface.co/black-forest-labs/FLUX.1-schnell/tree/main
下载完模型,如果是 RTX30 系列(包括)及以下的 NVIDIA 显卡,需要自己编译推理程序。按照 repo 里的编译指南,把推理使用的 stable-diffusion.cpp 项目克隆下来,同时配置好 CUDA Toolkit 和 MSVC,等待编译。编译完成,得到 sd.exe。
根据 stable-diffusion.cpp repo 的提交记录,似乎是已经支持了 30系显卡,但是实际测试下来是连报错都没有输出就结束掉的。
(编译过程会爆出超级大量的 Warning,全部无视掉就行。)
如果是 RTX40 系以上或者其他显卡,从 Release 里面各取所需即可。
具体的命令参数可以查看官方文档,因为它们变化得挺快的,这里给出参考:
.\sd.exe --diffusion-model z_image_turbo-Q3_K.gguf --vae vae.safetensors --llm Qwen3-4B-Instruct-2507-Q4_K_M.gguf -p "一位17岁的日本女高中生,浅浅的小麦色皮肤,正面全身立绘,站立姿势,表情自信,穿系带交叉的黑色主体、白色边缘的交叉系带式紧身运动内衣与黑色的运动短裤。穿着休闲凉鞋。短裤的上方腹部两侧有两条对称的雪白的比基尼系带晒痕,琥珀色眼睛,黑发高马尾,红色发带,可爱萌萌,看起来又帅又可爱而且很好欺负。芳文社风格。纯白背景,无任何文字。" --cfg-scale 1.0 -v --offload-to-cpu --diffusion-fa -H 1024 -W 512 --steps 7 --color -o .\output_1.png
没有发生严重爆显存的话应该是 4~8 秒一次迭代,一张图大概 6~8 次迭代就可以生成完成了。爆显存的话可以关掉其他软件,或者降低图像分辨率。
绘制完之后的低分辨率图像可以用 realesrgan-gui 之类的工具来放大。
虽然模型被量化到这种程度已经不能理解太复杂的指令了,但是,好玩耶。