在只有4GB VRAM的GPU上推理Z‐Image文生图

首先我们需要的模型文件如下：

ZImageTurbo 的模型文件，由于我们只有 4GB 显存，所以选择Q3_K模型。模型加上运算中的暂存数据一旦超出显存，整个推理过程都会减慢至少十倍，所以不要选择超过Q3_K的模型。 https://huggingface.co/leejet/Z-Image-Turbo-GGUF/tree/main
用来处理提示词的 LLM，使用 Q4_K_M 量化规格。https://huggingface.co/unsloth/Qwen3-4B-Instruct-2507-GGUF/tree/main
VAE 模型，原始的和 FLUX.1 的都行，他们是一样的。 https://huggingface.co/black-forest-labs/FLUX.1-schnell/tree/main

下载完模型，如果是 RTX30 系列（包括）及以下的 NVIDIA 显卡，需要自己编译推理程序。按照 repo 里的编译指南，把推理使用的 stable-diffusion.cpp 项目克隆下来，同时配置好 CUDA Toolkit 和 MSVC，等待编译。编译完成，得到 sd.exe。

根据 stable-diffusion.cpp repo 的提交记录，似乎是已经支持了 30系显卡，但是实际测试下来是连报错都没有输出就结束掉的。

（编译过程会爆出超级大量的 Warning，全部无视掉就行。）

如果是 RTX40 系以上或者其他显卡，从 Release 里面各取所需即可。

具体的命令参数可以查看官方文档，因为它们变化得挺快的，这里给出参考：

.\sd.exe --diffusion-model z_image_turbo-Q3_K.gguf --vae vae.safetensors --llm Qwen3-4B-Instruct-2507-Q4_K_M.gguf -p "一位17岁的日本女高中生，浅浅的小麦色皮肤，正面全身立绘，站立姿势，表情自信，穿系带交叉的黑色主体、白色边缘的交叉系带式紧身运动内衣与黑色的运动短裤。穿着休闲凉鞋。短裤的上方腹部两侧有两条对称的雪白的比基尼系带晒痕，琥珀色眼睛，黑发高马尾，红色发带，可爱萌萌，看起来又帅又可爱而且很好欺负。芳文社风格。纯白背景，无任何文字。" --cfg-scale 1.0 -v --offload-to-cpu --diffusion-fa -H 1024 -W 512 --steps 7 --color -o .\output_1.png

没有发生严重爆显存的话应该是 4~8 秒一次迭代，一张图大概 6~8 次迭代就可以生成完成了。爆显存的话可以关掉其他软件，或者降低图像分辨率。

绘制完之后的低分辨率图像可以用 realesrgan-gui 之类的工具来放大。

虽然模型被量化到这种程度已经不能理解太复杂的指令了，但是，好玩耶。

在只有 4GB VRAM 的 GPU 上推理 Z‐Image 文生图