*目前只有一些Flux默认流程是支持的，很多自定义checkpoint等不兼容，所以测试下来高度指定风格不是很好用

模型下载与配置说明

模型下载地址

MIT-Han-Lab (HuggingFace)

40 系显卡下载

模型文件：svdq-int4-flux.1-dev
放到...\ComfyUI-aki-v2\ComfyUI\models\diffusion\_models

依赖（车轮）

Nunchaku 库下载
根据自己的 PyTorch 版本 下载，并放到路径：...\ComfyUI-aki-v2\python

Nunchaku FLUX DiT Loader参数说明表：

参数名	功能说明	典型/推荐值	备注
cache\_threshold	控制首块缓存容差，类似于 `WaveSpeed` 的 `residual_diff_threshold`。提高速度但可能降低质量。	0.12（典型值），0（禁用）	增大数值 → 提速，可能损失质量
attention	定义注意力实现方法。	`nunchaku-fp16`	比 `flash-attention2` 快约 1.2 倍；Turing(20 系)必须用 `nunchaku-fp16`
cpu_offload	启用 Transformer 模型的 CPU 卸载功能。减少显存占用，可能降低速度。	`auto`	>14GiB 显存 → 禁用；≤14GiB → 启用
device_id	指定运行模型的 GPU ID。	根据实际 GPU 设定	—
data_type	定义反量化张量的数据类型。	`bfloat16`（推荐）	Turing(20 系)不支持 `bfloat16`，只能用 `float16`
i2f_mode	Turing(20 系) GPU 的 GEMM 实现模式。	`enabled` / `always`	仅 20 系有效，其他架构会忽略

测试：

ComfyUI Nunchaku 与传统 Flux 在相同 K 采样器下的性能对比

在相同的 K 采样器 条件下，分别测试了 Nunchaku（depth） 与 传统 Flux（depth） 的运行日志。以下是关键日志输出与性能对比。

测试环境信息

GPU: NVIDIA GeForce RTX 4060 Ti
显存: 16GB (16379.375 MiB)
框架: PyTorch 2.8
任务: depth 模型推理

Nunchaku（depth）日志

got prompt GPU 0 (NVIDIA GeForce RTX 4060 Ti) Memory: 16379.375 MiB VRAM > 14GiB, disabling CPU offload
[2025-09-22 16:00:13.722] [info] Initializing QuantizedFluxModel on device 0
[2025-09-22 16:00:13.812] [info] Loading partial weights from pytorch
[2025-09-22 16:00:26.519] [info] Done. Injecting quantized module
[2025-09-22 16:00:27.013] [info] Set attention implementation to nunchaku-fp16
model_type FLUX
Requested to load Flux loaded completely 7184.319969940186 122.3087158203125 True
Expand the shape of module x_embedder from (3072, 64) to (3072, 128)
Update in_channels from 64 to 128
[2025-09-22 16:00:34.136] [info] Loading partial weights from pytorch
[2025-09-22 16:00:34.807] [info] Done.
Requested to load AutoencodingEngine loaded completely 4967.662322998047 159.87335777282715 True

Prompt executed in 30.28 seconds

✅ 特点

使用 量化 Flux 模型（QuantizedFluxModel）。
自动扩展 x_embedder 输入通道。
全流程加载完成，执行时间 30.28s。

传统 Flux（depth）日志

got prompt Loading model from: E:\AI\ComfyUI-aki-v2\ComfyUI\models\depthanything\depth_anything_v2_vits_fp16.safetensors
using MLP layer as FFN
loaded partially 5825.399761962891 5824.9755859375 0
Requested to load AutoencodingEngine loaded completely 191.70083618164062 159.87335777282715 True
Requested to load Flux loaded completely 547.2099178314209 122.6837158203125 True
E:\AI\ComfyUI-aki-v2\python\Lib\site-packages\nunchaku\utils.py:47: UserWarning: Using a non-tuple sequence for multidimensional indexing is deprecated
...
Prompt executed in 12.66 seconds

got prompt model weight dtype torch.float16, manual cast: None
model_type FLUX
Requested to load Flux loaded partially 5825.475918579102 5824.2032470703125 522
Requested to load AutoencodingEngine loaded completely 266.9465637207031 159.87335777282715 True

Prompt executed in 445.57 seconds

特点

直接从 safetensors 加载，未进行量化优化。
存在 PyTorch 2.9 API 兼容性警告。
执行时间差异较大：
- 12.66s（部分场景）
- 445.57s（完整流程）

性能对比

模型类型	加载模式	执行时间（Prompt）
Nunchaku（depth）	量化 + 模块扩展优化	30.28s
传统 Flux（depth）	Safetensors (未量化)	12.66s / 445.57s

结论

通过对比可见：

Nunchaku 在加载与运行过程中，依赖量化与模块调整，保证了模型在 显存占用与兼容性 上更具优势，整体运行稳定，性能表现均衡。
传统 Flux 在小规模推理时看似更快（12.66s），但在完整流程下耗时极长（445.57s），说明其在 复杂场景与长链路推理 下存在明显瓶颈。

👉 结论：在 深度推理任务（depth） 场景中，Nunchaku 方案更适合实际部署，兼顾速度与稳定性。

遇到的鬼畜问题：

一开始使用默认的nanchaku深度工作流会出现报错，

加载到Nunchaku FLUX DiT Loader就...

!!! Exception during processing !!!
CUDA error: out of memory
(at C:\Users\muyangl\actions-runner\_work\nunchaku\nunchaku\src\Tensor.h:95)

然后运行了一次另一个默认工作流：nunchaku-flux.1-dev

就莫名其妙好了..

原因未知

文章目录

-FxYaM- • 2025 年 09 月 22 日 • 已有 72 只咪围观过 • -学海拾贝-