MENU

• 2025 年 09 月 22 日 • 已有 72 只咪围观过 • -学海拾贝-

*目前只有一些Flux默认流程是支持的,很多自定义checkpoint等不兼容,所以测试下来高度指定风格不是很好用

模型下载与配置说明

模型下载地址

40 系显卡下载

  • 模型文件svdq-int4-flux.1-dev
  • 放到...\ComfyUI-aki-v2\ComfyUI\models\diffusion\_models

依赖(车轮)

  • Nunchaku 库下载
    根据自己的 PyTorch 版本 下载,并放到路径:...\ComfyUI-aki-v2\python

Nunchaku FLUX DiT Loader参数说明表:

参数名功能说明典型/推荐值备注
cache\_threshold控制首块缓存容差,类似于 WaveSpeedresidual_diff_threshold。提高速度但可能降低质量。0.12(典型值),0(禁用)增大数值 → 提速,可能损失质量
attention定义注意力实现方法。nunchaku-fp16flash-attention2 快约 1.2 倍;Turing(20 系)必须用 nunchaku-fp16
cpu_offload启用 Transformer 模型的 CPU 卸载功能。减少显存占用,可能降低速度。auto>14GiB 显存 → 禁用;≤14GiB → 启用
device_id指定运行模型的 GPU ID。根据实际 GPU 设定
data_type定义反量化张量的数据类型。bfloat16(推荐)Turing(20 系)不支持 bfloat16,只能用 float16
i2f_modeTuring(20 系) GPU 的 GEMM 实现模式。enabled / always仅 20 系有效,其他架构会忽略

测试:

ComfyUI Nunchaku 与传统 Flux 在相同 K 采样器下的性能对比

在相同的 K 采样器 条件下,分别测试了 Nunchaku(depth)传统 Flux(depth) 的运行日志。以下是关键日志输出与性能对比。


测试环境信息

  • GPU: NVIDIA GeForce RTX 4060 Ti
  • 显存: 16GB (16379.375 MiB)
  • 框架: PyTorch 2.8
  • 任务: depth 模型推理

Nunchaku(depth)日志

got prompt GPU 0 (NVIDIA GeForce RTX 4060 Ti) Memory: 16379.375 MiB VRAM > 14GiB, disabling CPU offload
[2025-09-22 16:00:13.722] [info] Initializing QuantizedFluxModel on device 0
[2025-09-22 16:00:13.812] [info] Loading partial weights from pytorch
[2025-09-22 16:00:26.519] [info] Done. Injecting quantized module
[2025-09-22 16:00:27.013] [info] Set attention implementation to nunchaku-fp16
model_type FLUX
Requested to load Flux loaded completely 7184.319969940186 122.3087158203125 True
Expand the shape of module x_embedder from (3072, 64) to (3072, 128)
Update in_channels from 64 to 128
[2025-09-22 16:00:34.136] [info] Loading partial weights from pytorch
[2025-09-22 16:00:34.807] [info] Done.
Requested to load AutoencodingEngine loaded completely 4967.662322998047 159.87335777282715 True

Prompt executed in 30.28 seconds

特点

  • 使用 量化 Flux 模型(QuantizedFluxModel)。
  • 自动扩展 x_embedder 输入通道。
  • 全流程加载完成,执行时间 30.28s

传统 Flux(depth)日志

got prompt Loading model from: E:\AI\ComfyUI-aki-v2\ComfyUI\models\depthanything\depth_anything_v2_vits_fp16.safetensors
using MLP layer as FFN
loaded partially 5825.399761962891 5824.9755859375 0
Requested to load AutoencodingEngine loaded completely 191.70083618164062 159.87335777282715 True
Requested to load Flux loaded completely 547.2099178314209 122.6837158203125 True
E:\AI\ComfyUI-aki-v2\python\Lib\site-packages\nunchaku\utils.py:47: UserWarning: Using a non-tuple sequence for multidimensional indexing is deprecated
...
Prompt executed in 12.66 seconds

got prompt model weight dtype torch.float16, manual cast: None
model_type FLUX
Requested to load Flux loaded partially 5825.475918579102 5824.2032470703125 522
Requested to load AutoencodingEngine loaded completely 266.9465637207031 159.87335777282715 True

Prompt executed in 445.57 seconds

特点

  • 直接从 safetensors 加载,未进行量化优化。
  • 存在 PyTorch 2.9 API 兼容性警告
  • 执行时间差异较大:

    • 12.66s(部分场景)
    • 445.57s(完整流程)

性能对比

模型类型加载模式执行时间(Prompt)
Nunchaku(depth)量化 + 模块扩展优化30.28s
传统 Flux(depth)Safetensors (未量化)12.66s / 445.57s

结论

通过对比可见:

  • Nunchaku 在加载与运行过程中,依赖量化与模块调整,保证了模型在 显存占用与兼容性 上更具优势,整体运行稳定,性能表现均衡。
  • 传统 Flux 在小规模推理时看似更快(12.66s),但在完整流程下耗时极长(445.57s),说明其在 复杂场景与长链路推理 下存在明显瓶颈。

👉 结论:在 深度推理任务(depth) 场景中,Nunchaku 方案更适合实际部署,兼顾速度与稳定性。

Snipaste_2025-09-22_16-15-09.png
Snipaste_2025-09-22_16-17-18.png

遇到的鬼畜问题:

一开始使用默认的nanchaku深度工作流会出现报错,

加载到Nunchaku FLUX DiT Loader就...

!!! Exception during processing !!!
CUDA error: out of memory
(at C:\Users\muyangl\actions-runner\_work\nunchaku\nunchaku\src\Tensor.h:95)

然后运行了一次另一个默认工作流:nunchaku-flux.1-dev

就莫名其妙好了..

原因未知

参考安装流程:

20250922-170428.jpg

返回文章列表 打赏
本页链接的二维码
打赏二维码