ComfyUI dla efektów wizualnych: wprowadzenie, instalacja i przepływ pracy

  • Koncepcja przepływu pracy w ComfyUI: jak zapisywać, importować i eksportować bez utraty metadanych.
  • FLUX: wersje Pro, Dev i Schnell, wymagania i sposób instalacji w ComfyUI.
  • Poradniki dotyczące Txt2Img, Img2Img, LoRA, ControlNet, Inpainting, NF4, IPAdapter i Upscale.

Wygodny interfejs użytkownika

Jeśli pracujesz w branży efektów wizualnych i chcesz przenieść swoje procesy tworzenia obrazów na wyższy poziom, ComfyUI jest narzędziem niezbędnym. Jego podejście oparte na węzłach, modułowość i moc, jaką dodaje FLUX Dzięki temu jest to idealne środowisko do eksploracji wszystkiego, od wiernego przetwarzania tekstu na obrazie (text2img) po złożone potoki z wykorzystaniem protokołów ControlNet, IP-Adapter lub LoRA. ComfyUI dla efektów wizualnych: objaśnienie instalacji i przepływów pracy FLUX.

W tym przewodniku znajdziesz w uporządkowany sposób wszystko, czego potrzebujesz: czym jest przepływ pracy w ComfyUI, jak go zapisać i udostępnić, jak krok po kroku zainstalować FLUX, jaki sprzęt jest potrzebny, a także przejrzyste wyjaśnienie najczęściej używanych przepływów (Txt2Img, Img2Img, Inpainting, LoRA, ControlNet, NF4, IPAdapter i skalowanie ukryte). Zobaczysz również alternatywy takie jak FP8, NF4 lub GGUF, które pozwalają zmniejszyć ilość pamięci VRAMZasoby dotyczące korzystania z Flux w chmurze oraz instalacja ComfyUI zoptymalizowana pod kątem systemu Windows wraz z praktycznymi wskazówkami.

Czym jest przepływ pracy w ComfyUI?

Przepływ pracy to wizualna reprezentacja procesu generowania, który tworzy się poprzez łączenie węzłów. Można to sobie wyobrazić jako planszę z klockami typu LegoKażdy węzeł wykonuje określoną funkcję (ładowanie modeli, kodowanie tekstu, próbkowanie, dekodowanie itd.), a połączenia opisują ścieżkę, którą pokonują informacje aż do uzyskania obrazu końcowego.

Ekosystem jest ogromny: nieruchomy obraz, wideo, dźwięk, a nawet obraz 3D Współistnieją dzięki społeczności open source. Wadą jest to, że wymagają nauki, ponieważ ważne jest zrozumienie, co każdy komponent robi i jak je efektywnie łączyć, aby uniknąć wąskich gardeł lub niespójnych rezultatów.

Aby szybko zacząć, najlepiej przyjrzeć się oficjalnym i podstawowym przepływom (text2img i img2img), a następnie przejść do bardziej złożonych węzłów. Dokumentacja społeczności i oficjalne przykłady ComfyUI Są one często aktualizowane, dzięki czemu można łatwo wznowić lub przejrzeć przepływy pracy zmienione w nowych wersjach.

Ważny szczegół: ComfyUI może osadzić przepływ pracy w ostatecznym obrazie (PNG) jako metadane. Dzięki temu możesz udostępnić tylko obraz i pobrać cały wykres. przeciągając go z powrotem do interfejsu.

Jak uczyć się i rozwijać przepływy pracy

Moja rada jest taka, aby zacząć od prostych przykładów opublikowanych w zasobach typu wiki i galeriach społecznościowych. Logiczna kolejność jest następująca: Txt2Img, Img2Img, a następnie ControlNet lub LoRAW miarę jak będziesz rozumieć dane wejściowe, wyjściowe i to, jak planiści wpływają na próbkowanie, naturalnym stanie się uwzględnianie węzłów pomocniczych, masek i dodatkowych warunków.

Jeśli chcesz zobaczyć różne topologie, dostępne są repozytoria publicznych przepływów i stron z możliwymi do odtworzenia przykładami, gdzie możesz pobrać obrazy z metadanymi lub pliki .json. Dobrą praktyką jest importowanie, uruchamianie w obecnej formie, a następnie iterowanie po parametrach aby zrozumieć wpływ każdego bloku bez rozbijania całości.

Na platformach chmurowych znajdziesz także wstępnie skonfigurowane środowiska umożliwiające uruchamianie potoków bez zmagania się z lokalnymi zależnościami. Zaletą jest to, że wstępnie ładują ciężkie węzły i modeleNiemniej jednak zaleca się sprawdzenie dostępnych wersji i pamięci VRAM, aby mieć pewność, że wyniki spełniają oczekiwania.

Zapisywanie, importowanie i eksportowanie przepływów pracy w ComfyUI

ComfyUI obsługuje dwie główne metody zapisywania: obraz z metadanymi (PNG) lub plik JSON wykresu. Pierwszy jest najwygodniejszy do udostępniania na forach; drugi daje wyraźną kontrolę nad plikiem, co jest przydatne przy kontroli wersji.

Aby zaimportować plik PNG lub Json, wystarczy przeciągnąć go do interfejsu lub skorzystać ze skrótu Ctrl (Command) + O. Aby wyeksportować, możesz zapisać wygenerowany obraz lub skorzystać z menu Eksportuj dla pliku JSON.Należy zachować ostrożność podczas kompresji lub przesyłania obrazów: niektóre metody kompresji i określone kanały usuwają metadane, co może spowodować utratę osadzonego przepływu pracy.

Przepływ pracy w ComfyUI

Ze względu na ciągłą ewolucję ComfyUI, Nie wszystkie starsze pliki JSON działają w nowszych wersjach.Jeśli coś pójdzie nie tak, otwórz przepływ, zastąp przestarzałe węzły lub zainstaluj zależności ponownie, używając ich zgodnych wersji; dzięki ComfyUI-Manager wykrywanie i rozwiązywanie brakujących komponentów jest znacznie szybsze.

FLUX w ComfyUI: czym jest i dlaczego jest ważny

FLUX.1 to rodzina modeli firmy Black Forest Labs, których celem jest uzyskanie wysokiej jakości konwersji tekstu na obraz. Jej hybrydowa architektura obejmuje około 12 miliardów parametrów Jest zoptymalizowany pod kątem szybkiego dostosowania, obsługi złożonych scen i generowania czytelnego tekstu na obrazie, co często jest zadaniem, z którym inne modele sobie nie radzą.

Kolejna zaleta: wszechstronność. Od fotorealizmu do stylów artystycznychFLUX.1 wyróżnia się wizualną spójnością i szczegółowością, w tym renderowaniem dłoni, co jest klasycznym słabym punktem grafiki generatywnej. Nic dziwnego, że porównuje się go do rozwiązań takich jak Stable Diffusion czy Midjourney, wygrywając pod względem łatwości obsługi i jakości.

Założycielem Black Forest Labs jest Robin Rombach, kluczowa postać stojąca za Stability AI. Jeśli chcesz zobaczyć to na własne oczy, jego oficjalna strona internetowa znajduje się pod adresem blackforestlabs.ai.

FLUX.1 jest dystrybuowany w trzech wariantach: Pro, Dev i SchnellWersja Pro oferuje najwyższą jakość dla środowisk profesjonalnych; wersja Dev przeznaczona jest do użytku niekomercyjnego i zapewnia doskonałą równowagę; wersja Schnell kładzie nacisk na szybkość i lekkość, a jej kod źródłowy jest udostępniany na licencji Apache 2.0.

Wymagania sprzętowe według wersji FLUX

W przypadku FLUX.1 Pro zaleca się Karta graficzna NVIDIA RTX 4090 z 24 GB pamięci VRAM32 GB pamięci RAM i szybki dysk SSD. Używa FP16, aby uniknąć konieczności instalacji od razu po wyjęciu z pudełka, a dla uzyskania maksymalnej jakości najlepiej jest użyć kodera tekstu w FP16.

W FLUX.1 Dev, RTX 3080/3090 z 16 GB pamięci VRAM Działa dobrze z 16 GB pamięci RAM i około 25 GB miejsca na dysku. Obsługuje FP16, a w niektórych przypadkach nawet FP8, w zależności od karty graficznej.

Dla FLUX.1 Schnell, RTX 3060/4060 z 12 GB pamięci VRAM 8 GB pamięci RAM i 15 GB pamięci masowej w zupełności wystarczą. Zaprojektowano go z myślą o szybkości, ale w porównaniu z wersjami Pro/Dev wiąże się to z mniejszym zapasem wydajności.

Jeśli masz mało pamięci, społeczność oferuje alternatywy, takie jak FP8, NF4 lub GGUF, które Znacznie zmniejszają niezbędną pamięć VRAM, z konfiguracjami zaczynającymi się od 6 do 12 GB w zależności od przepływu.

Instalacja FLUX na ComfyUI: podstawowe kroki

FLUX w ComfyUI

Przede wszystkim upewnij się, że używasz najnowsza wersja ComfyUIIntegracje FLUX wymagają częstych aktualizacji węzłów i funkcji.

Pobierz kodery tekstu i CLIP: klip_l.bezpiecznetensor i jeden z plików T5 XXL, t5xxl_fp16.safetensors (jeśli masz dużo pamięci VRAM/RAM) lub t5xxl_fp8_e4m3fn.safetensors (jeśli masz ograniczony budżet). Umieść je w folderze ComfyUI/models/clip/. Jeśli używasz SD3 Medium, możesz już mieć te pliki..

VAE: pobierz ae.bezpieczne tensory i przenieś go do ComfyUI/models/vae/. Zmień nazwę na flux_ae.safetensors, jeśli chcesz go łatwiej znaleźć. Ten VAE poprawia końcowe dekodowanie i to jest klucz do jakości.

UNET: wybierz pomiędzy flux1-dev.safetensors lub flux1-schnell.safetensors według swojej pamięci i umieść go w ComfyUI/models/unet/. Dzięki temu masz podstawę do uruchamiania przepływów FLUX. lokalnie.

Praktyczny przewodnik po przepływach pracy FLUX w ComfyUI

Txt2Img z FLUX

Zacznij od załadowania komponentów: UNETLoader, DualCLIPLoader i VAELoaderWęzeł CLIPTextEncode koduje monit; EmptyLatentImage tworzy początkowy obraz ukryty; BasicGuider kieruje procesem, łącząc logikę warunkową z UNET FLUX.

Wybierz próbnik z KSamplerSelectGeneruje szum za pomocą RandomNoise i definiuje rampę sigma za pomocą BasicScheduler. SamplerCustomAdvanced ujednolica wszystko: szum, przewodnik, sampler, sigma i latencję. Na koniec VAEDecode konwertuje sygnał utajony na obraz. a za pomocą SaveImage zapisujesz wynik.

Img2Img z FLUX

Rurociąg dodaje obraz początkowy: Załaduj obraz + Skala obrazu Rozmiar jest dostosowywany, a VAEEncode ustawia go na ukryty. Monit jest kodowany za pomocą CLIPTextEncode, a jego siła jest dostosowywana za pomocą FluxGuidance. ModelSamplingFlux kontroluje zmianę przestrzeni i wymiarówKSamplerSelect, RandomNoise i BasicScheduler obsługują próbkowanie. SamplerCustomAdvanced łączy warunek z ukrytym wejściem, a VAEDecode generuje wynik.

LoRA z FLUX

Aby udoskonalić styl lub funkcje, dodaj LoraLoaderModelOnly wraz z UNETLoader, DualCLIPLoader i VAELoader. Po zakodowaniu tekstu i zastosowaniu FluxGuidance, tworzysz obraz ukryty za pomocą EmptyLatentImage, definiujesz próbkowanie za pomocą ModelSamplingFlux i uruchamiasz SamplerCustomAdvanced. Dzięki VAEDecode otrzymasz obraz już zmodyfikowany przez LoRATypowy przykład: realism_lora.safetensors na flux1-dev.

LoRA

ControlNet z FLUX

Dwa bardzo przydatne przypadki dla efektów wizualnych: głębia i sprytne krawędzie. Aby uzyskać głębię, przetwórz za pomocą MiDaS-DepthMapPreprocessorZaładuj sieć kontroli głębokości i zastosuj ją za pomocą ApplyFluxControlNet. Użyj XlabsSampler do wygenerowania warunkowego sygnału utajonego, a następnie VAEDecode generuje obraz.

Dla Canny'ego użyj Preprocesor CannyEdge, załaduj Canny ControlNet i powtórz schemat: ApplyFluxControlNet → XlabsSampler → VAEDecode. Ta dodatkowa kontrola zapewnia precyzję w zakresie kształtu i kompozycji..

Malowanie za pomocą FLUX

Załaduj UNET, VAE i CLIP, a następnie przygotuj pozytywne i negatywne monity. LoadAndResizeImage wyświetla obraz i maskęPrzejście jest wygładzane za pomocą ImpactGaussianBlurMask. InpaintModelConditioning łączy kondycjonowanie, obraz i maskę. Po skonfigurowaniu samplera, szumu i sigm, SamplerCustomAdvanced rekonstruuje zamaskowany obszar. VAEDecode integruje poprawkę w sposób spójny z resztą.

FLUX NF4

Dzięki kwantyzacji NF4 pamięć jest zmniejszona. Załaduj komponenty z CheckpointLoaderNF4 i definiuje wysokość/szerokość za pomocą węzłów prymitywnych. ModelSamplingFlux ustawia parametry; EmptySD3LatentImage tworzy obraz ukryty; BasicScheduler i RandomNoise organizują odszumianie. SamplerCustomAdvanced generuje sygnał utajony, a VAEDecode przekształca go w obraz.Jeśli chodzi o skalowanie, UltimateSDUpscale wraz z UpscaleModelLoader i dodatkowym pozytywnym komunikatem robią ogromną różnicę.

Adapter IP z FLUX

Jeśli chcesz przeprowadzić warunkowanie przy użyciu obrazu referencyjnego, użyj ZaładujFluxIPAdapter i ZastosujFluxIPAdapter wraz z clip_vision_l.safetensors. Skaluj obraz referencyjny za pomocą ImageScale, przygotuj monity i uruchom XlabsSampler. Dzięki VAEDecode zobaczysz, że wynik zależy od estetyki lub funkcji z obrazu przewodnika.

Trener LoRA dla FLUX

Aby bezpośrednio wytrenować LoRA w ComfyUI, przepływ pracy obejmuje: FluxTrainModelSelect, OptimizerConfig i TrainDatasetGeneralConfigInitFluxLoRATraining inicjuje, FluxTrainLoop wykonuje kroki, a FluxTrainValidate generuje okresowe walidacje.

ComfyUI dla efektów wizualnych: wprowadzenie, instalacja i przepływ pracy

Dzięki VisualizeLoss możesz śledzić straty; ImageBatchMulti i ImageConcatFromBatch Grupują walidacje; FluxTrainSave zapisuje punkty kontrolne, a FluxTrainEnd zamyka proces. Jeśli chcesz, prześlij wynik do Hugging Face za pomocą UploadToHuggingFace i udostępnij go.

Flux Latent Upscaler

Aby uzyskać skalę szczegółową, zdefiniuj rozmiar za pomocą SDXLEmptyLatentSizePicker+ oraz łańcuchy LatentUpscale i LatentCrop. Dzięki maskom utworzonym przez SolidMask i FeatherMask, LatentCompositeMasked łączy przeskalowany obraz ukryty z oryginałem. InjectLatentNoise+ poprawia szczegółowość przed dekodowaniem VAEDProces kończy się poprawkami w ImageSmartSharpen+. Węzły obliczeniowe, takie jak SimpleMath+, pomagają zachować proporcje.

Wersje alternatywne: FP8, NF4 i GGUF do zmniejszenia pamięci VRAM

Jeśli brakuje Ci środków, masz opcje. Punkty kontrolne FP8 od Comfy.org i autorów takich jak Kijai. pozwala na korzystanie z FLUX-a z jednym plikiem w ComfyUI/models/checkpoints/. Zaleca się zmianę nazwy lub podział na foldery, aby odróżnić warianty dev i schnell.

W przypadku NF4 (bitsandbytes) zainstaluj wtyczkę ComfyUI_bitsandbytes_NF4 I użyć flux1-dev-bnb-nf4-v2 w modelach/punktach kontrolnych. Ta wersja poprawia szczegóły w porównaniu z pierwszą iteracją.

Kwantyzacja GGUF City96 wraz z wtyczką ComfyUI-GGUFobniża poprzeczkę jeszcze bardziej: Pobierz model FLUX GGUF, enkoder t5-v1_1-xxl-encoder-ggufPliki `clip_l.safetensors` i `ae.safetensors` należy umieścić w odpowiednich folderach. Wygodne jest użycie 6 GB pamięci VRAM.

Korzystanie z FLUX.1 w chmurze i innych zasobach

Jeśli wolisz nie instalować niczego, możesz wypróbować FLUX w Przytulanie przestrzeni twarzy: FLUX.1-dev y FLUX.1-schnell. Także w Replika, Mystic.ai o fala.ai. Oto przydatne opcje służące do sprawdzania poprawności monitów i konfiguracji przed pobraniem modeli lokalnych.

W poszukiwaniu inspiracji i gotowych schematów pracy zapoznaj się z oficjalne przykłady ComfyUI i galerie przepływu pracy, takie jak OpenArt. Pamiętaj, że wiele obrazów zawiera metadanewięc możesz je przeciągnąć do ComfyUI i pobrać wykres.

Ekskluzywny piksel

Więcej materiałów: zbiory LoRA dla FLUX jako RealizmLora lub kompilacje w XLabs-AIControlNet dla FLUX jako kolekcje y Unia; Adapter IP en XLabs-AIAby trenować LoRA przy małej ilości pamięci VRAM, spróbuj fluxgym lub trener Replicate z Ostris; Dostępny jest przewodnik DreamBooth dla deweloperów FLUX.1 w repozytorium dyfuzorów.

Zainstaluj ComfyUI w systemie Windows 11 z solidną wydajnością

Jeśli zależy Ci na czystej instalacji, to jest to sprawdzony sposób. Działa bardzo dobrze z kartami NVIDIA serii 40/50 i pomaga uniknąć typowych błędów.

1) Zainstaluj aplikację NVIDIA i sterownik Studio z nvidia.com. Uruchom ponownie. 2) Zestaw narzędzi CUDA z programista.nvidia.com (opcjonalne, ale przydatne, aby uniknąć alertów w Tritonie, jeśli nie używasz venv). 3) ffmpeg Z repozytorium BtbN dodaj C:\ffmpeg\bin do ścieżki. 4) Git dla systemu Windows z git-scm.com5) Python 3.12 x64 z python.org, z programem uruchamiającym py dla wszystkich użytkowników i dodaj do zmiennych środowiskowych.

5.5) Jeśli wybierzesz venv, utwórz go za pomocą python -m venv CUVenv i aktywuj go za pomocą CUVenv\Scripts\activate.bat. Następnie uruchom wszystkie odpowiednie polecenia pip lub git w venv. Skrypt startowy może aktywować środowisko i uruchomić ComfyUI za jednym zamachem.

6) Sklonuj ComfyUI za pomocą git klon https://github.com/comfyanonymous/ComfyUI.git D:\CU7) Przejdź do D:\CU i uruchom pip install -r requirements.txt. 8) Jeśli pip wyświetli ostrzeżenie o skryptach znajdujących się poza ścieżką, dodaj ścieżkę Python Scripts do zmiennych systemowych i uruchom ponownie komputer. 9) Zainstaluj PyTorch CUDA 12.8 Zainstaluj Torcha poleceniem `pip install torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128`. Jeśli coś wydaje się nie tak, odinstaluj Torcha i zainstaluj go ponownie, używając tego samego polecenia.

9 bis) Uruchom ComfyUI za pomocą python main.py i otwórz 127.0.0.1:8188. 10) Zainstaluj Triton dla Windows za pomocą pip install -U triton-windows. 11) Przyspiesz uwagę za pomocą Sage Attention 2.2: Pobierz kompatybilną kierownicę CU128/Torch2.8 dla CP312, zainstaluj go za pomocą pip i uruchom ComfyUI z flagą –use-sage-attention.

12) Zainstaluj ComfyUI-Manager: uruchom ComfyUI/custom_nodes git clone https://github.com/ltdrdata/ComfyUI-Manager Comfortableui-manager13) Utwórz plik boot .bat z wierszami: cd D:\CU i python main.py –use-sage-attention. Pierwsze uruchomienie Menedżera zajmie chwilę.; sprawdź, czy karta Menedżer jest wyświetlana w interfejsie.

14) Umieść szablony w odpowiednich folderach (checkpoints, clip, unet, vae) i otwórz przepływy. Jeśli przepływ pracy ma własny węzeł Sage, możesz go pominąć, jeśli już zaczynasz od flagiWskazówki: Unikaj otwierania programów intensywnie wykorzystujących zasoby, skonfiguruj pamięć wirtualną systemu Windows, jeśli jej brakuje, i zapoznaj się z dyskusjami na temat wydajności w repozytorium ComfyUI. Jeśli pojawią się ostrzeżenia dotyczące pamięci, rozważ użycie jednoplikowej wersji FP8.

Stabilna dyfuzja wideo

Jeśli wolisz pobrać instrukcję, pomocny plik PDF znajdziesz pod adresem ten link. Niektóre przewodniki zostały zmienione w celu uproszczenia instalacji i zaproponowania venvUżywając venv, pamiętaj, aby zawsze uruchamiać pip i git w obrębie danego środowiska.

Wskazówki dotyczące użytkowania, kompatybilności i najlepszych praktyk

Importuj przepływy, przeciągając pliki PNG z metadanymi lub JSON i sprawdzaj wersje węzłów za pomocą Menedżera. Udostępniając zdjęcia, należy unikać kompresji, która powoduje usunięcie metadanych.Jeśli JSON w nowej wersji ulegnie uszkodzeniu, wymień przestarzałe węzły lub zainstaluj zgodne wersje.

W przypadku pracy z wieloma architekturami FLUX LoRA w ostatnich kompilacjach ComfyUI zgłaszano wysoki pobór mocy; Przetestuj GGUF lub określone ładowarki Aby zminimalizować pamięć VRAM. W ControlNet zacznij od depth lub Canny, aby stworzyć stabilny zestaw do kompozycji.

Podczas wdrażania w chmurze należy sprawdzić pamięć VRAM i kolejki wykonywania. Na miejscu szybki dysk SSD i aktualne sterowniki mogą zrobić ogromną różnicę.Dokumentuj swój proces w sekcjach: ładowanie modelu, kondycjonowanie, próbkowanie, dekodowanie i przetwarzanie końcowe. Ułatwi to debugowanie w przypadku awarii.

Dzięki wszystkim powyższym informacjom możesz teraz zbudować naprawdę solidny proces tworzenia efektów wizualnych za pomocą ComfyUI: Czy rozumiesz, czym jest przepływ pracy i jak go zapisać bez utraty metadanych?Potrafisz zainstalować FLUX i jego warianty (Dev, Schnell i opcje FP8, NF4, GGUF), wiesz, jak uruchamiać najważniejsze codzienne przepływy pracy (Txt2Img, Img2Img, Inpainting, ControlNet, LoRA, IPAdapter i Upscale), a także masz zoptymalizowaną instalację systemu Windows z Triton, Sage Attention i ComfyUI-Manager, aby system działał sprawnie, stabilnie i szybko.