Při používání cloudových nástrojů je potřebný výkon zajištěn na straně poskytovatele. Ale při práci s lokální umělou inteligencí, jako je Stable Diffusion, je důležité vědět, jaký hardware budete potřebovat. Zde najdete jednotlivé úrovně požadavků.
Stačí běžné PC s procesorem architektury x86-64 (neboli amd64) nebo Mac s ARM (M1 / M2 / M3) architekturou. Obecně platí, čím výkonnější CPU, čím více jader a čím více vláken na jádro, tím lépe, zpracování bude rychlejší. u pomalejšího stroje si uživatel adekvátně delší dobu počká, než se mu obrázek vygeneruje. Důležité je mít dostatek RAM, aby se do ní vešel celý model a také veškerá data, při generování obrázku. Proto je minimum pro rozumný provoz 16 GiB RAM nebo více. i zde platí, čím více, tím lépe, je pak možné používat větší modely, vyšší rozlišení generovaného obrázku, složitější výzvy ap.
Akcelerovat běh AI Stable Diffusion na grafické kartě lze v principu na čemkoli, co podporuje TensorFlow (bezplatná softwarová knihovna s otevřeným zdrojovým kódem pro strojové učení a umělou inteligenci vyvinutá týmem Google Brain) a PyTorch (knihovna strojového učení založená na knihovně Torch, používaná pro aplikace, jako je počítačové vidění a zpracování přirozeného jazyka, původně vyvinutá Meta AI a nyní součástí zastřešující Linux Foundation). Prakticky to znamená použití grafických karet NVIDIA (přes API CUDA), AMD (přes API ROCm) nebo GPU z architektury M1 / M2 / M3 (přes API Metal) firmy Apple. i zde podobně jako u běhu na CPU je důležité mít pro grafický čip k dispozici dostatečně velkou VRAM. Přestože je minimálním doporučením přímo od autorů EasyDiffusion grafická karta se 4 GiB VRAM, je toto pro praktické použití málo. Ideální je alespoň 8 GiB VRAM pro generování obrázků v rozlišení do 512×512 pixelů se standardními modely. pro větší a složitější modely (např. SD XL) a větší rozlišení obrázků, typicky 768×768 pixelů nebo 1024×1024 pixelů už nastává potřeba 12 GiB VRAM nebo ideálně 16 GiB. Výhodou jsou zde např. procesory AMD Ryzen s dostatečně výkonnými integrovanými GPU, kterým je možné v BIOS/UEFI Setupu přidělit až 16 GiB VRAM. Takto nakonfigurovaný PC pak zvládá i úlohy, které není možné zpracovat ani na velmi výkonné (a drahé) grafické kartě, z důvodu jejího menšího objemu VRAM integrovaného na kartě. Dá se říct, že požadavek na dostatek vyhrazené RAM je stěžejní a je dobré na něj dávat důraz při výběru vhodné grafické karty pro urychlení běhu AI.
Akcelerovat běh AI Stable Diffusion je možné také pomocí specializovaných čipů. I zde jak již bylo zmíněno výše je v principu podporováno vše, co podporuje akcelerovaný běh knihovny TensorFlow a PyTorch. Dobrým příkladem takového specializovaného HW jsou např. akcelerační karty Xilinx Alveo firmy AMD nebo AI accelerator application-specific integrated circuit (ASIC) TPU (Tensor Processing Unit) koprocesory firmy Google, vyvinuté přímo pro akcelerovaný běh knihovny TensorFlow a PyTorch. i zde platí obdobné požadavky na velikost vyhrazené RAM pro akcelerační čip. Ideální jsou proto akcelerační karty se 16 GiB RAM a více. Různé akcelerátory pro strojové učení, které jsou běžně k sehnání do PCIe sběrnice nebo na USB 3 nejsou pro tento typ úloh – jakým je generování obrázků – vhodné, protože mají zpravidla nedostatek vlastní RAM, jsou určeny pro jiné typy úloh založených na strojovém a hlubokém učení.
Z výše uvedených informací , se nabízí otázka, proč je běh umělé inteligence na grafických nebo na specializovaných čipech o tolik rychlejší, že se používá pro akceleraci běhu AI?
Rychlá velmi zjednodušená odpověď je, že umělé neuronové sítě, na kterých jsou postavené dnešní algoritmy umělé inteligence, založené na strojovém a hlubokém učení, jsou typickým příkladem pro paralelní zpracování jednotlivých podúloh. Co to ale znamená vzhledem k procesorů, grafickým kartám a specializovaným čipům? Dnešní běžné procesory do osobních počítačů mají 2 až 16 jader, často s možností běhu 2 vláken na každé jádro. Takový procesor se pak chová jakoby by vybaven dvojnásobným počtem výpočetních jader. Dá se proto říct, že procesory v dnešním osobních počítačích mají až několik desítek virtuálních výpočetních jader. Grafické procesory mají ale i stovky výpočetních jader a navíc specializovaných pro běh úloh, které sedí právě algoritmům pro umělou inteligenci. Obdobně to je u AI akcelerátorů, ať už se jedná o specializované ASIC čipy, které jsou navrženy explicitně pro běh těchto konkrétních úloh nebo velká programovatelná hradlová pole, která po příslušném naprogramování vlastně vytvoří hromady specializovaných výpočetních jader pro běh neuronových sítí. GPU a specializované čipy tak těží z několika výhod oproti univerzálním počítačovým procesorům: