klíčové

pojmy

Přehled základních termínů, které se vztahují ke generování obrázků pomocí umělé inteligence. Naleznete zde definice, které vám pomohou lépe porozumět technologiím, procesům a metodám, jež stojí za tvorbou výstupů prostřednictvím modelů jako je Stable Diffusion.

Umělá inteligence je technologie, která umožňuje počítačům a strojům napodobovat lidskou inteligenci a schopnost řešit problémy. AI, jako významná oblast informatiky, zahrnuje a často se spojuje se strojovým učením a hlubokým učením. Tato technologie se využívá k tomu, aby stroje dokázaly vykonávat úkoly, které by běžně vyžadovaly lidskou schopnost myšlení, učení a rozhodování.

Neuronová síť je výpočetní model inspirovaný strukturou lidského mozku. Skládá se z vrstev propojených neuronů, které spolu komunikují pomocí vážených spojů. Každý neuron přijímá vstupy, zpracovává je a předává je dalším neuronům v síti. Neuronové sítě jsou základním stavebním kamenem pro AI algoritmy, včetně těch používaných pro generování obrázků.

Strojové učení je podmnožinou AI, která umožňuje systémům učit se a zlepšovat na základě zkušeností. Modely strojového učení jsou trénovány na velkém množství dat a používají algoritmy, které se přizpůsobují a zlepšují své výkony při řešení konkrétních úkolů. Vzhledem k požadavkům a datům je možné použít jeden ze čtyř modelů: bez dohledu, s dohledem, s polodohledem nebo posilování. V kontextu generování obrázků se strojové učení používá k tomu, aby se modely naučily vztahy mezi textovými popisy a vizuálními prvky obrazů.

Hluboké učení je specializovaná oblast strojového učení, která využívá vícevrstvé neuronové sítě k analýze a modelování složitých vzorů v datech. Hluboké učení je klíčové pro moderní generativní modely, protože umožňuje efektivní učení a generování realistických obrazů. Vícevrstvenost v hlubokém učení umožňuje neuronovým sítím rozpoznávat složité vzory postupným zpracováváním dat v několika vrstvách. Když neuronová síť analyzuje obraz konkrétního zvířete, například kočky, vstupní vrstva přijímá obraz a převádí jej na numerická data. Zjednodušeně lze říci že první skrytá vrstva identifikuje základní prvky, jako jsou hrany a jednoduché tvary, například obrysy uší. Druhá skrytá vrstva rozpoznává složitější struktury, jako jsou oči a nos, zatímco třetí skrytá vrstva analyzuje kombinace těchto tvarů, aby identifikovala části těla zvířete, jako je hlava a tělo. Nakonec výstupní vrstva spojuje všechny rozpoznané vzory a určuje, zda je na obraze kočka, čímž poskytuje konečný výsledek. Tímto postupným zpracováváním v několika vrstvách síť dosahuje schopnosti rozpoznávat a klasifikovat složité obrazy.

Generativní umělá inteligence je oblast umělé inteligence zaměřená na vytváření nového obsahu, jako jsou texty, obrázky nebo hudba. Na rozdíl od diskriminačních modelů, které se zaměřují na třídění nebo rozpoznávání vzorců v datech, generativní modely generují nové datové vzorky, které se podobají těm, na kterých byly trénovány, čímž umožňují vytváření originálních a inovativních výsledků.

Difúzní model je navržen tak, aby generoval nová data podobná těm, které viděl během tréninku. Tento generativní proces je řízen přidáváním a odstraňováním šumu. V dopředné fázi model přidává šum do obrazu, což postupně přeměňuje obraz na šumový. V reverzní fázi model postupně odstraňuje šum z šumového obrazu, čímž obnovuje původní nebo generuje nový obraz. Tento proces využívá prediktor šumu, který předpovídá množství šumu v každém kroku.

Model latentní difúze vylepšuje tradiční difuzní modely tím, že pracuje v latentním prostoru, což je nižší dimenzionální prostor - složité informace (jako obrázky) jsou převedeny do jednoduššího a nižšího dimenzionálního formátu. Tento formát obsahuje základní charakteristiky původních dat, ale ve zjednodušené podobě. Variační automatický kodér (VAE) komprimuje obraz do latentního prostoru, kde probíhá difúze. Toto výrazně snižuje výpočetní náročnost a zvyšuje kvalitu generovaných obrazů. Po dokončení difúzního procesu v latentním prostoru je latentní reprezentace obrazu dekomprimována zpět do původního obrazového prostoru pomocí dekodéru VAE.

Prompt je textový popis, který specifikuje požadavky na výsledný obraz. Můžeme také říct, že se jedná o jakýsi typ příkazové řádky pro model AI. Slouží jako vstupní data pro generativní model, který na jeho základě vytváří obraz. Prompt může být jednoduchý, jako například 'pes v boudě', nebo složitý a detailní, zahrnující popisy objektů, prostředí a stylu obrazu.