Video znázorňuje princip generování obrázků pomocí generativního modelu Stable Diffusion, především odstraňováním obrazového šumu. Ukáže uživateli jak model vytváří obrázky z textových popisů a jak funguje celý proces v pozadí. Doprovodný text následně problematiku popisuje více do hloubky.
Generování obrázků s využitím AI je komplexní a vícefázový proces, který integruje různé technologie strojového a hlubokého učení. Základní princip spočívá v tom, že AI model, který byl trénován na rozsáhlém množství dat, dokáže na základě zadaného promptu vytvořit nový obrázek.
Mezi nejčastěji používané modely pro generování obrázků patří GAN (Generative Adversarial Networks) a difúzní modely. Pro účely tohoto popisu se zaměříme na princip difuzního modelu konkrétně na model latentní difúze, vzhledem k tomu, že práce se věnuje generátoru obrázků Stable Diffusion, který je populární implementací tohoto přístupu.
Latentní difúze je také důvod, proč Stable Diffusion dokáže generovat obrázky s vyšším rozlišením tak rychle – proces difúze není spouštěn na samotných pixelových obrázcích, ale na komprimovaném obraze v latentním prostoru.
Generování obrázků lze rozdělit do tří kroků.
Prvním krokem v procesu generování obrázku je vyplnění parametrů pro generování včetně promptu, tedy jak již bylo zmíněno, textového popisu, který specifikuje, jak by měl výsledný obrázek vypadat. Tento krok je zásadní, protože poskytuje modelu informace o tom, co má být na obrázku zobrazeno.
Algoritmus nejprve analyzuje zadaný prompt.
© Copyright 2024 Lucie Drabčíková. Všechna práva vyhrazena