Tvoření účinných výzev ke generování

Video je zaměřené na  syntaxi promptů, vysvětluji v něm mimo jiné i funkci variant a vážení promptu. Ukazuji jak různé prompty ovlivňují výsledné obrázky.

Prompt, neboli instrukce v textové podobě, se pro Stable Diffusion zadávají v angličtině. Správně strukturované prompty umožňují modelu lépe porozumět požadavkům uživatele a vytvořit odpovídající výstup.

Než psaní celých vět jsou efektivnější kratší instrukce oddělené čárkami.
Model tak lépe chápe požadavky a interpretace je většinou přesnější.

Následující obrázky znázorňují jak pouhé čárky oddělující části promptu mohou ovlivnit výsledek. Náš prompt říká, že na obrázku chceme hnědou kočku v hrnku, v kuchyni zalité denním světlem. Při zadání výzvy plynule jsme nebyli úspěšní. Obrázek odpovídal zadání až při rozdělení promptu čárkami.

Nevyhovující prompt
closeup photo of brown cat in the mug which is in the kitchen lit by daylight

Vyhovující prompt
brown cat in the mug, closeup photo, kitchen background, dayligth

Varianty promptu

Varianty promptu jsou různé verze stejného základního promptu, které mohou generovat odlišné výsledky. Jednotlivé varianty se uvádí do složených závorek.

Například prompt
detailed cityscape {at night. in daytime}, neon lights, futuristic ve skutečnosti zařadí do fronty generování 2 výstupů. A to pro prompt detailed cityscape at night, neon lights, futuristic a detailed cityscape in daytime, neon lights, futuristic

Váhy promptu

Váhy promptu určují důležitost jednotlivých slov nebo frází v promptu. Čím vyšší váhu přiřadíme, tím větší vliv bude mít na generovaný obrázek. Váhy nám umožňují jemně doladit výsledky a zvýraznit určité aspekty obrazu. Váhy definujeme znaménky + a – nebo čísly

Výchozí váha jednotlivých frází je hodnota 1.

Pokud chceme zvýšit důležitost, použijeme znaménko + nebo číslo od 1.1 do 2. Platí, že + je ekvivalentem pro 1.1, ++ je totéž co 1.12 a tak dále.

Potřebujeme li snížit důležitost, využijeme znaménko – nebo čísla od 0 do 0.9. Zde obdobně platí, že – je rovno 0.9, -- má stejný účinek jako 0.92 a stejný princip je uplatňován i pro následující hodnoty.

Pokud potřebujeme dodat váhu pouze jednomu aspektu promptu, provedeme to následovně:

1. Znaménkem: street artist creating a graffiti+++, vibrant colors, urban setting

2. Číselnou hodnotou: street artist creating (a graffiti)1.3, vibrant colors, urban setting

Při vážení více frází popisu je nutné všechny tyto části uzavřít do závorek:

1. Znaménky: (street)- artist creating (a graffiti)+++, vibrant colors

2. Číselnými hodnotami: (street)0.9 artist creating (a graffiti)1.3, vibrant colors

Váhy je možné do sebe nořit. Váha (grafiti+)+ odpovídá grafiti++.


Hory hor, tak by se dala pojmenovat tato ukázka vážení promptu. Základní prompt zní beautiful landscape, mountains, rivers, trees, sunset .

Váha vyšší i nižší byla přidávána na část „mountains“ ("hory"). Prompty tedy zněly následovně.

beautiful landscape, mountains+++, rivers, trees, sunset

beautiful landscape, mountains---, rivers, trees, sunset

Negativní prompt

Co na obrázku chceme, sdělíme v promptu. Co když naopak na obrázku něco nechceme? K tomu slouží negativní prompty.

Mezi mnou často zadávané negativní prompty patří low resolution nebo low quality , hojně se také jako záporný příkaz používá slovo text .