Manipulace s generátorem obrázků ChatGPT: Násilný a sexuálně explicitní obsah

Podle výzkumu Mindgard se ukazuje, že generátor obrázků ChatGPT lze snadno manipulovat k vytváření násilného a sexuálně explicitního obsahu, a to i bez přímého požadavku na takový obsah. Tato zjištění poukazují na nedostatečné filtry obsahu, které by měly bránit generaci takovýchto obrázků.

Během testování se ukázalo, že filtry obsahu ChatGPT zcela selhaly. Autor výzkumu pozoroval generaci znepokojivých obrázků, které byly vytvořeny bez jakýchkoliv explicitních pokynů. Například použitím jednoduchého a neškodného promptu bylo možné generovat obrázky s násilnými a sexuálními motivy, což naznačuje, že filtry na vstupu nefungují efektivně.

Mindgard informoval OpenAI o těchto problémech, ale firma tvrdila, že byly vyřešeny. Nicméně, retestování ukázalo, že stejné typy obrázků mohly být stále generovány pomocí drobných variací v pokynech. To vyvolává otázky o účinnosti opatření, která OpenAI zavedla.

Zajímavé na tom je, že byl použit virální prompt, který byl sdílen na sociálních sítích, aby se otestovaly limity generátoru. Tento prompt vedl k vytváření znepokojivých obrázků, což naznačuje, že uživatelé mohou náhodně narazit na nebezpečný obsah, aniž by si toho byli vědomi.

Další metodou, která vedla k ještě horším výsledkům, bylo opakování pokynů. Tato metoda, známá jako RE2, ukázala, že opakování pokynů může posunout chování modelu do nebezpečných oblastí. Kombinování různých metod generace vedlo k ještě extrémnějšímu obsahu, což naznačuje, že filtry obsahu nejsou dostatečné pro ochranu uživatelů.

Mindgard zahájil audit těchto zranitelností 9. května 2026 a od té doby se snaží upozornit na etické otázky týkající se tréninkových dat AI. OpenAI's Safety Bug Bounty program vylučuje "problémy s obsahem", což znamená, že uživatelé nemohou tyto závažné problémy hlásit prostřednictvím oficiálních kanálů.

Článek obsahuje varování o obsahu, který může být pro čtenáře znepokojivý, včetně násilí a sexuálního obsahu, což je důležité pro zajištění informovanosti čtenářů o citlivých tématech, která jsou diskutována.