Lockdown Mode: OpenAI omezuje riziko exfiltrace dat v ChatGPT

Simon Willison upozornil na to, že OpenAI začalo zavádět Lockdown Mode. Režim byl poprvé zmíněn už v únoru, ale podle aktuální dokumentace je teď postupně dostupný pro vybrané osobní účty, včetně Free, Go, Plus, Pro a self-serve ChatGPT Business.

Lockdown Mode je navržený tak, aby pomáhal bránit poslední fázi útoku přes prompt injection: exfiltraci dat. Prakticky jde o omezení odchozích síťových požadavků, které by mohly přenášet citlivé informace k útočníkovi.

Tohle je důležité rozlišení. Lockdown Mode podle OpenAI nebrání tomu, aby se prompt injection objevila v obsahu, který ChatGPT zpracovává. Může být například v uloženém webovém obsahu nebo v nahraném souboru a pořád může ovlivnit chování nebo přesnost odpovědi.

Režim se tedy nesnaží vyřešit celý problém prompt injection. Snaží se omezit jednu konkrétní část řetězce: cestu, kterou by se ukradená data mohla dostat ven.

Simon to zasazuje do svého rámce lethal trifecta. Riziko vzniká ve chvíli, kdy má LLM systém zároveň přístup k soukromým datům, pracuje s nedůvěryhodným obsahem a má možnost data odeslat ven. Lockdown Mode podle něj útočí právě na třetí část této trojice.

Zajímavé je i to, co z existence Lockdown Mode vyplývá nepřímo. Pokud je potřeba samostatný režim pro omezení exfiltrace, pak výchozí nastavení ChatGPT podle Simona neposkytuje robustní ochranu proti dostatečně odhodlaným útokům na odtok dat.

OpenAI CISO Dane Stuckey k tomu doplnil, že Lockdown Mode není určený pro každého. Smysl dává hlavně pro lidi se zvýšeným rizikovým profilem: kvůli tomu, kdo jsou, na čem pracují nebo s jakými typy dat zacházejí. Zároveň počítá s trade-offy ve funkcionalitě a užitečnosti.

Moje čtení je, že Lockdown Mode je dobrý krok právě proto, že neslibuje magické vyřešení prompt injection. Místo toho omezuje jednu konkrétní a technicky uchopitelnou cestu útoku.

Pro firmy i jednotlivce je z toho praktický závěr: u AI nástrojů nestačí řešit jen kvalitu odpovědí. Jakmile mají přístup k citlivým datům a zároveň pracují s nedůvěryhodným obsahem, je potřeba přemýšlet i o tom, kudy mohou data odejít ven.