Jak Anthropic izoluje Claude napříč produkty

Anthropic publikoval technický přehled toho, jak izoluje Claude napříč produkty Claude.ai, Claude Code a Claude Cowork. Simon Willison na text upozornil hlavně proto, že podobně detailní popisy sandboxingu u AI nástrojů často chybí.

Hlavní myšlenka je jednoduchá: u agentů nestačí řešit jen to, co model „chce“ udělat. Je potřeba tvrdě omezit i prostředí, ve kterém může jednat.

Anthropic to shrnuje jako kombinaci několika vrstev:

procesní sandboxy
virtuální stroje
hranice souborového systému
kontrola odchozí síťové komunikace

Cílem je nastavit pevnou hranici toho, kam se agent dostane. Pokud se například citlivé credentials nikdy nedostanou do sandboxu, agent je nemůže exfiltrovat ani ve chvíli, kdy narazí na prompt injection, kreativní cestu nebo útočníkem připravený obsah.

Různé produkty, různé sandboxy

Zajímavé je, že Anthropic nepoužívá jednu univerzální izolaci pro všechno. Každý produkt má jiný provozní model, a proto i jiný typ izolace.

Claude.ai používá gVisor, open-source sandboxing technologii od Googlu pro izolaci kontejnerizovaných aplikací.

Claude Code běží lokálně u uživatele. Tam Anthropic podle přehledu používá Seatbelt na macOS a Bubblewrap na Linuxu.

Claude Cowork běží v plném virtuálním stroji. Na macOS se používá Apple Virtualization framework, na Windows HCS, tedy Host Compute Service.

To dobře ukazuje rozdíl mezi webovou aplikací, lokálním coding nástrojem a agentem běžícím v odděleném pracovním prostředí.

Egress controls nejsou detail navíc

Důležitá část je kontrola odchozí komunikace. Nejde jen o to, ke kterým souborům má agent přístup, ale také kam může posílat data.

Willison zmiňuje i dřívější příklad exfiltračního vektoru přes api.anthropic.com/v1/files. Právě podobné situace ukazují, proč sandboxing u AI agentů není jen ochrana proti klasickému malwaru.

Agent může omylem, pod vlivem instrukcí nebo přes nepřímý prompt injection udělat akci, která je technicky povolená, ale bezpečnostně nežádoucí.

Proč je to důležité

U AI agentů se bezpečnost často popisuje na úrovni modelu: lepší instrukce, lepší odmítání nebezpečných požadavků, lepší alignment.

To je důležité, ale nestačí to.

Pokud má agent číst soubory, spouštět příkazy, volat nástroje nebo pracovat s externími službami, potřebuje i technické hranice mimo model samotný. Sandboxing je právě ta vrstva, která má omezit škody, když model nebo uživatel udělá něco nečekaného.

Praktický závěr je jednoduchý: čím víc schopností agent dostává, tím důležitější je prostředí, ve kterém běží. U agentní AI není bezpečnost jen otázka promptu. Je to i otázka izolace, oprávnění a síťových hranic.