Norwegian National Library využívá 2 petabajty flash úložiště pro trénink LLM

Norská národní knihovna pracuje na vlastním velkém jazykovém modelu (LLM), který má lépe rozumět norštině a norskému kulturnímu kontextu. Projekt využívá 2 petabajty flash úložiště Huawei OceanStor Dorado v AI datové pipeline. Marius Husnes, vedoucí IT platformy knihovny, o projektu mluvil na Huawei ID Forum 2026 v Paříži. Podle něj dnes neexistuje komerční poskytovatel LLM, který by cíleně vyvíjel model pro norský jazyk.

Význam suverénního LLM

Husnes upozornil, že země s vlastním jazykem může být bez suverénního LLM v nevýhodě. Globálně trénované modely, které jsou často dominantně anglické, nemusí dobře znát historii, zprávy a kulturní kontext popsaný v lokálním jazyce. Norské ministerstvo kultury proto pověřilo národní knihovnu, aby vybudovala suverénní AI, která bude lépe reflektovat norský jazyk, historii a kulturu.

Digitalizace kulturního dědictví

Národní knihovna je pro takový projekt logickým místem, protože disponuje největší digitální sbírkou norských knih, novin, webových stránek a dalšího kulturního obsahu v zemi. Knihovna má zákonný depozitní mandát: má shromažďovat a uchovávat norské kulturní dědictví, a to nejen knihy, ale také vysílaný obsah.

Od roku 2005 knihovna intenzivně digitalizuje své sbírky. Výsledkem je zhruba 20 petabajtů unikátních dat. Ta jsou uchovávána v režimu 3-2-1, tedy ve třech kopiích, na dvou typech médií a s jednou kopií mimo lokalitu. Celkově tak jde přibližně o 60 petabajtů dat.

Proces zpracování dat

Husnes zdůraznil, že úzkým hrdlem není výpočetní výkon, ale kvalita dat, jejich čištění a průchodnost celé pipeline. Proces zahrnuje ingestování dat, čištění, deduplikaci, normalizaci formátů, validaci a přípravu dat pro trénování.

Zajímavé je, že nejde jen o kapacitu úložiště. Knihovna má dlouhodobý archiv navržený primárně pro trvanlivost a cenu, ne pro rychlé čtení. AI pipeline ale potřebuje vysokou propustnost, nízkou latenci a paralelní přístup k datům. Praktický problém tedy spočívá v tom, jak dostat petabajtové datasety z archivu do tréninkové pipeline tak, aby se s nimi dalo efektivně pracovat.

Jakmile data projdou přípravou, jsou odeslána do norského národního superpočítače Sigma2 Olivia, kde probíhají samotné trénovací běhy.

Technologická infrastruktura

Pro interní výpočetní část knihovna využívá systém Nvidia DGX H200, 384jádrový CPU cluster a několik all-flash polí Huawei OceanStor Dorado, která dohromady poskytují 2 petabajty flash kapacity. Toto nízkolatenční úložiště slouží pro datové pipeline a přípravu trénovacích dat.

Pro vlastní trénování modelu je poté využíván superpočítač Olivia, postavený na platformě HPE Cray Supercomputing EX. Systém obsahuje 448 GPU a 64 512 CPU jader. Olivia využívá také úložiště Cray ClusterStor E1000 s kapacitou 5,3 petabajtu.

Co zůstává otevřené

Projekt ukazuje, že suverénní LLM není jen otázka modelu nebo GPU. Podle Husnese tým stále řeší několik oblastí:

evaluaci modelu, protože pro norštinu se dvěma psanými formami, dialekty a historickými změnami neexistují hotové standardní nástroje
governance, tedy kdo bude mít k suverénnímu LLM přístup a kdo rozhodne, k čemu se smí používat
orchestraci mezi dlouhodobým archivem, on-prem AI prostředím a národním superpočítačem

Závěrem

Tento projekt ukazuje, že suverénní AI pro menší jazyk není jen softwarový problém. Vyžaduje data, práva, infrastrukturu, hodnoticí nástroje, governance a schopnost propojit archivní systémy s moderní AI pipeline.

Norsko tím řeší otázku, která se bude týkat i dalších neanglicky mluvících zemí: jak vybudovat AI, která opravdu reflektuje místní jazyk, kulturu a historii.

Zdroj

Blocks & Files