Co obnáší lokální provoz výkonných LLM

James O'Beirne v repozitáři local-llm popisuje svou konkrétní cestu k lokálnímu provozu výkonných jazykových modelů. Nejde o univerzální návod pro každého, ale o praktický zápis toho, jaké kompromisy, komponenty a nastavení mohou být potřeba, pokud chce člověk provozovat větší modely mimo cloud.

Autor rozlišuje několik úrovní sestav. Levnější varianta za zhruba 2 000 USD počítá se dvěma použitými RTX 3090, které dohromady nabídnou 48 GB VRAM. Tuto konfiguraci autor zmiňuje jako vhodnou pro modely velikosti Qwen3.6-27B.

Dražší varianta míří výrazně výš. Pro model GLM-5.2-Int8Mix-NVFP4-REAP-594B autor uvádí sestavu se 4× RTX PRO 6000, tedy celkem 384 GB VRAM. Samotná GPU část této konfigurace vychází přibližně na 46 000 USD.

Základní systém v autorově sestavě stojí na desce ASRock Rack ROMED8-2T. Cena základního systému bez GPU je v repozitáři vyčíslena přibližně na 5 587 USD.

Technické detaily, které rozhodují

Velká část zápisu není o samotném modelu, ale o infrastruktuře kolem něj. Autor řeší například PCIe switch, nastavení BIOSu, IOMMU, ACS a P2P komunikaci mezi GPU.

U PCIe switchů je podle zápisu důležité nastavit link speed na Gen4 a bifurkaci slotu na x16. Autor zmiňuje také switch Microchip Switchtec PM40100. Zásadní je vypnutí ACS (Access Control Services), aby P2P komunikace mezi GPU nešla přes CPU. Pokud se provoz mezi kartami zbytečně směruje přes procesor, může to výkon výrazně omezit.

Autor také uvádí power limit 350 W na GPU, aby sestava zůstala stabilní a nepřetěžovala napájení. V poznámkách k systému doporučuje Debian 13 Trixie a u kernel/GRUB parametrů uvádí mimo jiné iommu=off a amd_iommu=off. U RTX PRO 6000 Blackwell zároveň upozorňuje, že tyto karty nemají NVLink.

Naměřený výkon

V repozitáři jsou uvedené i výsledky P2P komunikace přes switch. Unidirekcionální přenos dosahuje 27,5 GB/s a bidirekcionální přenos 50,4 GB/s. Právě podobné detaily ukazují, že u lokálního provozu větších LLM nestačí jen „mít dost VRAM“.

Důležité je i to, jak spolu GPU komunikují a jestli je systém správně nastavený. V části k NCCL autor uvádí například proměnnou NCCL_P2P_LEVEL=PHB, tedy další z detailů, které mohou rozhodovat o tom, zda se vícekartová sestava chová podle očekávání.

Nejen hardware, ale celé lokální workflow

Repozitář se nevěnuje jen výběru komponent. Obsahuje také konfigurace pro běh modelů v Dockeru a lokální speech-to-text workflow přes Whisper.

Zajímavé na tom je, že lokální provoz výkonných LLM není jen otázka nákupu GPU. Je to kombinace hardwaru, BIOSu, ovladačů, kontejnerů, síťování mezi kartami a praktického workflow kolem modelů.

Pro vývojáře je tenhle zápis užitečný hlavně jako připomínka, že lokální AI infrastruktura může dávat smysl, ale její složitost roste velmi rychle. U menších modelů může stačit relativně dostupná sestava. U větších modelů už se člověk dostává do světa specializovaného hardwaru, drahých GPU a detailního ladění systému.