llm-anthropic 0.25.1: Opus 4.8, fast mode a delší výstupy

Simon Willison vydal verzi llm-anthropic 0.25.1, tedy plugin pro jeho nástroj llm, který umožňuje pracovat s modely Anthropic přímo z příkazové řádky.

Na první pohled jde o malý release. Ve skutečnosti ale dobře ukazuje praktickou věc: jak rychle se nové modely a produktové funkce propisují do nástrojů, které vývojáři používají každý den.

Hlavní změny jsou tři:

přidání modelu claude-opus-4.8
nová volba -o fast 1 pro fast mode
změna výchozího max_tokens podle maxima konkrétního modelu

Claude Opus 4.8 v llm-anthropic

Nejviditelnější novinkou je podpora nového modelu claude-opus-4.8.

Anthropic představil Claude Opus 4.8 jako inkrementální vylepšení nad Opus 4.7. Nejde o revoluční skok, spíš o model, který má být lepší v agentních úlohách, práci s kódem, úsudku a schopnosti upozorňovat na vlastní nejistotu.

Zajímavé je, že Anthropic sám model rámuje relativně střízlivě jako „modest but tangible improvement“. Simon Willison si právě této formulace všímá ve svém komentáři k Opus 4.8 a oceňuje, že AI lab popisuje nový model jako menší, ale reálné zlepšení, ne jako další velký průlom.

Pro uživatele llm-anthropic je důležité hlavně to, že nový model je dostupný přes běžný nástrojový workflow. Není potřeba měnit způsob práce. Stačí použít nový identifikátor modelu.

Fast mode přes `-o fast 1`

Druhou novinkou je podpora volby:

-o fast 1

Ta zapíná fast mode, pokud ho má daná organizace povolený na účtu.

Fast mode je podle dokumentace Anthropic výzkumný preview režim. Není tedy univerzálně dostupný všem uživatelům. To je důležitý detail: nejde o běžnou přepínačovou funkci, kterou může okamžitě použít každý.

U Opus 4.8 Anthropic uvádí, že fast mode může běžet až 2,5× rychleji. Zároveň je u Opus 4.8 levnější než u předchozích modelů. Standardní cena Opus 4.8 zůstává 5 dolarů za milion vstupních tokenů a 25 dolarů za milion výstupních tokenů. Fast mode stojí 10 dolarů za milion vstupních tokenů a 50 dolarů za milion výstupních tokenů.

Prakticky to znamená, že vývojář může u vybraných workflow vyměnit část ceny za nižší latenci. U agentů a dlouhých úloh to může být důležité, protože každý krok navíc znamená další čekání.

`max_tokens` podle modelu

Třetí změna je méně nápadná, ale pro každodenní použití možná nejpraktičtější.

llm-anthropic dříve používal jako výchozí hodnotu max_tokens číslo 8192. Nově se výchozí hodnota nastavuje podle maximálního výstupu konkrétního modelu.

To řeší běžný problém: uživatel nemusí ručně upravovat limit výstupu pokaždé, když pracuje s modelem, který zvládne delší odpovědi. Nástroj se víc přizpůsobí schopnostem modelu.

V issue #72 se řešilo právě to, že pevný default 8192 tokenů může být zbytečně omezující pro modely, které podporují výrazně delší výstupy.

U Opus 4.8 Simon Willison ve svých poznámkách uvádí kontextové okno 1 000 000 tokenů a maximální výstup 128 000 tokenů. To neznamená, že každý dotaz má produkovat extrémně dlouhé odpovědi. Znamená to spíš, že nástroj by neměl model zbytečně omezovat tam, kde delší výstup dává smysl.

Proč je to zajímavé

Tahle aktualizace není velká sama o sobě. Je zajímavá tím, co ukazuje o vrstvě mezi modelem a vývojářem.

Nový model je jen jedna část příběhu. Aby byl skutečně užitečný, musí se dostat do nástrojů:

CLI
editorů
agentních frameworků
interních workflow
automatizací

Právě tady se rozhoduje, jak rychle se schopnosti modelu promění v reálné používání.

llm-anthropic 0.25.1 je dobrý příklad malé integrační práce, která má praktický dopad. Přidá nový model, zpřístupní režim pro rychlejší běh a odstraní ruční nastavování limitu, který už nemusí odpovídat možnostem současných modelů.

Co z toho plyne pro vývojáře

Pro vývojáře není důležité jen sledovat, který model má nejlepší benchmark.

Stejně důležité je sledovat, jak se model chová v nástrojích, které skutečně používáme:

jak snadno se přepíná model
jak se nastavuje rychlost a cena
jak se pracuje s dlouhým výstupem
jak moc nástroj skrývá nebo odhaluje schopnosti modelu

Opus 4.8 může být jen inkrementální zlepšení. Ale právě takové inkrementální změny často rozhodují o tom, jestli se model dostane z oznámení na blogu do každodenní práce v terminálu.

Claude Opus 4.8 v llm-anthropic

Fast mode přes -o fast 1

max_tokens podle modelu

Proč je to zajímavé

Co z toho plyne pro vývojáře

Zdroje

Fast mode přes `-o fast 1`

`max_tokens` podle modelu