Ornith-1.0: modely, které si staví vlastní scaffolding pro agentní kódování

Ornith-1.0 je rodina open-source modelů určených pro úlohy agentního kódování. Podle zdroje zahrnuje několik variant: 9B Dense, 31B Dense, 35B MoE a 397B MoE. Modely staví na pretrained modelech Gemma 4 a Qwen 3.5 a jsou zaměřené na práci v prostředích, kde model nejen generuje kód, ale řeší úlohy krok po kroku.

Hlavním tématem není jen velikost modelů, ale tréninkový přístup. Ornith-1.0 používá self-scaffolding framework, ve kterém se model učí nejen řešit úlohy, ale i vytvářet scaffolding, který jeho řešení vede. Nejde tedy pouze o jednorázové doladění na statickém datasetu, ale o proces, kde systém vytváří nové zkušenosti a postupně zlepšuje chování modelu v prostředí.

Zveřejněné výsledky jsou výrazné, ale je potřeba je číst v kontextu konkrétních benchmarků a nastavení. Ornith-1.0-397B podle zdroje dosahuje 77.5 na Terminal-Bench 2.1 a 82.4 na SWE-Bench Verified. Menší Ornith-1.0-9B dosahuje 43.1 na Terminal-Bench 2.1 a 69.4 na SWE-Bench Verified.

Zajímavé je také srovnání u středně velké varianty. Ornith-1.0-35B dosahuje 64.2 na Terminal-Bench 2.1, zatímco Qwen 3.5-35B má ve stejném srovnání 41.4. To naznačuje, že u agentních úloh nemusí rozhodovat jen počet parametrů, ale také způsob tréninku a práce s prostředím.

Důležitá část článku se týká ochrany proti reward hackingu. To je situace, kdy se model naučí obejít hodnoticí mechanismus místo toho, aby skutečně splnil úkol. Ornith-1.0 podle zdroje používá tři vrstvy ochrany.

První vrstvou jsou pevně nastavené hranice důvěry. Ty vymezují prostor, ve kterém se může systém učit a zlepšovat. Druhou vrstvou je deterministický monitor, který sleduje, jestli řešení neporušuje pravidla prostředí.

Třetí vrstvu tvoří frozen LLM judge. Tedy samostatný jazykový model, který se během tohoto procesu neučí ani nemění. Má fungovat jako stabilní kontrolor záměru.

Klasický verifikátor ověří, jestli řešení formálně splnilo úlohu. Jenže formální kontrola nemusí poznat chytré obcházení zadání. Proto systém přidává ještě zmrazený LLM judge, který nemá model aktivně odměňovat, ale může zastavit řešení, která sice prošla testy, ale vypadají jako hack.

Ornith-1.0 je zajímavý hlavně jako ukázka směru, kterým se může agentní kódování posouvat. Nestačí mít model, který umí generovat kód. U agentních úloh je stejně důležité, jak model získává zpětnou vazbu, jak se brání manipulaci hodnoticích pravidel a jak spolehlivě dokáže pracovat v prostředí.

Všechna tvrzení o výkonu vycházejí ze zveřejněných benchmarků ve zdroji. Výsledky se mohou lišit podle konkrétní úlohy, prostředí a způsobu vyhodnocení.