Antigravity 2.0 uspěl v OpenSCAD LLM benchmarku s Pantheonem

Podle článku na blogu ModelRift byl proveden benchmark AI nástrojů zaměřený na schopnost generovat kód pro OpenSCAD, konkrétně pro model Pantheonu. Tento úkol byl zvolen záměrně, protože Pantheon leží mezi jednoduchým syntaktickým testem a příliš organickou geometrií. Kombinuje rotundu, kopuli, portikus, sloupy a další opakované prvky, které dobře prověřují prostorové uvažování i práci s parametry v OpenSCADu.

Proč Pantheon?

Benchmark nebyl zaměřen na jednoduché úkoly, jako je vytvoření „kostičky s dírou“. Všechny testované AI modely zvládly tyto základní úkoly bez problémů. Pantheon je pro benchmark zajímavější, protože je pořád rozpoznatelný, ale už vyžaduje správný vztah mezi kruhovou rotundou, obdélníkovým portikem, kopulí, sloupy a přední fasádou. Slabší výsledek může stále připomínat budovu s kopulí, ale lepší výsledek musí lépe zachytit proporce a vztahy mezi částmi.

OpenSCAD je atraktivní cílovou platformou pro generování geometrie pomocí LLM (Large Language Models), protože jeho syntaxe je založena na textovém kódu a má kompaktní slovník. Modely mohou popisovat budovy jako zanořené transformace, Booleovské operace, válce a další geometrické prvky. Tento přístup je blíže způsobu, jakým jazykové modely logicky uvažují o struktuře, než když se snaží řídit 3D aplikaci pomocí UI akcí.

Výsledky benchmarku

Google Antigravity 2.0 s Gemini 3.5 Flash High se v benchmarku umístil jako nejlepší autonomní výsledek. Podle ModelRiftu nabídl nejpřesvědčivější kombinaci celkové hmoty stavby, portiku, kopule a detailů. Zároveň ale nejde o produkční architektonický model, spíš o praktickou ukázku toho, kam se posouvá generování CAD geometrie z textového zadání.

Důležitější než samotné pořadí modelů je podle mě to, proč OpenSCAD v podobném testu dává smysl. Pokud je potřeba změnit rozestupy sloupů, počet opakovaných prvků nebo velikost otvoru v kopuli, často stačí upravit parametr, cyklus nebo transformaci. Model tak nepracuje se skrytým stavem grafického editoru, ale s textovým artefaktem, který lze číst, renderovat a znovu upravovat.

Proč je OpenSCAD pro LLM zajímavý

OpenSCAD je pro LLM atraktivní hlavně díky textové povaze. Geometrie je zapsaná jako kód: moduly, proměnné, cykly, transformace a Booleovské operace. Pokyny typu „vytvořte 28 opakovaných sloupů kolem určitého poloměru“ se tak dají převést do struktury, která jazykovým modelům přirozeně sedí.

To je rozdíl oproti ovládání 3D aplikace přes UI akce. U takového přístupu musí agent udržovat mentální model scény a postupně provádět operace v editoru. V OpenSCADu zůstává geometrie přímo v souboru, takže je lépe kontrolovatelná a opakovatelná.

Co z benchmarku plyne

Výsledky benchmarku ukazují, že AI nástroje se dokážou dostat k validnímu, renderovatelnému OpenSCAD modelu i z krátkého zadání a referenčních obrázků. Zároveň zdroj upozorňuje, že žádný výstup není věrnou architektonickou rekonstrukcí a u prostorových úloh stále dává smysl lidská kontrola a iterativní vizuální zpětná vazba.

Zajímavé tedy není jen to, který model vyhrál tabulku. Důležitý je i samotný workflow: vygenerovat model, vyrenderovat náhled, zkontrolovat geometrii a postupně ji opravovat. U CAD úloh může být právě tato smyčka cennější než jednorázová odpověď modelu.

Shrnutí

Benchmark OpenSCAD LLM s Pantheonem je dobrý příklad toho, že pro některé 3D úlohy může být textová a parametrická reprezentace vhodnější než přímé ovládání grafického editoru. Antigravity 2.0 v tomto konkrétním testu dopadlo velmi dobře, ale hlavní poučení je širší: kvalita AI nástroje závisí nejen na modelu, ale i na formátu, ve kterém mu problém předložíme.

Zdroj

ModelRift Blog