Díl 5: Co bych dnes udělal jinak
Zkušenost jako filtr
Unified Pipeline nevznikla jako akademický projekt.
Vznikla tlakem reality: času, provozu a odpovědnosti.
S odstupem je ale jasné, že:
- některá rozhodnutí byla správná,
- některá byla nutná,
- a některá byla spíš reakcí na konkrétní situaci než obecně optimálním řešením.
Tento díl není kritikou projektu.
Je pokusem oddělit principy, které přetrvají, od řešení, která byla dobově podmíněná.
1. Méně abstrakce na začátku
Jedna z věcí, kterou bych dnes změnil, je tempo abstrakce.
Unified Pipeline byla od začátku navrhována jako:
- obecný rámec,
- použitelný pro více typů modelů,
- s vysokou mírou konfigurovatelnosti.
To přineslo flexibilitu, ale i cenu:
- delší onboarding,
- složitější mentální model,
- a občas nutnost „pochopit systém dřív, než vyřeším problém".
Dnes bych:
- začal s užším scope,
- nechal abstrakce vznikat až z opakování,
- a část „elegance" obětoval ve prospěch čitelnosti.
2. Ještě tvrdší oddělení experimentu a produkce
Přestože Unified Pipeline jasně rozlišovala mezi experimentem a produkcí, v praxi:
- zůstávaly některé přechody příliš plynulé,
- a experimentální myšlení občas prosakovalo tam, kde už nemělo být.
Dnes bych:
- experimentální fázi ještě víc izoloval,
- produkční pipeline více „uzamkl",
- a přechod mezi nimi udělal vědomým rozhodnutím, ne postupnou evolucí.
Ne kvůli kontrole, ale kvůli ochraně obou světů.
3. Více investice do interpretace, méně do optimalizace
Unified Pipeline byla velmi dobrá v:
- trénování,
- validaci,
- a porovnávání modelů.
Zpětně vidím, že:
ještě víc hodnoty by přinesla silnější interpretační vrstva.
Ne ve smyslu:
„explainability pro audit",
ale ve smyslu:
- jaký typ chování model reprezentuje,
- kdy mu věřit a kdy ne,
- jak číst jeho selhání.
Dnes bych:
část optimalizační energie přesunul právě sem.
4. Méně implicitní expertízy v designu
Unified Pipeline v sobě nesla hodně:
- doménové znalosti,
- metodických předpokladů,
- a „tichých" rozhodnutí.
Pro zkušený tým to fungovalo skvěle.
Pro nově příchozí už méně.
Z dnešního pohledu bych:
- víc těchto předpokladů externalizoval,
- víc je pojmenoval,
- a méně spoléhal na to, že „je to přece jasné".
Pipeline má být čitelná i bez autora v místnosti.
5. Co bych si vzal do každého dalšího projektu
Navzdory všem výše uvedeným bodům existují principy, které bych dnes použil znovu – beze změny.
- Čas jako základní osa systému
- Stabilita nad maximem
- Proces důležitější než jednotlivý model
- Pipeline jako nositel kultury, ne jen kódu
- Omezení jako nástroj kvality, ne brzda
Tyto principy se ukázaly jako:
- technologicky agnostické,
- přenositelné,
- a dlouhodobě udržitelné.
Unified Pipeline jako mezník, ne cíl
Dnes už Unified Pipeline nevnímám jako:
„hotové řešení",
ani jako univerzální blueprint.
Vnímám ji jako:
mezník v přemýšlení o tom, co znamená dělat data science zodpovědně v čase.
A právě to je možná její největší hodnota.
Závěrem
Pokud bych měl celou sérii shrnout do jedné věty, zněla by takto:
Produkční data science není o tom, jak chytrý je model,
ale o tom, jak dobře systém zvládá realitu, ve které model žije.
Napsat komentář