Díl 3: Čas jako nepřítel modelu
Když validace lže, aniž by chtěla
Jedna z nejnepříjemnějších zkušeností v aplikované data science je tato:
Model má skvělé validační metriky –
a přesto v produkci selhává.
Ne dramaticky.
Ne hned.
Ale systematicky.
Predikce jsou „nějak horší", stabilita kolísá a důvěra v model se postupně vytrácí. Přitom:
- pipeline běží,
- data tečou,
- kód se nezměnil.
Problém není v implementaci.
Problém je v čase.
Iluze náhodnosti
Standardní validační přístupy implicitně předpokládají, že:
- data jsou náhodně promíchaná,
- rozdělení je stabilní,
- budoucnost je statisticky podobná minulosti.
To jsou rozumné předpoklady pro učebnice.
Ale ne pro rozhodovací systémy běžící v čase.
Jakmile model:
- ovlivňuje reálná rozhodnutí,
- pracuje s chováním lidí,
- reaguje na externí podmínky,
pak se čas stává aktivním aktérem, ne jen indexem.
Proč náhodné dělení dat selhává
Při náhodném dělení trénovacích a validačních dat:
- model vidí budoucí vzory,
- učí se vztahy, které v reálném čase neexistují,
- a metriky vypadají lépe, než odpovídá realitě.
To není chyba metodiky.
To je nesoulad mezi otázkou a nástrojem.
Otázka v produkci totiž zní:
„Jak se model zachová na datech, která ještě neexistují?"
Ale náhodná validace odpovídá na jinou otázku:
„Jak dobře model interpoluje v rámci známého rozdělení?"
Unified Pipeline a časová disciplína
Unified Pipeline postavila čas do centra celého procesu:
- trénování,
- validace,
- i interpretace výsledků.
Každý model byl:
- zasazen do konkrétního časového kontextu,
- testován na datech, která skutečně následovala,
- a hodnocen nejen podle výkonu, ale i stability v čase.
Validace přestala být jednorázovým číslem
a stala se časovou trajektorií.
Stabilita jako metrika kvality
Postupně se ukázalo, že:
- nejvyšší validační metrika není nutně nejlepší volba,
- model s mírně horším výkonem, ale vyšší stabilitou, je v produkci často cennější.
To vedlo k posunu v uvažování:
- od maximalizace bodové metriky,
- k hodnocení chování modelu napříč obdobími.
Jinými slovy:
Model není hodnocen podle toho, jak dobrý byl,
ale podle toho, jak spolehlivý bývá.
Čas odhaluje skutečný overfitting
Overfitting se často chápe jako:
- příliš složitý model,
- příliš mnoho parametrů,
- příliš málo regularizace.
Čas ale ukazuje jiný typ přetrénování:
model je perfektně přizpůsobený minulému světu,
ale křehký vůči změnám.
Unified Pipeline tím pádem neřešila jen:
zda je model přetrénovaný,
ale hlavně:
na co je přetrénovaný.
Nepříjemná pravda
Jedno z nejdůležitějších zjištění bylo toto:
Pokud model neumí selhávat předvídatelně,
neumí být důvěryhodný.
Časová validace často:
- snižovala metriky,
- komplikovala porovnání,
- a nutila tým k nepříjemným rozhodnutím.
Ale právě díky tomu:
- mizela falešná jistota,
- a rostla důvěra v to, co model skutečně umí.
Co bude dál
V dalším díle se posunu od metodiky k praxi:
MLOps bez buzzwordů
– co skutečně zrychlovalo vývoj,
– co naopak přidávalo složitost bez hodnoty,
– a proč „správná infrastruktura" často znamená méně, ne více nástrojů.
Napsat komentář