Díl 3: Čas jako nepřítel modelu

Když validace lže, aniž by chtěla

Jedna z nejnepříjemnějších zkušeností v aplikované data science je tato:

Model má skvělé validační metriky –
a přesto v produkci selhává.

Ne dramaticky.
Ne hned.
Ale systematicky.

Predikce jsou „nějak horší", stabilita kolísá a důvěra v model se postupně vytrácí. Přitom:

pipeline běží,
data tečou,
kód se nezměnil.

Problém není v implementaci.
Problém je v čase.

Iluze náhodnosti

Standardní validační přístupy implicitně předpokládají, že:

data jsou náhodně promíchaná,
rozdělení je stabilní,
budoucnost je statisticky podobná minulosti.

To jsou rozumné předpoklady pro učebnice.
Ale ne pro rozhodovací systémy běžící v čase.

Jakmile model:

ovlivňuje reálná rozhodnutí,
pracuje s chováním lidí,
reaguje na externí podmínky,

pak se čas stává aktivním aktérem, ne jen indexem.

Proč náhodné dělení dat selhává

Při náhodném dělení trénovacích a validačních dat:

model vidí budoucí vzory,
učí se vztahy, které v reálném čase neexistují,
a metriky vypadají lépe, než odpovídá realitě.

To není chyba metodiky.
To je nesoulad mezi otázkou a nástrojem.

Otázka v produkci totiž zní:

„Jak se model zachová na datech, která ještě neexistují?"

Ale náhodná validace odpovídá na jinou otázku:

„Jak dobře model interpoluje v rámci známého rozdělení?"

Unified Pipeline a časová disciplína

Unified Pipeline postavila čas do centra celého procesu:

trénování,
validace,
i interpretace výsledků.

Každý model byl:

zasazen do konkrétního časového kontextu,
testován na datech, která skutečně následovala,
a hodnocen nejen podle výkonu, ale i stability v čase.

Validace přestala být jednorázovým číslem
a stala se časovou trajektorií.

Stabilita jako metrika kvality

Postupně se ukázalo, že:

nejvyšší validační metrika není nutně nejlepší volba,
model s mírně horším výkonem, ale vyšší stabilitou, je v produkci často cennější.

To vedlo k posunu v uvažování:

od maximalizace bodové metriky,
k hodnocení chování modelu napříč obdobími.

Jinými slovy:

Model není hodnocen podle toho, jak dobrý byl,
ale podle toho, jak spolehlivý bývá.

Čas odhaluje skutečný overfitting

Overfitting se často chápe jako:

příliš složitý model,
příliš mnoho parametrů,
příliš málo regularizace.

Čas ale ukazuje jiný typ přetrénování:

model je perfektně přizpůsobený minulému světu,
ale křehký vůči změnám.

Unified Pipeline tím pádem neřešila jen:

zda je model přetrénovaný,

ale hlavně:

na co je přetrénovaný.

Nepříjemná pravda

Jedno z nejdůležitějších zjištění bylo toto:

Pokud model neumí selhávat předvídatelně,
neumí být důvěryhodný.

Časová validace často:

snižovala metriky,
komplikovala porovnání,
a nutila tým k nepříjemným rozhodnutím.

Ale právě díky tomu:

mizela falešná jistota,
a rostla důvěra v to, co model skutečně umí.

Co bude dál

V dalším díle se posunu od metodiky k praxi:

MLOps bez buzzwordů
– co skutečně zrychlovalo vývoj,
– co naopak přidávalo složitost bez hodnoty,
– a proč „správná infrastruktura" často znamená méně, ne více nástrojů.

Unified Pipeline – Díl 3: Čas jako nepřítel modelu

Díl 3: Čas jako nepřítel modelu

Když validace lže, aniž by chtěla

Iluze náhodnosti

Proč náhodné dělení dat selhává

Unified Pipeline a časová disciplína

Stabilita jako metrika kvality

Čas odhaluje skutečný overfitting

Nepříjemná pravda

Co bude dál

Comments

Napsat komentář Zrušit odpověď na komentář

More posts

PENB z provozních dat: kde končí odhad a začíná rozhodnutí

Unified Pipeline – Díl 1: Proč vůbec vznikla Unified Pipeline

Unified Pipeline – Díl 4: MLOps bez buzzwordů

Unified Pipeline – Díl 2: Od experimentů k systému

michaelprinc.com