Díl 2: Jak z běžných spotřeb vznikne validní vstup

Model je jen tak dobrý, jak dobrý je vstup

U projektů pracujících s provozními daty bývá největší chybou představa, že hlavní hodnota leží až v samotném algoritmu. Ve skutečnosti se kvalita výsledku často rozhoduje ještě před výpočtem.

V případě aproximace PENB je kritické hlavně to, aby aplikace správně pochopila:

jaká data o spotřebě má k dispozici,
jaké období pokrývají,
kdy uživatel topí a kdy ne,
jaká část energie pravděpodobně souvisí s vytápěním a jaká s TUV nebo běžným provozem.

Co aplikace od uživatele skutečně potřebuje

Praktický vstup je schválně relativně střídmý:

lokalita,
plocha bytu a výška stropu,
typ vytápění,
teplotní režim,
časová řada spotřeby,
volba měsíců bez topení,
způsob aproximace TUV.

To je důležitý kompromis. Kdyby aplikace chtěla příliš mnoho detailů, běžný uživatel by ji nedokončil. Kdyby naopak chtěla příliš málo, výsledek by ztrácel oporu v realitě.

Proč nestačí jen nahrát CSV

Nahrání souboru je technicky jednoduché, ale datově nestačí. Spotřeba sama o sobě neříká:

zda jde o vytápění, nebo jinou složku,
zda je v datech mezera,
zda pozorování odpovídají topné sezoně,
zda je délka měření dostatečná pro zvolený režim výpočtu.

Proto je součástí workflow i volba měsíců bez topení a rozdělení energie na část související s vytápěním a část spojenou s TUV či běžným provozem.

Validace není o omezování uživatele

Dobrá validace nepůsobí jako překážka. Je to způsob, jak zabránit tomu, aby aplikace vracela sebevědomý výsledek z nekonzistentních dat.

V tomto projektu validace řeší například:

minimální délku dat podle výpočetního režimu,
logiku vstupních polí pro typ vytápění,
konzistenci teplotního režimu,
přítomnost očekávaných sloupců ve vstupním souboru.

Z produktového hlediska je to důležité proto, že uživatel dostane zpětnou vazbu včas, ne až po několikaminutovém výpočtu.

Co je na tom zajímavé pro data science

Podobné workflow dobře ukazuje, že datová věda v produkci není jen modelování. Je to i návrh toho, jak mají data do systému vstupovat, aby byl výsledek opakovatelný a interpretovatelný.

Přesně tady se potkává:

datová kvalita,
doménová logika,
UX formuláře,
a provozní realita běžného uživatele.

Co bude dál

V dalším díle se podívám na samotné jádro odhadu: jak do aplikace vstupuje počasí, proč je potřeba rozlišovat topnou sezonu a jakou roli hraje zjednodušený RC model při kalibraci energetického chování bytu.

Předchozí díl

Další díl

Projektová case study

Aproximace PENB štítku – Díl 2: Jak z běžných spotřeb vznikne validní vstup

Díl 2: Jak z běžných spotřeb vznikne validní vstup

Model je jen tak dobrý, jak dobrý je vstup

Co aplikace od uživatele skutečně potřebuje

Proč nestačí jen nahrát CSV

Validace není o omezování uživatele

Co je na tom zajímavé pro data science

Co bude dál

Comments

Leave a Reply Cancel reply

More posts

Promptování tiny LLM: kdy struktura pomáhá a kdy se obrací proti nám

Aproximace PENB štítku – Díl 4: Jak z výpočtu udělat aplikaci pro běžného uživatele

Aproximace PENB štítku – Díl 1: Proč nestačí čekat na formální audit

Aproximace PENB štítku – Díl 5: Nasazení, limity a co by přišlo dál

michaelprinc.com