Článek
Žeň dat - Harvesting data
Je to první krok , děje se u mnoha různých zdrojů, ty jsou obohaceny o anotace a atributy, pak porovnávány s data katalogem inventory aktiv.
Porovnávají se různé datové zdroje a formáty. Data se vloží, zkoumají se vztahy mezi nimi, aby bylo možné je vhodně integrovat. Kladou se otázky a dělají vizualizace dat na zjišťování specifických data mining otázek jako je distribuce atributů, vztahy mezi páry malých skupin atributů, kardinalita - jak často se daná informace v setu vyskytuje - a vykonávaní jednoduchých statistických analýz. Při bližším pohledu na data můžete určit jak efektivně je možno použít na řešení byznys problému. Můžete se rozhodnout některá data odstranit anebo přidat. Také můžete identifikovat problémy kvality dat jako například:
Jsou data kompletní?
Chybějí v datech nějaké informace?
Jaké typy chyb se v datech vyskytují a jak je možné je korigovat?
Pro sumarizaci v této fázi budete:
- přistupovat z datům a sbírat je
- zkoumat data
- hodnotit kvalitu dat
- data připravovat
Přípravná fáze zahrnuje finalizaci dat a pokrytí všech úloh obsažených ve formátování dat, aby bylo možné je použít pro vybudování modelu.
Přípravná fáze dat se často dělá vícekrát, iterativně a ne v předepsaném pořadí. Úlohy mohou zahrnovat výběr sloupců (atributů) a také výběr řádků v tabulce. Můžete vytvořit pohledy - views - na propojení dat anebo data tzv. materializovat podle potřeby, hlavně když jsou sbírány z různých zdrojů. Pro čištění - clean/s/ing - dat, hledejte neplatné hodnoty, hodnoty cizích klíčů - foreign keys - které neexistují v jiných tabulkách a chybějící nebo extrémní hodnoty - outliers. Pro následné pročištění můžete aplikovat transformace jako agregace, normalizace, generalizace a konstrukce atributů potřebné pro řešení ML problémů. Například, můžete vyfiltrovat řádky reprezentující outliers anebo sloupce mající příliš mnoho chybějících nebo stejných hodnot.
Dodatečně můžete přidat nově vypočtené hodnoty - jako jsou například virtuální sloupce aby jste tak informace přiblížili tzv. k datovému povrchu. Tento proces se označuje jako Feature Engineering.