Hlavní obsah
Internet a technologie

Umělá inteligence a machine learning 11

Médium.cz je otevřená blogovací platforma, kde mohou lidé svobodně publikovat své texty. Nejde o postoje Seznam.cz ani žádné z jeho redakcí.

Umělá inteligence a machine learning 11 - Žeň dat - Data harvesting.

Článek

Žeň dat - Harvesting data

Je to první krok , děje se u mnoha různých zdrojů, ty jsou obohaceny o anotace a atributy, pak porovnávány s data katalogem inventory aktiv.

Porovnávají se různé datové zdroje a formáty. Data se vloží, zkoumají se vztahy mezi nimi, aby bylo možné je vhodně integrovat. Kladou se otázky a dělají vizualizace dat na zjišťování specifických data mining otázek jako je distribuce atributů, vztahy mezi páry malých skupin atributů, kardinalita - jak často se daná informace v setu vyskytuje - a vykonávaní jednoduchých statistických analýz. Při bližším pohledu na data můžete určit jak efektivně je možno použít na řešení byznys problému. Můžete se rozhodnout některá data odstranit anebo přidat. Také můžete identifikovat problémy kvality dat jako například:

Jsou data kompletní?

Chybějí v datech nějaké informace?

Jaké typy chyb se v datech vyskytují a jak je možné je korigovat?

Pro sumarizaci v této fázi budete:

  • přistupovat z datům a sbírat je
  • zkoumat data
  • hodnotit kvalitu dat
  • data připravovat

Přípravná fáze zahrnuje finalizaci dat a pokrytí všech úloh obsažených ve formátování dat, aby bylo možné je použít pro vybudování modelu.

Přípravná fáze dat se často dělá vícekrát, iterativně a ne v předepsaném pořadí. Úlohy mohou zahrnovat výběr sloupců (atributů) a také výběr řádků v tabulce. Můžete vytvořit pohledy - views - na propojení dat anebo data tzv. materializovat podle potřeby, hlavně když jsou sbírány z různých zdrojů. Pro čištění - clean/s/ing - dat, hledejte neplatné hodnoty, hodnoty cizích klíčů - foreign keys - které neexistují v  jiných tabulkách a chybějící nebo extrémní hodnoty - outliers. Pro následné pročištění můžete aplikovat transformace jako agregace, normalizace, generalizacekonstrukce atributů potřebné pro řešení ML problémů. Například, můžete vyfiltrovat řádky reprezentující outliers anebo sloupce mající příliš mnoho chybějících nebo stejných hodnot.

Dodatečně můžete přidat nově vypočtené hodnoty - jako jsou například virtuální sloupce aby jste tak informace přiblížili tzv. k datovému povrchu. Tento proces se označuje jako Feature Engineering.

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít psát. Ty nejlepší články se mohou zobrazit i na hlavní stránce Seznam.cz

Doporučované

Načítám