Hlavní obsah

Umělá inteligence a machine learning 11

Médium.cz je otevřená blogovací platforma, kde mohou lidé svobodně publikovat své texty a videa. Nejde o postoje Seznam.cz ani žádné z jeho redakcí.

21. 7. 2023, 16:37

Umělá inteligence a machine learning 11 - Žeň dat - Data harvesting.

Článek

Žeň dat - Harvesting data

Je to první krok , děje se u mnoha různých zdrojů, ty jsou obohaceny o anotace a atributy, pak porovnávány s data katalogem inventory aktiv.

Porovnávají se různé datové zdroje a formáty. Data se vloží, zkoumají se vztahy mezi nimi, aby bylo možné je vhodně integrovat. Kladou se otázky a dělají vizualizace dat na zjišťování specifických data mining otázek jako je distribuce atributů, vztahy mezi páry malých skupin atributů, kardinalita - jak často se daná informace v setu vyskytuje - a vykonávaní jednoduchých statistických analýz. Při bližším pohledu na data můžete určit jak efektivně je možno použít na řešení byznys problému. Můžete se rozhodnout některá data odstranit anebo přidat. Také můžete identifikovat problémy kvality dat jako například:

Jsou data kompletní?

Chybějí v datech nějaké informace?

Jaké typy chyb se v datech vyskytují a jak je možné je korigovat?

Pro sumarizaci v této fázi budete:

přistupovat z datům a sbírat je
zkoumat data
hodnotit kvalitu dat
data připravovat

Přípravná fáze zahrnuje finalizaci dat a pokrytí všech úloh obsažených ve formátování dat, aby bylo možné je použít pro vybudování modelu.

Přípravná fáze dat se často dělá vícekrát, iterativně a ne v předepsaném pořadí. Úlohy mohou zahrnovat výběr sloupců (atributů) a také výběr řádků v tabulce. Můžete vytvořit pohledy - views - na propojení dat anebo data tzv. materializovat podle potřeby, hlavně když jsou sbírány z různých zdrojů. Pro čištění - clean/s/ing - dat, hledejte neplatné hodnoty, hodnoty cizích klíčů - foreign keys - které neexistují v jiných tabulkách a chybějící nebo extrémní hodnoty - outliers. Pro následné pročištění můžete aplikovat transformace jako agregace, normalizace, generalizace a konstrukce atributů potřebné pro řešení ML problémů. Například, můžete vyfiltrovat řádky reprezentující outliers anebo sloupce mající příliš mnoho chybějících nebo stejných hodnot.

Dodatečně můžete přidat nově vypočtené hodnoty - jako jsou například virtuální sloupce aby jste tak informace přiblížili tzv. k datovému povrchu. Tento proces se označuje jako Feature Engineering.

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Napsat článek

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Související témata:

Statistika

Umělá inteligence (AI)

Strojové učení

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít publikovat svůj obsah. To nejlepší se může zobrazit i na hlavní stránce Seznam.cz

Chci začít psát

Jak na to?

Další články autora

leo p

Doporučované

Načítám

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Umělá inteligence a machine learning 11

Článek

Postranní panel

Další články autora

Umělá inteligence a machine learning 36

Koncerty

ad Podpořím práva LGBT

Sdílejte s lidmi své příběhy

Další články autora

Umělá inteligence a machine learning 36

Koncerty

ad Podpořím práva LGBT

Ještě mě řekněte že to není program z jednoho centra

Umělá inteligence a machine learning 35

Doporučované

Postranní panel