Článek
Predikce - neboli předpovědi - nejen počasí - mají asociované pravděpodobnosti (jaká je pravděpodobnost, že se tato předpověď splní?). Pravděpodobnost predikce je známá také jako jistota - confidence, interval jistoty - confidence interval (do jaké míry si můžu být jist že se predikce naplní ?). Některé formy prediktivího ML generují pravidla, které jsou vlastně podmínkami implikujícími daný výstup.
Těžební funkce - mining functions
V závislosti od svého byznys problému můžete identifikovat vhodnou těžební funkci - anebo kombinací funkcí - a vybrat algoritmus/algoritmy nejlépe odpovídající řešení. U některých těžebních funkcí si můžete vybrat z více algoritmů. Pro specifické problémy je jeden algoritmus lepší než druhý anebo je možno použít více algoritmů. Pamatujte na nebezpečí takzvaného overfittingu - tj. přenastavení - jestli máte zvoleno příliš mnoho základních parametrů, tzv. features - obvykle se pod pojmem feature myslí sloupec dané tabulky který bereme jako nosný pro vytvoření fitu, tj. nastavení - výslední datový model může být tzv. noisy - hlučný - nutící testovací data poskytnout pro projekci predikce ten samý tvar, kterému se raději chceme vyhnout. To znamená, sledování všech anomálií které de facto model zastiňují, model tedy „sleduje“ hluk, neboli rušení. Pro lepší představu si vezměme přírodní úkaz - blesk - ten je jak známo klikatý. Tedy pro model blesku je lépe některé vstupní údaje ubrat aby pak výslední model - tj. jak blesk vypadá jako vzor - nebyl až příliš klikatý.
Pro výběr algoritmů je k dispozici široká paleta ML technik jako klasifikace, regrese, clustering, asociace (analýza trhového koše), časové série. Další zahrnují důležitost atributu, důležitost řádku a seřazení. ML používá zabudované funkce pro maximalizaci škálovatelnosti, zlepšení paramaterů paměti a výkonnosti. Je integrován s jazyky jako Python a R, u kterých si uživatel může vybrat ze široké škály technik a algoritmů.