Článek
Ano.
Uhodli jste.
Pojďme tedy na ty trendy. Už víte že umí odhalit skryté vzory a závislosti. Příklad použití? Potravinový řetězec chce zrušit neziskový produkt. Ale když ML zjistí, že je pro důležitou skupinu zákazníků - z nějakého důvodu - důležitý - nechá ho v portfoliu a nebude ho ani zdražovat.
Tj. dělá pro velké firmy zásadní věc - umožňuje jim dělat tzv. data driven decisions - rozhodnutí které jsou udělány v přímé závislosti na ML analýzách. Jmenuje se to actionable intelligence.
A lepší rozhodnutí se taky udělají/produkují rychleji, omnoho rychleji, mnohokrát automaticky.
ML tedy umí:
- lehce identifikovat trendy a vzory
- umožnit včasnou detekci anomálií
- minimalizovat manuální intervenci „učením se“
- operovat na multidimenzonálních datech
Tedy firmy umí svůj biznis problém lépe definovat. Samozřejmě, někdy je tento problém definován před prvním použitím ML - například z důvodu neexistujících možností firmy ML použít - což je pak později iterováno už za pomoci ML.
Je taky potřeba mít data která se pro analýzu použijí aby mohla poskytnout smysluplnou analýzu. Rada - při malém počtu - objemu dat - rozdělit datový soubor na začátku na dva - v ML je na to nástroj tzv. train_test_split, a to v poměru například 80-20. Často se taky používá náhodných výběr jenom několika vybraných jednotek, protože statistika zjistila že takový výběr poskytuje často velice překvapivou přesnost odhadu, často lepší než obsáhlý scan obrovského objemu dat a to z důvodu šikmosti rozdělení, tzv. outliers nebo jiných anomálií. A je to taky rychlejší a méně náročné na výpočetní systém, CPU, úschovu dat a pod., říká se tomu inexpensive oproti expensive metodě tzv. full table scan - pamatujte že tabulka v databázi může mít miliony - a miliardy - řádků. Pak se používá sharding - a v SQL cube roll up - ale to je - zatím - mimo tuhle úvahu.
A vždy pamatujte na jedno - vzory které základním výskumem získáte se budou značně lišit v závislosti od toho, jak biznis problém formulujete.