Hlavní obsah
Internet a technologie

Umělá inteligence a machine learning 4

Médium.cz je otevřená blogovací platforma, kde mohou lidé svobodně publikovat své texty. Nejde o postoje Seznam.cz ani žádné z jeho redakcí.

Umělá inteligence a machine learning 4 - jaká data může ML spracovat?

Článek

Ano.

Uhodli jste.

Pojďme tedy na ty trendy. Už víte že umí odhalit skryté vzory a závislosti. Příklad použití? Potravinový řetězec chce zrušit neziskový produkt. Ale když ML zjistí, že je pro důležitou skupinu zákazníků - z nějakého důvodu - důležitý - nechá ho v portfoliu a nebude ho ani zdražovat.

Tj. dělá pro velké firmy zásadní věc - umožňuje jim dělat tzv. data driven decisions - rozhodnutí které jsou udělány v přímé závislosti na ML analýzách. Jmenuje se to actionable intelligence.

A lepší rozhodnutí se taky udělají/produkují rychleji, omnoho rychleji, mnohokrát automaticky.

ML tedy umí:

- lehce identifikovat trendy a vzory

- umožnit včasnou detekci anomálií

- minimalizovat manuální intervenci „učením se“

- operovat na multidimenzonálních datech

Tedy firmy umí svůj biznis problém lépe definovat. Samozřejmě, někdy je tento problém definován před prvním použitím ML - například z důvodu neexistujících možností firmy ML použít - což je pak později iterováno už za pomoci ML.

Je taky potřeba mít data která se pro analýzu použijí aby mohla poskytnout smysluplnou analýzu. Rada - při malém počtu - objemu dat - rozdělit datový soubor na začátku na dva - v ML je na to nástroj tzv. train_test_split, a to v poměru například 80-20. Často se taky používá náhodných výběr jenom několika vybraných jednotek, protože statistika zjistila že takový výběr poskytuje často velice překvapivou přesnost odhadu, často lepší než obsáhlý scan obrovského objemu dat a to z důvodu šikmosti rozdělení, tzv. outliers nebo jiných anomálií. A je to taky rychlejší a méně náročné na výpočetní systém, CPU, úschovu dat a pod., říká se tomu inexpensive oproti expensive metodě tzv. full table scan - pamatujte že tabulka v databázi může mít miliony - a miliardy - řádků. Pak se používá sharding - a v SQL cube roll up - ale to je - zatím - mimo tuhle úvahu.

A vždy pamatujte na jedno - vzory které základním výskumem získáte se budou značně lišit v závislosti od toho, jak biznis problém formulujete.

Máte na tohle téma jiný názor? Napište o něm vlastní článek.

Texty jsou tvořeny uživateli a nepodléhají procesu korektury. Pokud najdete chybu nebo nepřesnost, prosíme, pošlete nám ji na medium.chyby@firma.seznam.cz.

Sdílejte s lidmi své příběhy

Stačí mít účet na Seznamu a můžete začít psát. Ty nejlepší články se mohou zobrazit i na hlavní stránce Seznam.cz

Doporučované

Načítám