Článek
Takže zopakování:
Jsou to:
Jupyter Notebook
moduly - potřebujete například train_test_split modul pro rozdělení souboru na dva
features - tj. podle čeho budete modul - model - porovnávat, stavět - jsou to tedy obvykle nejvýznamnější sloupce v tabulce
overfitting - vzniká, když model kopíruje všechny anomálie, tj, kopíruje „noise“, je „noisy“.
výběr ze statistických metod - na každou z nich potřebujete samostatný model pro vytvoření - tj. fit - modelu - Oracle cloud autonomous databáze je tady automatizována a sama vybere nejvhodnější statistický model, metodu
feature engineering - přidávání nových features vypočtených z existujících - jde o tzv. virtual columns
confusion matrix - matice predikovaných hodnot - true positives, false positives, true negatives, false negatives
accuracy - = TP + TN / všechny 4 hodnoty
Citát Ludwiga Mies van der Rohe -
LESS IS MORE