/opendatakyiv

OpenDataKyiv

Primary LanguageR

Завантаження

Додаткові матеріали для самостійного опрацювання

Agenda

Тиждень 1

  • Процес побудови погнозної моделі (training, testing, validation sets)
  • Перенавчання моделі (Model overfitting). Відтворення та аналіз перенавчання в R
  • Descritive & Inferencisl statistics (sample population, mean, varience (dispersion), standard deviation)
  • Типи помилок (sensitivity, specificity)
  • Cros-validation. Зміст та застосування при побудові моделей (random sampling, k-fold, leave one out)
  • ROC крива. Зміст та застосування для аналізу якості моделі

Тиждень 2

  • Знайомство з пакетом caret
  • Робота з training/testing вибірками. Застосування методів семплування даних (data sampling)
  • Тренування моделі. Застосування парметрів навчання та оцінки якості навчання моделі (bootstrapping, cross-validation та ін)
  • Графічний аналіз даних вибірки (qplot, density plot, boxplot, table etc). Аналіз нетипових даних (outliers)
  • Застосування технік підготовки даних для аналізу (standardizing, scaling, BoxCox, knn-based imputing, PCA)
  • Застосування коваріат при визначенні факторів моделі. Робота з факторними змінними
  • Аналіз головних компонент (Principal Component Analysis). Зміст та значення при визначенні змінних моделі та усунення "шуму"
  • Модель лінійної регресії. Побудова та аналіз. Графічна діагностика результатів
  • Побудова прогнозної моделі лінійної регресії з факторними змінними. Графічний аналіз результатів

Тиждень 3

  • ...

Тиждень 4

  • ...