- http://www.r-tutor.com/r-introduction (or: http://www.r-tutor.com/content/r-tutorial-ebook)
- http://www.r-tutor.com/elementary-statistics
- https://www.coursera.org/learn/r-programming
- http://www.listendata.com/2015/09/linear-regression-with-r.html
- https://cran.r-project.org/web/packages/caret/vignettes/caret.pdf
Тиждень 1
- Процес побудови погнозної моделі (training, testing, validation sets)
- Перенавчання моделі (Model overfitting). Відтворення та аналіз перенавчання в R
- Descritive & Inferencisl statistics (sample population, mean, varience (dispersion), standard deviation)
- Типи помилок (sensitivity, specificity)
- Cros-validation. Зміст та застосування при побудові моделей (random sampling, k-fold, leave one out)
- ROC крива. Зміст та застосування для аналізу якості моделі
Тиждень 2
- Знайомство з пакетом caret
- Робота з training/testing вибірками. Застосування методів семплування даних (data sampling)
- Тренування моделі. Застосування парметрів навчання та оцінки якості навчання моделі (bootstrapping, cross-validation та ін)
- Графічний аналіз даних вибірки (qplot, density plot, boxplot, table etc). Аналіз нетипових даних (outliers)
- Застосування технік підготовки даних для аналізу (standardizing, scaling, BoxCox, knn-based imputing, PCA)
- Застосування коваріат при визначенні факторів моделі. Робота з факторними змінними
- Аналіз головних компонент (Principal Component Analysis). Зміст та значення при визначенні змінних моделі та усунення "шуму"
- Модель лінійної регресії. Побудова та аналіз. Графічна діагностика результатів
- Побудова прогнозної моделі лінійної регресії з факторними змінними. Графічний аналіз результатів
Тиждень 3
- ...
Тиждень 4
- ...