Méthodes Statistiques pour les données massives (big data)

Ayez une version à jour de R (moi j'ai la 4.4.0).

Package R nécessaires : car, mctest, MASS, plsdepot (à installer depuis une archive), pls, lars, misaem, missMDA, FactoMineR, mice, glmnet, neuralnet, nnet, e1071, kernlab, doMC, VGAM, adabag, randomForest, rpart, rpart.plot, class, mixOmics.

Introduction aux big data

Régression en grande dimension

Classification en grande dimension

  • Slides d'Introduction

  • Slides sur la plsDA

  • Slides sur les Random Forest

  • Slides sur la Regression Logistique

  • Slides sur les SVM

  • Slides sur les Réseaux de Neurones

  • Application :

    • sur les données MNIST.Rdata, chercher le meilleur modèle pour prédire les chiffres manuscrits contenus dans les images. La fonction suivante sera bien utile pour visualiser ces images :
    show_digit <- function(x, col=gray(12:1/12), title='image') {
      image(matrix(x, nrow=28)[,28:1], col=col, main=title)
    }
    
    • sur les données breast.tumors.Rdata du package mixOmics, chercher à prédire si les échantillons ont été analysé avant (BE) ou après (AF) le traitement

Clustering

  • Slides sur le clustering

  • Application :

    • réaliser un clustering MNIST.Rdata des données MNIST. Choisissez de façon adéquate le nombre de clusters et représenter vos résultats de façon la plus parlante possible

Prise en compte des données manquantes

Apprentissage sur données de nature hétérogènes

  • Application : sur les données Visa Premier (descriptif des variables), vous chercherez à construire un modèle pour prédire l'appétence à la carte Visa Premier :

    • comparer différentes méthodes
    • interpréter l'impact des variables dans le modèle