/AMSDT

Automated Model Specification and Diagnostic Test

Primary LanguagePythonMIT LicenseMIT

AMSDT

Automated Model Specification and Diagnostic Test

2 objectives:

  • Apply automatically a large variety of specification and diagnostic tests

  • Find the best specification for a regression task (the model which minimize the number of failed tests)

  • jeu de données

  • variable cible

  • variables explicatives

objectif : trouver la meilleur spécification possible

  • homoscedasticité (Goldfeld - Quandt, Breusch Pagan, White)
  • données entrée et sortie stationnaire (Dickey Fuller, ADF, KPSS, Philips Perron)
  • pas d'endogénéité (Haussman) -> il faut au moins 1 variable instrumentale
  • pas d'autocorrélation (Durbin Watson, Breusch Godfrey)
  • tous les tests de spécifications passent (Ramsey RESET)
  • pas trop de multicolinéarité
  • pas de dépendance spatiales dans les résidus
  • pas de rupture structurelle (Chow, CUSUM)
  • pas d'individualité dans les résidus
  • pas d'autoséléction (heckman two step model)
  • instruments sains (Sargan–Hansen)
  • outliers

algorithmes de résolutions possibles:

  • serial correlation : Cochran-Orcutt, Prais-Winsten
  • variables instrumentales : 2SLS
  • simultanée : 2SLS
  • autoséléction : heckman two step model, tobit
  • effets individuels dans les résidus : fixed effects
  • détéction automatique des instruments possible : Sargan-Hansen

retour:

  • spécification
  • transformations appliquées (stationnarisation en particulier)
  • estimation des coefficients
  • covariance des coefficients
  • sommaire de tous les tests

packages :

  • spécification test : statsmodels
  • spatial : pysal
  • linear models : linearmodels
  • arch : test de stationnarité

critères d'optimisation / d'arrêt:

  • minimiser les diagnostics qui failent --> on reste sur ça
  • maximiser le fit : vraisemblance / r2 / SCR "On veut trouver un modèle sain et identifier où se trouve l'information pure"