Static Badge

Menu

  1. Info general
  2. Liste pré-requis
  3. Création environnement virutel
  4. Activation environnement virutel
  5. installation librairies
  6. Exécution de l'application
  7. Développement
  8. Auteur et contact

Projet script ETL

Script permettant d'extraire les données d'un site web et d'ecrire les données sur plusieurs fichiers csv.
Les tests d'extraction sont faits sur le site: http://books.toscrape.com/

Note : Testé sous Windows 7 - Python 3.7.2


Liste pré-requis

Programme élaborés avec les technologies suivantes :

  • Python v3.7.2 choisissez la version adaptée à votre ordinateur et système ➔ Téléchargement Python

  • VSCode v1.85.2Documentation et téléchargement de VSCode

  • Cmder v1.3.19.1181 : remplace le cmd par défaut de Windows (optionnel)

  • Windows 7 professionnel SP1
     

  • Les scripts Python s'exécutent depuis un terminal.

  • Pour ouvrir un terminal sur Windows, pressez la touche windows + r et entrez cmd.

  • Sur Mac, pressez la touche command + espace et entrez terminal.

  • Sur Linux, vous pouvez ouviri un terminal en pressant les touches Ctrl + Alt + T.

_Note : Interpréteur Python, version 3.6 ou supérieure


Retour en haut 🡅

Création environnement virtuel

  • Installer une version de Python compatible pour votre ordinateur.
  • Une fois installer ouvrer le cmd (terminal) placer vous dans le dossier princiaple (dossier racine).

Taper dans votre terminal la commande :

$ python -m venv env

Note : Un répertoire appelé env doit être créé.


Retour en haut 🡅

Activation environnement virtuel

  • Placez-vous avec le terminal dans le dossier princiaple (dossier racine).
  • Pour activer l'environnement virtuel créé.

Note : Pour activer l'environnement virtuel créé, il vous suffit de taper dans votre terminal :

Taper dans votre terminal la commande :

$ env\Scripts\activate.bat
  • Ce qui ajoutera à chaque ligne de commande de votre terminal (env)
  • Pour désactiver l'environnement virtuel.

Note : Pour désactiver l'environnement virtuel, il suffit de taper dans votre terminal :

Taper dans votre terminal la commande :

$ deactivate   

Retour en haut 🡅

Installation librairies

  • Placez-vous dans le dossier ou se trouve le fichier requirements.txt avec le terminal l'environnement virtuel doit être activé.
  • Pour faire fonctionner le script, il vous faudra installer les librairies requises à l'aide du fichiers requirements.txt mis à disposition.

Taper dans votre terminal la commande :

$ pip install -r requirements.txt

Retour en haut 🡅

Exécution de l'application

Pour exécuter le script placez vous dans le dossier avec le terminal ou se trouve le script avec l'environnement virtuel activé.

Taper dans votre terminal la commande :

$ python projet_script_ETL_V1.2.0.py
  • Le programme se lance et va lister les données à extraire et ensuite les écriras sur des fichiers csv.

Note : Vous pouvez mettre pause en appuyant sur ctrl + s et contrôler les informations en cours d'extraction qui défile dans votre terminal.

  • Le programme est paramétré pour extraire les 50 catégories du site, vous pouvez changer se paramètre et saisir seulement les catégories souhaitées.

Note : Il y a 50 catégories la liste est régler sur [3:53]

Vous pouvez la modifier en changeant les paramétres sur les 2 fonctions suivantes :

def fonction_main_extract_all_categories(url):
Ligne 29   
Ligne 44 
def write_file_import_csv(data):
Ligne 393

Exemple : si vous souhaitez seulement la première catégorie mettre [3:4]
Exemple : si vous souhaitez seulement la deuxième et la troisième catégorie mettre [4:6]


Retour en haut 🡅

Développement

Actuellement en cours de développement :

  • Une fonction pour télécharger les images.
  • Une fonction permettant de voir le temps d'exécution du programme.

Retour en haut 🡅

Auteur et contact

Pour toute information suplémentaire, vous pouvez me contacter.
Bubhux : bubhuxpaindepice@gmail.com