- Info general
- Liste pré-requis
- Création environnement virutel
- Activation environnement virutel
- installation librairies
- Exécution de l'application
- Développement
- Auteur et contact
Script permettant d'extraire les données d'un site web et d'ecrire les données sur plusieurs fichiers csv.
Les tests d'extraction sont faits sur le site: http://books.toscrape.com/
Note : Testé sous Windows 7 - Python 3.7.2
Programme élaborés avec les technologies suivantes :
-
Python
v3.7.2
choisissez la version adaptée à votre ordinateur et système ➔ Téléchargement Python -
VSCode
v1.85.2
➔ Documentation et téléchargement de VSCode -
Cmder
v1.3.19.1181
: remplace le cmd par défaut de Windows (optionnel) -
Windows 7 professionnel SP1
-
Les scripts Python s'exécutent depuis un terminal.
-
Pour ouvrir un terminal sur Windows, pressez la touche
windows + r
et entrezcmd
. -
Sur Mac, pressez la touche
command + espace
et entrezterminal
. -
Sur Linux, vous pouvez ouviri un terminal en pressant les touches
Ctrl + Alt + T
.
_Note : Interpréteur Python, version 3.6 ou supérieure
Retour en haut 🡅
- Installer une version de Python compatible pour votre ordinateur.
- Une fois installer ouvrer le cmd (terminal) placer vous dans le dossier princiaple (dossier racine).
Taper dans votre terminal la commande :
$ python -m venv env
Note : Un répertoire appelé env doit être créé.
Retour en haut 🡅
- Placez-vous avec le terminal dans le dossier princiaple (dossier racine).
- Pour activer l'environnement virtuel créé.
Note : Pour activer l'environnement virtuel créé, il vous suffit de taper dans votre terminal :
Taper dans votre terminal la commande :
$ env\Scripts\activate.bat
- Ce qui ajoutera à chaque ligne de commande de votre terminal
(env)
- Pour désactiver l'environnement virtuel.
Note : Pour désactiver l'environnement virtuel, il suffit de taper dans votre terminal :
Taper dans votre terminal la commande :
$ deactivate
Retour en haut 🡅
- Placez-vous dans le dossier ou se trouve le fichier
requirements.txt
avec le terminal l'environnement virtuel doit être activé. - Pour faire fonctionner le script, il vous faudra installer les librairies requises à l'aide du fichiers
requirements.txt
mis à disposition.
Taper dans votre terminal la commande :
$ pip install -r requirements.txt
Retour en haut 🡅
Pour exécuter le script placez vous dans le dossier avec le terminal ou se trouve le script avec l'environnement virtuel activé.
Taper dans votre terminal la commande :
$ python projet_script_ETL_V1.2.0.py
- Le programme se lance et va lister les données à extraire et ensuite les écriras sur des fichiers
csv
.
Note : Vous pouvez mettre pause en appuyant sur
ctrl + s
et contrôler les informations en cours d'extraction qui défile dans votre terminal.
- Le programme est paramétré pour extraire les 50 catégories du site, vous pouvez changer se paramètre et saisir seulement les catégories souhaitées.
Note : Il y a 50 catégories la liste est régler sur
[3:53]
projet_script_ETL_V1.2.0.py
➔ (projet_script_ETL_V1.2.0.py)
def fonction_main_extract_all_categories(url):
Ligne 29
Ligne 44
def write_file_import_csv(data):
Ligne 393
Exemple : si vous souhaitez seulement la première catégorie mettre [3:4]
Exemple : si vous souhaitez seulement la deuxième et la troisième catégorie mettre [4:6]
Retour en haut 🡅
Actuellement en cours de développement :
- Une fonction pour télécharger les images.
- Une fonction permettant de voir le temps d'exécution du programme.
Retour en haut 🡅
Pour toute information suplémentaire, vous pouvez me contacter.
Bubhux : bubhuxpaindepice@gmail.com