README

Description

Ce programme est conçu pour cloner un site web en utilisant une combinaison de Puppeteer et HTTrack. Il visite chaque lien du site à l'aide de Puppeteer, puis utilise HTTrack pour copier le site localement, en s'assurant que tous les liens pertinents sont inclus.

Prérequis

Node.js: Assurez-vous que Node.js est installé sur votre machine, car Puppeteer nécessite Node.js pour fonctionner.
HTTrack: Cet outil est utilisé pour cloner le site web. Vous devez l'avoir installé sur votre machine.

Installation

Clonez ce dépôt sur votre machine locale.
Installez Puppeteer en utilisant npm :
```
npm install puppeteer
```
Assurez-vous que HTTrack est installé. Vous pouvez l'installer via votre gestionnaire de paquets préféré :
- Sous Ubuntu/Debian :
```
sudo apt-get install httrack
```
- Sous macOS (via Homebrew) :
```
brew install httrack
```

Utilisation

Modifiez le fichier Python pour spécifier l'URL du site que vous souhaitez cloner et le répertoire de sortie souhaité :

site_url = "https://www.andapirate.com"  # Remplacez par l'URL de votre choix
output_directory = "Clone_Panda"  # Remplacez par le répertoire de sortie souhaité

Exécutez le script Python :
```
python script.py
```
Après l'exécution du script, le site sera cloné dans le répertoire spécifié. Note importante : Certains fichiers HTML peuvent ne pas avoir d'extension. Vous devez ajouter l'extension .html manuellement à ces fichiers pour qu'ils soient correctement reconnus comme des fichiers HTML.

Fonctionnement

Étape 1 : Le script écrit un script Puppeteer temporaire en JavaScript qui ouvre la page d'accueil du site et collecte tous les liens sur cette page.
Étape 2 : Puppeteer visite chaque lien collecté, enregistre les liens et les transmet au script Python.
Étape 3 : HTTrack est utilisé pour cloner le site en fonction des liens visités par Puppeteer. HTTrack télécharge toutes les pages, images et autres ressources liées.
Étape 4 : Les fichiers clonés sont stockés dans le répertoire de sortie.

Problèmes courants

Erreur de Puppeteer : Si Puppeteer rencontre des erreurs lors de la visite des liens, vérifiez que l'URL du site est correcte et accessible.
Fichiers sans extension : Après le clonage, certains fichiers peuvent ne pas avoir d'extension. Ajoutez .html manuellement pour que ces fichiers soient reconnus comme des fichiers HTML.