- Este proyecto personal realiza un scraper de la página web del diario peruano 'El Comercio' con un enfoque únicamente en el tema (topic) del coronavirus. El resultado final es un archivo
.csv
con tres columnas y su debida información respectivamente: Título, Descripción y link o enlace de referencia.
- Python 3.6 +
- pip
- Unix-shell (no excluyente)
-
Clonar este repositorio:
git clone https://github.com/jamesnoria/el_comercio_scraper.git
-
Acceder a la carpeta:
cd el_comercio_scraper/
-
Instalar las librerias y paquetes necesarios (dentro de un ambiente virtual):
pip install -r requirements.txt
-
Ejecutar el script:
python3 main.py
-
Ver nuestro archivo
.csv
(se generan dentro de la carpeta 'csv_files'):ls ./csv_files/
-
Los
.csv
generados incluyen la fecha de cuando se realizó la solicitud. -
El máximo de noticias a obtener son 50.
-
La velocidad de respuesta es condicianado por una conexión estable a internet y/o la respuesta del servidor(es) del diario.
(siéntase libre de colaborar)
Condicionar el script a la respuesta del servidor (requests).Probar programación concurrente para mejorar velocidad de respuesta.- Incluir otros temas o enfoques del diario.
- Hacer 'refactoring' un poco más.
- Ver
LICENSE
para mayor información.