davidvpe/el_comercio_scraper

Web scraping al diario peruano 'El Comercio'.

PythonMIT

Scraper del diario peruano "El Comercio"

Descripción:

Este proyecto personal realiza un scraper de la página web del diario peruano 'El Comercio' con un enfoque únicamente en el tema (topic) del coronavirus. El resultado final es un archivo .csv con tres columnas y su debida información respectivamente: Título, Descripción y link o enlace de referencia.

Pre-requisitos:

Python 3.6 +
pip
Unix-shell (no excluyente)

Como usarlo:

Clonar este repositorio:

git clone https://github.com/jamesnoria/el_comercio_scraper.git

Acceder a la carpeta:
```
cd el_comercio_scraper/
```
Instalar las librerias y paquetes necesarios (dentro de un ambiente virtual):
```
pip install -r requirements.txt
```
Ejecutar el script:
```
python3 main.py
```
Ver nuestro archivo .csv (se generan dentro de la carpeta 'csv_files'):
```
ls ./csv_files/
```

Notas:

Los .csv generados incluyen la fecha de cuando se realizó la solicitud.
El máximo de noticias a obtener son 50.
La velocidad de respuesta es condicianado por una conexión estable a internet y/o la respuesta del servidor(es) del diario.

To-Do:

(siéntase libre de colaborar)

~~Condicionar el script a la respuesta del servidor (requests).~~
~~Probar programación concurrente para mejorar velocidad de respuesta.~~
Incluir otros temas o enfoques del diario.
Hacer 'refactoring' un poco más.

Licencia:

Ver LICENSE para mayor información.

Contacto: