/el_comercio_scraper

Web scraping al diario peruano 'El Comercio'.

Primary LanguagePythonMIT LicenseMIT

Scraper del diario peruano "El Comercio"

GitHub stars GitHub forks GitHub followers

GitHub repo size GitHub top language GitHub GitHub last commit

image

Descripción:

  • Este proyecto personal realiza un scraper de la página web del diario peruano 'El Comercio' con un enfoque únicamente en el tema (topic) del coronavirus. El resultado final es un archivo .csv con tres columnas y su debida información respectivamente: Título, Descripción y link o enlace de referencia.

Pre-requisitos:

  • Python 3.6 +
  • pip
  • Unix-shell (no excluyente)

Como usarlo:

  1. Clonar este repositorio:

    git clone https://github.com/jamesnoria/el_comercio_scraper.git
  2. Acceder a la carpeta:

    cd el_comercio_scraper/
  3. Instalar las librerias y paquetes necesarios (dentro de un ambiente virtual):

    pip install -r requirements.txt
  4. Ejecutar el script:

    python3 main.py
  5. Ver nuestro archivo .csv (se generan dentro de la carpeta 'csv_files'):

    ls ./csv_files/

Notas:

  • Los .csv generados incluyen la fecha de cuando se realizó la solicitud.

  • El máximo de noticias a obtener son 50.

  • La velocidad de respuesta es condicianado por una conexión estable a internet y/o la respuesta del servidor(es) del diario.

To-Do:

(siéntase libre de colaborar)

  • Condicionar el script a la respuesta del servidor (requests).
  • Probar programación concurrente para mejorar velocidad de respuesta.
  • Incluir otros temas o enfoques del diario.
  • Hacer 'refactoring' un poco más.

Licencia:

  • Ver LICENSE para mayor información.

Contacto:

  • Twitter Badge Gmail Badge