/scraping_cleansing_BI

Script untuk develop proses scraping web BI

Primary LanguagePython

Checklist

  • Develop script scraping
  • Develop script transform data
  • Develop script put data to HDFS & Hive (Cloudera Env)

Task

Progress

  • Sudah berhasil scraping, download, dan unzip seluruh file dengan rata-rata durasi waktu 15 menit.

Note

  • Saya menggunakan driver firefox karena nanti saat implementasi di Docker menggunaka firefox

Setup

  • pip install -e .