-
Develop script scraping -
Develop script transform data - Develop script put data to HDFS & Hive (Cloudera Env)
- Scrape link https://www.bi.go.id/id/statistik/ekonomi-keuangan/sekda/StatistikRegionalDetail.aspx?idprov=32 dengan ketentuan berikut:
- Ambil untuk seluruh provinsi
- Bagian kategori : Kegiatan Perbankan
- Dengan kategori statistic no 4 dan 16 untuk setiap provinsi
- Buat script untuk transform excelnya menjadi format tabel seperti berikut:
- Sudah berhasil scraping, download, dan unzip seluruh file dengan rata-rata durasi waktu 15 menit.
Note
- Saya menggunakan driver firefox karena nanti saat implementasi di Docker menggunaka firefox
- pip install -e .