/future-data-1

Primary LanguageJupyter Notebook

Future Data Track

Installation

A. If PostgreSQL will be installed in Docker:

  1. Clone this repository
  2. cd into future-data-1
  3. Make sure Docker is installed.
  4. Make sure PostgreSQL is installed on Docker, if not yet run setup_db.sh.
  5. Run restore_db.sh.
  6. Update Airflow config on airflow.conn.cfg and airflow.var.cfg.
  7. Run setup.sh.

B. If PostgreSQL is already installed:

  1. Clone this repository
  2. cd into future-data-1
  3. Run download_restore_db.sh
  4. Restore schema.sql and database.tar from backup to PostgreSQL
  5. Run all step from A.6

Deliverables

  1. Database Schema (.sql)
  2. Database Backup (.tar)

Progress Tracker

Progress akan dibuat dalam bentuk summary setiap 2 minggu sekali, yaitu pada 2 minggu pertama dan 2 minggu terakhir setiap bulan.

Progress dan plan dibuat dalam bentuk checklist beserta Github Issue untuk setiap goals.

Goals yang sudah tercapai akan terlihat sebagai checklist yang dicentang. Goals yang tidak tercapai akan dilimpahkan pada periode selanjutnya namun tidak dihapus pada periode sebelumnya dan tetap mereferensi pada Github Issue yang sama.

01-14 Februari 2021

  • Mencari dataset (#1)
  • Setup postgresql (#4)
  • Buat database dan definisikan relationship (#5)
  • Buat DWH (#6)

15-28 Februari 2021

  • Buat DWH (#6)

01-15 Maret 2021

  • Membuat 5 Business Question (#3)
  • Eksplor pakai metabase utk mencari BQ

16-31 Maret 2021

  • Membuat 5 Business Question (#3)
  • Rancang dan eksekusi ETL dimension table (#8)
  • Metabase map visualization transformation (#10)

01-15 April 2021

  • Menemukan 3 Business Question (#3)
  • Membuat warehouse di metabase utk BQ
  • Setup metabase
  • Konfigurasi GeoJSON Indonesia for visualization

16 - 30 April 2021

  • Redo OLTP database
  • Clean up warehouse ETL on talend
  • Redo warehouse on date_dim
  • Dokumentasikan rancangan warehouse
  • Add time_dim to warehouse
  • Metabase recheck analysis after warehouse redoing
  • Install psycopg2 for Postgres driver (link)
  • Add parent/master category (#13)
  • Apply SCD 2 to Feedback dimension

1-15 Mei 2021

  • Continue ETL of facts

16-31 Mei 2021

  • Redo project planning (#14)

1-15 Juni 2021

  • Menulis analisis untuk Business Question #1 (#15)

16-30 Juni 2021

  • Jumlah seller per provinsi (#15)
  • Pengaruh foto terhadap penjualan produk (#16)
  • Pengaruh voucher terhadap feedback (#17)
  • Pengaruh keterlambatan pengiriman terhadap feedback (#18)
  • Biaya tarif pengiriman per kg pada setiap kota/provinsi (#19)

1-15 Juli 2021

  • Prepare Jupyter environment
  • Created setup.sh for easier environment installation
  • Reinstall all env on remote because of connectivity problem
  • Reinstall all env on local as a backup

16-31 Juli 2021

  • K-Means clustering for MLv1
  • Agglomerative hierarchical clustering for MLv1

01-15 Agustus 2021

  • DBSCAN clustering for MLv1 (Ran into problem not enough memory)
  • SVR, SGD, MLP for sales prediction

16-31 Agustus 2021

  • Hyperparameter tuning for unsupervised model
  • Hyperparameter tuning for supervised model
  • Prepare powerpoint
  • Write blog post
  • Finalize project deliverables