Submission 2: ML Pipeline - AIDS Virus Infection Prediction

Nama: Hairul Yasin

Username dicoding: hairulyasinn

Deskripsi
Dataset AIDS Virus Infection Prediction
Masalah Infeksi Virus AIDS (HIV/AIDS) adalah salah satu penyakit kronis paling mematikan di dunia. Hingga kini, belum ada obat yang dapat menyembuhkan HIV/AIDS sepenuhnya, sehingga pencegahan adalah kunci utama dalam mengendalikan penyebarannya. Analisis data yang komprehensif dari berbagai faktor risiko, seperti riwayat seksual, penggunaan narkoba, dan kondisi kesehatan, dapat membantu dalam: Mengidentifikasi individu yang berisiko tinggi tertular HIV/AIDS, membangun model prediksi untuk penyebaran HIV/AIDS, dan merancang strategi intervensi pencegahan yang tepat.
Solusi machine learning Machine learning dapat menjadi salah satu solusi untuk mengatasi masalah prediksi infeksi HIV/AIDS. Dengan menggunakan algoritma machine learning, model prediksi dapat dikembangkan untuk mengidentifikasi individu yang berisiko tinggi tertular HIV/AIDS berdasarkan berbagai faktor risiko.
Metode pengolahan Dataset dibagi menjadi data pelatihan dan evaluasi dengan rasio 8:2. Dataset ini terdiri dari data kategorikal dan numerikal. Data kategorikal diubah menjadi one-hot encoding, sementara data numerikal dinormalisasi ke dalam rentang 0-1.
Arsitektur model Arsitektur model yang digunakan terdiri dari layer Dense yang memiliki jumlah hidden layer sebanyak N (akan dilakukan tuning terhadap jumlah hidden layer), layer Dropout dengan rate 0.25, dan Output layer dengan aktivasi sigmoid. Optimizer yang digunakan adalah Adam dengan loss function BinaryCrossentropy
Metrik evaluasi Metrik evaluasi yang digunakan yaitu Example Count, AUC, False Positives, True Positives, False Negatives, True Negatives, dan Binary Accuracy
Performa model Model memiliki nilai Binary Accuracy sebesar 70%. Nilai False Negative, False Positive, True Negative, dan True Positive masing-masing adalah 743, 176, 1954, dan 188 dari total 3061 contoh data. Dengan Example Count sebesar 3061, hasil evaluasi ini cukup representatif dan dapat diandalkan. Selain itu, nilai AUC yang diperoleh adalah 0.78, yang menunjukkan model memiliki kemampuan yang cukup baik dalam membedakan antara kelas positif dan negatif. Meskipun performa model ini belum optimal, hasil ini sudah cukup memadai. Namun, performa model dapat ditingkatkan dengan preprocessing yang lebih mendalam, seperti menangani missing values dan membuang outliers.
Opsi deployment Proyek machine learning ini dideploy menggunakan salah satu platform as a service (PaaS) yaitu Railway yang menyediakan layanan gratis untuk mendeploy sebuah proyek.
Web app AIDS Prediction
Monitoring Sistem ini memanfaatkan Prometheus dan Grafana untuk memantau kinerjanya. Fungsi monitoring terfokus pada pelacakan request yang masuk ke sistem, menampilkan status dari setiap request. Terdapat tiga status yang ditampilkan: Not Found, Invalid Argument, dan OK.