Laporan Akhir Kecerdasan Buatan - Kelompok 3

Anggota Kelompok :

  1. Bagas Gumerlar (3.34.21.1.06)
  2. Sefry Syahrudin (3.34.21.1.22)

Judul Proyek: Analisis Data Gaji Pegawai (Salary Data Scientist)

Deskripsi Domain Proyek:

Data salaries merupakan kumpulan data yang berisi informasi tentang gaji pegawai dari berbagai perusahaan. Dataset ini mencakup berbagai atribut yang relevan dengan gaji, seperti kategori pekerjaan, tingkat pengalaman, lokasi tempat tinggal, ukuran perusahaan, tingkat pendidikan, dan lain sebagainya. Data ini dapat diambil dari berbagai sumber, seperti perusahaan atau platform pencarian pekerjaan.

Tujuan Analisis: Tujuan dari analisis data gaji pegawai adalah untuk memahami dan mendapatkan wawasan tentang distribusi gaji pegawai, faktor-faktor yang mempengaruhi tingkat gaji, serta pola dan tren gaji di industri atau lokasi tertentu. Analisis ini bertujuan untuk memberikan informasi yang dapat digunakan oleh perusahaan, pekerja, dan pemerintah untuk mengambil keputusan terkait kebijakan gaji, perencanaan karir, serta pemahaman tentang tingkat kompensasi yang kompetitif.

Informasi yang Dapat Dieksplorasi: Dari dataset Salaries Data Scientis ini, berbagai pertanyaan dan analisis yang dapat dilakukan antara lain:

  1. Distribusi Gaji: Mengetahui distribusi gaji pegawai secara keseluruhan, termasuk median, rata-rata, dan persebarannya.
  2. Gaji Berdasarkan Kategori Pekerjaan: Membandingkan gaji berdasarkan jenis pekerjaan atau posisi untuk mengetahui perbedaan kompensasi antara kategori tersebut.
  3. Gaji Berdasarkan Tingkat Pengalaman: Mengidentifikasi perbedaan gaji antara tingkat pengalaman (Entry-level, Mid-level, Senior-level, Executive).
  4. Pengaruh Lokasi: Membandingkan gaji di berbagai lokasi tempat tinggal atau wilayah untuk mengetahui perbedaan tingkat gaji berdasarkan lokasi.
  5. Gaji Berdasarkan Ukuran Perusahaan: Mengetahui perbedaan gaji di perusahaan dengan ukuran kecil, menengah, dan besar.
  6. Korelasi antara Pendidikan dan Gaji: Meneliti hubungan antara tingkat pendidikan dengan tingkat gaji.

Selain itu, analisis data ini juga dapat digunakan untuk membangun model prediksi gaji berdasarkan atribut-atribut tertentu, seperti kategori pekerjaan, pengalaman, lokasi, dan lainnya.

Business Understanding

Business Understanding dapat dijabarkan sebagai berikut:

  1. Tujuan Bisnis: Analisis data gaji pegawai bertujuan untuk memberikan wawasan tentang distribusi gaji, faktor-faktor yang mempengaruhi tingkat gaji, serta pola dan tren gaji di industri atau lokasi tertentu. Tujuan ini dapat membantu perusahaan dalam pengambilan keputusan terkait kebijakan gaji, perencanaan karir, dan penilaian tingkat kompensasi yang kompetitif.

  2. Permasalahan Bisnis: Perusahaan ingin memahami bagaimana gaji pegawai dipengaruhi oleh berbagai faktor seperti posisi pekerjaan, tingkat pengalaman, lokasi tempat tinggal, dan ukuran perusahaan. Mereka juga ingin mengetahui perbedaan gaji antara kategori pekerjaan dan lokasi tertentu.

  3. Kontribusi Data: Data salaries menyediakan informasi tentang gaji pegawai dari berbagai perusahaan dengan atribut-atribut seperti kategori pekerjaan, tingkat pengalaman, lokasi tempat tinggal, dan ukuran perusahaan. Data ini dapat digunakan untuk menganalisis dan memahami distribusi gaji serta keterkaitan dengan atribut-atribut tersebut.

  4. Pertanyaan Bisnis: Analis data dapat mencari jawaban atas beberapa pertanyaan bisnis, seperti:

  • Bagaimana distribusi gaji pegawai di perusahaan tersebut?
  • Bagaimana perbandingan gaji antara posisi pekerjaan?
  • Apakah ada korelasi antara pengalaman kerja dengan tingkat gaji?
  • Bagaimana gaji pegawai berbeda di lokasi tempat tinggal yang berbeda?
  • Apakah ada perbedaan gaji antara perusahaan kecil, menengah, dan besar?
  • Bagaimana tingkat pendidikan mempengaruhi tingkat gaji?
  1. Hasil yang Diharapkan: Hasil dari analisis data ini berupa wawasan yang mendalam tentang pola dan tren gaji, serta faktor-faktor yang mempengaruhi besaran gaji pegawai. Hasil ini akan membantu perusahaan dalam pengambilan keputusan strategis terkait pengelolaan sumber daya manusia, kebijakan gaji, dan pengembangan karir pegawai.

Problem Statements

Dalam konteks data salaries, berikut adalah beberapa pernyataan masalah:

  1. Bagaimana pola distribusi gaji pegawai di perusahaan ini? Apakah ada ketimpangan gaji yang signifikan?

  2. Apakah terdapat perbedaan gaji yang signifikan antara kategori pekerjaan (Entry-level, Mid-level, Senior-level, Executive)?

  3. Bagaimana pengaruh tingkat pengalaman kerja terhadap tingkat gaji pegawai? Apakah ada kecenderungan kenaikan gaji seiring bertambahnya pengalaman?

  4. Bagaimana gaji pegawai berbeda di berbagai lokasi tempat tinggal atau wilayah? Apakah faktor lokasi mempengaruhi besaran gaji?

  5. Apakah ada perbedaan gaji antara perusahaan dengan ukuran kecil, menengah, dan besar?

  6. Bagaimana tingkat pendidikan mempengaruhi tingkat gaji? Apakah gelar pendidikan tertentu berdampak pada kenaikan gaji?

  7. Bagaimana tingkat keterlibatan remote (remote ratio) mempengaruhi besaran gaji?

  8. Dapatkah kita membangun model prediksi gaji berdasarkan atribut-atribut tertentu, seperti kategori pekerjaan, tingkat pengalaman, lokasi, dan lainnya?

  9. Bagaimana profil gaji pegawai di industri ini dibandingkan dengan industri lain?

  10. Apakah ada tren peningkatan atau penurunan gaji pegawai dari tahun ke tahun?

Goals

Goals atau tujuan dari analisis data salaries adalah sebagai berikut:

  1. Memahami Distribusi Gaji: Tujuan utama adalah untuk memahami distribusi gaji pegawai dari berbagai perusahaan. Hal ini mencakup mengetahui median, rata-rata, serta persebaran gaji untuk mendapatkan gambaran umum tentang besaran gaji yang diterima oleh pegawai.

  2. Identifikasi Faktor-Faktor Pengaruh: Menganalisis hubungan antara gaji pegawai dengan faktor-faktor seperti kategori pekerjaan, tingkat pengalaman, lokasi tempat tinggal, ukuran perusahaan, dan tingkat pendidikan. Tujuan ini bertujuan untuk mengidentifikasi faktor-faktor yang mempengaruhi besaran gaji dan mengetahui apakah ada perbedaan gaji antara kelompok-kelompok tersebut.

  3. Analisis Gaji Berdasarkan Pengalaman: Mengetahui pola gaji berdasarkan tingkat pengalaman kerja, apakah gaji cenderung meningkat seiring bertambahnya pengalaman.

  4. Perbandingan Gaji Antar Kelompok: Membandingkan gaji antara kategori pekerjaan, lokasi tempat tinggal, dan ukuran perusahaan untuk mengetahui perbedaan besaran gaji antara kelompok-kelompok tersebut.

  5. Prediksi Gaji: Membangun model prediksi gaji berdasarkan atribut-atribut tertentu, seperti kategori pekerjaan, tingkat pengalaman, lokasi, dan lainnya. Tujuan ini memungkinkan untuk meramalkan gaji pegawai berdasarkan atribut-atribut tersebut.

  6. Penyusunan Kebijakan Gaji: Memberikan wawasan yang relevan bagi perusahaan dalam pengambilan keputusan terkait kebijakan gaji dan pengelolaan sumber daya manusia.

  7. Analisis Tren Gaji: Menganalisis tren kenaikan atau penurunan gaji pegawai dari tahun ke tahun untuk mendapatkan pemahaman tentang perubahan di industri atau lokasi tertentu.

  8. Evaluasi Kompensasi: Menilai tingkat kompensasi yang diberikan perusahaan terhadap pegawainya dengan membandingkan gaji dengan atribut-atribut tertentu.

Solution Statements

Solusi yang diajukan untuk menyelesaikan masalah yang telah diuraikan adalah sebagai berikut.

  1. Analisis Distribusi Gaji: Akan digunakan visualisasi data seperti histogram atau distplot untuk memahami distribusi gaji pegawai. Selain itu, akan dihitung nilai rata-rata dan median gaji untuk mendapatkan gambaran keseluruhan tentang besaran gaji yang diterima oleh pegawai.

  2. Analisis Pengaruh Faktor-Faktor: Akan digunakan analisis korelasi atau regresi untuk mengidentifikasi hubungan antara gaji pegawai dengan faktor-faktor seperti kategori pekerjaan, tingkat pengalaman, lokasi tempat tinggal, ukuran perusahaan, dan tingkat pendidikan.

  3. Analisis Gaji Berdasarkan Pengalaman: Akan digunakan visualisasi data seperti boxplot atau line plot untuk melihat pola gaji berdasarkan tingkat pengalaman kerja, serta melakukan uji perbedaan mean untuk mengidentifikasi perbedaan signifikan antara kelompok tingkat pengalaman.

  4. Analisis Perbandingan Gaji Antar Kelompok: Akan dibuat visualisasi data seperti bar plot untuk membandingkan gaji antara kategori pekerjaan, lokasi tempat tinggal, dan ukuran perusahaan.

  5. Pengembangan Model Prediksi Gaji: Akan menggunakan algoritma machine learning seperti regresi linier atau regresi logistik untuk membangun model prediksi gaji berdasarkan atribut-atribut tertentu, seperti kategori pekerjaan, tingkat pengalaman, lokasi, dan lainnya.

  6. Evaluasi Kebijakan Gaji: Akan dilakukan analisis perbandingan antara gaji aktual dengan nilai prediksi dari model untuk mengevaluasi tingkat kompensasi yang diberikan perusahaan.

  7. Analisis Tren Gaji: Akan digunakan analisis time series untuk melihat tren kenaikan atau penurunan gaji pegawai dari tahun ke tahun.

  8. Rekomendasi Kebijakan Gaji: Berdasarkan hasil analisis, akan dihasilkan rekomendasi kebijakan gaji yang relevan untuk perusahaan, seperti penyesuaian kebijakan gaji berdasarkan tingkat pengalaman atau kategori pekerjaan tertentu.

Data Understanding

Dalam konteks data salaries, langkah-langkah dalam tahap Data Understanding dapat mencakup hal-hal berikut:

  1. Memeriksa dan Menilai Data: Analis akan membaca dataset gaji pegawai dari file CSV atau sumber data lainnya. Selanjutnya, analis akan mengeksplorasi struktur data dan melihat informasi umum tentang dataset, seperti jumlah baris dan kolom, tipe data, dan statistik ringkas.

  2. Menyaring dan Membersihkan Data: Analis akan memeriksa data untuk mengidentifikasi missing values, outlier, atau noise yang mungkin mempengaruhi kualitas analisis. Data yang tidak relevan atau tidak diperlukan dapat disaring atau dihapus untuk mengoptimalkan analisis.

  3. Mengeksplorasi Distribusi Gaji: Analis akan melakukan visualisasi data untuk melihat distribusi gaji pegawai. Ini dapat dilakukan menggunakan histogram, box plot, atau distplot untuk mendapatkan gambaran tentang sebaran gaji pegawai.

  4. Menilai Kualitas Data: Analis akan menilai kualitas data untuk memastikan bahwa data tersebut dapat diandalkan dan valid. Hal ini mencakup memeriksa konsistensi dan integritas data serta mengevaluasi apakah data tersebut mencerminkan realitas dalam bisnis.

  5. Mengeksplorasi Hubungan antara Variabel: Analis akan menganalisis korelasi antara variabel, seperti hubungan antara gaji dengan tingkat pengalaman atau kategori pekerjaan. Hal ini akan membantu dalam memahami faktor-faktor yang mempengaruhi gaji pegawai.

  6. Mengidentifikasi Potensi Tantangan atau Batasan: Analis akan mengidentifikasi potensi tantangan atau batasan yang mungkin dihadapi dalam analisis data, seperti jumlah sampel yang terbatas atau keterbatasan dalam atribut data yang ada.

  7. Menggabungkan Data (Opsional): Jika diperlukan, analis dapat menggabungkan data salaries dengan data lain untuk memperkaya analisis, misalnya data lokasi atau data perusahaan.

Pada dataset, terdapat 4 fitur numerikal dan 7 fitur kategorikal. work_year salary salary_in_usd remote_ratio count 3755.000000 3.755000e+03 3755.000000 3755.000000 mean 2022.373635 1.906956e+05 137570.389880 46.271638 std 0.691448 6.716765e+05 63055.625278 48.589050 min 2020.000000 6.000000e+03 5132.000000 0.000000 25% 2022.000000 1.000000e+05 95000.000000 0.000000 50% 2022.000000 1.380000e+05 135000.000000 0.000000 75% 2023.000000 1.800000e+05 175000.000000 100.000000 max 2023.000000 3.040000e+07 450000.000000 100.000000

image

Data Preparation

Teknik data preparation yang dilakukan pada proyek ini adalah sebagai berikut :

  1. Feature Selection : Melakukan seleksi fitur untuk menyeleksi kolom yang berperan sebagai data fitur dan kolom yang menjadi data label.

  2. Data Splitting: Membagi dataset menjadi data latih dan data uji. Pada proyek ini perbandingan data latih dan data uji adalah 85 : 15.

  3. Menampilkan informasi jumlah data latih dan data uji. Jumlah data latih adalah 3004, sedangkan data uji terdat 751 data.jumlah data fitur yang dipakai untuk pelatihan adalah 1.

Modelling

Modeling menggunakan Random Forest adalah salah satu metode Machine Learning yang dapat digunakan untuk melakukan prediksi berdasarkan data yang telah dipahami pada tahap Data Understanding. Random Forest adalah jenis algoritma ensemble yang menggabungkan banyak pohon keputusan (decision tree) untuk menghasilkan prediksi akhir yang lebih akurat dan stabil.

Kekurangan dan kelebihan Random Forest dalam mengatasi data gaji pada proyek ini adalah sebagai berikut:

Kelebihan Random Forest:

  1. Tidak Sensitif terhadap Outliers: Random Forest dapat mengatasi pengaruh outliers dalam data karena algoritma ini mengambil keputusan berdasarkan mayoritas dari banyak pohon keputusan. Outliers tidak akan memiliki pengaruh besar terhadap hasil akhir.

  2. Mampu Menangani Data Non-Lineer: Random Forest dapat dengan baik menangani data yang memiliki hubungan non-linear antara atribut dan target. Hal ini karena algoritma ini membagi data ke dalam banyak pohon keputusan yang dapat menangani hubungan non-linear secara lebih baik daripada model linear.

  3. Pengurangan Overfitting: Dengan menggunakan teknik ensemble learning, Random Forest dapat mengurangi overfitting (penyesuaian berlebihan) yang sering terjadi pada pohon keputusan tunggal. Ini karena Random Forest menggunakan rata-rata dari banyak pohon untuk menghasilkan prediksi akhir, sehingga mengurangi risiko overfitting.

  4. Stabilitas dan Konsistensi: Random Forest memiliki tingkat stabilitas dan konsistensi yang tinggi dalam menghasilkan prediksi. Hal ini karena model ini tidak terlalu dipengaruhi oleh perubahan kecil dalam data pelatihan dan cenderung memberikan hasil yang konsisten.

Kekurangan Random Forest:

  1. Interpretasi yang Sulit: Meskipun Random Forest memberikan hasil yang baik dalam prediksi, interpretasi modelnya cenderung sulit karena kompleksitasnya. Karena menggunakan banyak pohon keputusan, sulit untuk mengetahui kontribusi masing-masing fitur terhadap prediksi akhir.

  2. Waktu Pelatihan yang Lama: Proses pembangunan banyak pohon keputusan dalam Random Forest dapat memakan waktu yang lama, terutama jika datasetnya besar dan jumlah pohon yang digunakan cukup besar.

  3. Tidak Cocok untuk Data Berkarakteristik Tinggi: Jika dataset memiliki jumlah fitur yang sangat besar atau fitur yang banyak berkarakteristik, Random Forest mungkin tidak menjadi pilihan yang baik karena dapat menyebabkan peningkatan waktu pelatihan dan penggunaan memori yang signifikan.

  4. Kemungkinan Overfitting pada Data yang Terlalu Kecil: Pada dataset yang sangat kecil, ada kemungkinan bahwa Random Forest akan mengalami overfitting karena kompleksitas model yang tinggi dan jumlah pohon yang cukup besar.

Penting untuk mempertimbangkan kelebihan dan kekurangan dari algoritma Random Forest ini sebelum memutuskan untuk menggunakannya pada proyek analisis gaji dan membangun model prediksi gaji. Jika data yang digunakan cocok dengan karakteristik dan kelebihan Random Forest, algoritma ini dapat memberikan hasil prediksi yang baik dan dapat diandalkan.

Evaluation

Model yang digunakan adalah model regressi, sesuai penjelasan diatas saya akan menggunakan beberapa metric untuk evaluasi, berikut adalah list nya:

  • Mean Squared Error (MSE)
  • Root Mean Squared Error (RMSE)
  • R2

MSE (Mean Squared Error)

MSE adalah metrik yang mengukur rata-rata dari kuadrat selisih antara nilai prediksi dan nilai sebenarnya pada data uji. Semakin kecil nilai MSE, semakin baik performa model. MSE dapat digunakan untuk menilai seberapa akurat model dalam memprediksi gaji berdasarkan atribut-atribut tertentu

Nilai MSE yang rendah menunjukkan bahwa model memiliki akurasi yang baik dalam memprediksi gaji karyawan berdasarkan atribut-atribut tertentu. Hal ini menunjukkan bahwa model berhasil mengurangi selisih antara nilai prediksi dan nilai sebenarnya pada data uji.

mse = $1 \over n$ $\sum_{n=0}^n $ $(y_i - ŷ_i) ^ 2 $

Diketahui:

  • n = Jumlah Data
  • yi = Actual Value / Nilai Sebenarnya
  • ŷi = Predicted Value / Nilai Prediksi

R-squared (R2):

R-squared adalah metrik yang mengukur seberapa baik model kita cocok dengan data. Nilai R2 berkisar antara 0 hingga 1, di mana nilai 1 menunjukkan bahwa model sepenuhnya cocok dengan data dan nilai 0 menunjukkan bahwa model tidak memiliki kemampuan untuk menjelaskan variasi dalam data. Semakin mendekati 1, semakin baik performa model.

Kelebihannya yaitu Nilai R2 yang tinggi menunjukkan bahwa model kita cocok dengan data dengan baik, sehingga model ini mampu menjelaskan variasi yang signifikan dalam data.

Kekurangan dari kedua evaluasi tersebut:

Evaluasi yang diberikan tidak memberikan informasi tentang bagaimana model berperforma dalam memprediksi gaji untuk setiap kelas atau grup dalam atribut-atribut tertentu. Misalnya, bagaimana model memprediksi gaji untuk karyawan dengan tingkat pendidikan tertentu atau berdasarkan ukuran perusahaan. Evaluasi yang lebih rinci dapat membantu dalam mengevaluasi performa model untuk setiap kelompok secara terpisah.

Evaluasi ini hanya mencakup model yang menggunakan hyperparameter terbaik dari GridSearchCV, namun belum memberikan informasi tentang model lain yang mungkin juga memberikan performa yang baik. Melihat perbandingan performa beberapa model lain dapat membantu memastikan bahwa model terbaik telah dipilih.

Selain MSE dan R2, ada banyak metrik evaluasi lain yang dapat digunakan untuk menilai performa model, seperti Mean Absolute Error (MAE), Root Mean Squared Error (RMSE), dan sebagainya. Evaluasi yang lebih komprehensif dapat memberikan gambaran yang lebih lengkap tentang performa model.

Data evaluasi hanya mencakup hasil dari model tanpa memberikan interpretasi atau analisis lebih lanjut tentang faktor-faktor apa yang berkontribusi pada prediksi gaji yang baik atau buruk. Analisis lebih lanjut tentang pentingnya fitur-fitur tertentu dalam model dapat membantu memberikan wawasan yang lebih mendalam tentang hubungan antara atribut-atribut dan gaji karyawan.

image

Final Report

Final Report: Analisis Gaji Karyawan menggunakan Random Forest

  1. Business Understanding: Tujuan dari proyek ini adalah untuk menganalisis data gaji karyawan dan membangun model prediksi yang akurat untuk memperkirakan gaji karyawan berdasarkan atribut-atribut tertentu seperti tingkat pendidikan, pengalaman kerja, dan ukuran perusahaan. Dengan memahami hubungan antara atribut dan gaji, perusahaan dapat membuat keputusan yang lebih baik terkait kebijakan penggajian dan manajemen sumber daya manusia.

  2. Data Understanding: Dataset yang digunakan berisi informasi tentang gaji karyawan beserta atribut-atribut lain seperti tingkat pendidikan, pengalaman kerja, ukuran perusahaan, dan lain-lain. Data ini dikumpulkan dari berbagai karyawan dalam berbagai industri dan lokasi. Data ini akan digunakan untuk melatih dan menguji model Random Forest untuk melakukan prediksi gaji.

  3. Data Preparation: Data harus dipreparasi dengan melakukan pemrosesan dan pembersihan data seperti mengatasi missing values, mengkonversi data kategorikal menjadi numerik, dan melakukan normalisasi jika diperlukan. Selain itu, data juga harus dibagi menjadi data latih dan data uji untuk pelatihan dan evaluasi model.

  4. Modeling: Model yang digunakan dalam proyek ini adalah Random Forest Regression. Model ini dipilih karena mampu menangani data non-linear, tidak sensitif terhadap outliers, dan mampu mengurangi overfitting. Hyperparameter tuning dilakukan menggunakan GridSearchCV untuk mendapatkan hyperparameter terbaik yang memberikan performa optimal.

  5. Evaluation: Evaluasi dilakukan dengan menggunakan beberapa metrik seperti Mean Squared Error (MSE) dan R-squared (R2). MSE digunakan untuk mengukur rata-rata dari kuadrat selisih antara nilai prediksi dan nilai sebenarnya pada data uji, sementara R2 digunakan untuk mengukur seberapa baik model cocok dengan data. Dengan nilai MSE yang rendah dan nilai R2 yang tinggi, model Random Forest terbukti mampu melakukan prediksi gaji dengan baik.

  6. Solution Statement: Model Random Forest yang telah dituning dengan hyperparameter terbaik dapat digunakan untuk memprediksi gaji karyawan berdasarkan atribut-atribut tertentu dengan akurasi yang baik. Model ini dapat digunakan oleh perusahaan untuk membuat estimasi gaji calon karyawan baru, membandingkan gaji karyawan dengan standar industri, dan mengoptimalkan kebijakan penggajian.

  7. Conclusion: Melalui analisis ini, telah berhasil membangun model Random Forest yang dapat memprediksi gaji karyawan dengan akurasi yang tinggi. Model ini memberikan wawasan yang berharga tentang bagaimana atribut-atribut tertentu berkontribusi terhadap gaji karyawan. Penggunaan model ini dapat membantu perusahaan dalam mengambil keputusan yang lebih baik terkait kebijakan penggajian dan manajemen sumber daya manusia.

  8. Recommendations:

    • Melakukan analisis lebih lanjut terhadap pentingnya setiap atribut dalam model untuk memahami faktor-faktor yang berpengaruh terhadap gaji karyawan.
    • Meningkatkan data yang digunakan dengan mengumpulkan lebih banyak sampel atau atribut yang relevan untuk meningkatkan performa dan generalisasi model.
    • Melakukan monitoring dan evaluasi secara berkala terhadap model untuk memastikan bahwa model tetap akurat dan relevan seiring perubahan dalam organisasi atau lingkungan bisnis.

Dengan adanya laporan ini, diharapkan perusahaan dapat menggunakan model Random Forest untuk melakukan prediksi gaji karyawan secara efektif dan membuat keputusan yang lebih baik terkait kebijakan penggajian. Selain itu, laporan ini juga dapat menjadi dasar untuk pengembangan analisis lebih lanjut dalam bidang manajemen sumber daya manusia dan analisis data gaji.

Referensi

[1] Mohamad Masyantie et all, "Predicting Employees’ Turnover in IT Industry using Classification Method with Feature Selection," 2021, doi: [10.1109/IC2SE52832.2021.9792036] (https://ieeexplore.ieee.org/document/9792036/metrics#metrics)

[2] Jinwei Li, Jifei Cai, and Yongbin Zhang "Research on salary level analysis of printing-related jobs based on random forest", Proc. SPIE 12456, International Conference on Artificial Intelligence and Intelligent Information Processing (AIIIP 2022), 124561E (30 November 2022); https://doi.org/10.1117/12.2659678

[3] Putri Taqwa Prasetyaningrum, Irfan Pratama, Albert Yakobus Chandra "Implementation Of Machine Learning To Determine The Best Employees Using Random Forest Method", 2021, Available at : https://semanticscholar.org/paper/7295a6fd9247720cd2dbf287bcab2388d8e05fcc

[4] Xiang Gao, Junhao Wen, Cheng Zhang, "An Improved Random Forest Algorithm for Predicting Employee Turnover", 2019, Available at : https://doi.org/10.1155/2019/4140707