در پزشکی، TPA مخفف Tissue Plasminogen Activator است. این یک پروتئینی است که نقش مهمی در تجزیه لخته های خون دارد. در زمینه پزشکی، TPA به عنوان دارویی برای درمان برخی بیماریها که در اثر لخته شدن خون ایجاد میشوند، استفاده میشود. TPA می تواند به حل شدن لخته و بازگرداندن جریان خون کمک کند و میزان آسیب مغزی را کاهش دهد. در این پروژه، اطلاعات جمع آوری شده در اورژانس یکی از بیمارستانهای تهران را بررسی کردهایم. چالش اصلی در این بررسی، پاک کردن دادههای کثیف است. متاسفانه به علت عدم آشنایی بسیاری از افراد در ثبت درست اطلاعات و بی اطلاعی آنها از ارزش دادهها باعث شده است با میزان بسیار زیادی از داده های گمشده و یا داده های پرت روبرو باشیم. مرحله اول پاکسازی داده، بررسی دادههای پرت و چگونگی توزیع دادهها میباشد. در مرحله بعدی استفاده از تکنیکهای کاهش ابعاد و یا انتخاب فیچرها مورد بررسی قرار گرفته است. علت این امر تعداد بسیار زیاد فیچر میباشد که در بسیاری مواد نه تنها به یادگیری مدل کمکی نمیکند بلکه ممکن است موجب کاهش شاخصهای ارزیابی نیز گردد. در این پروژه علاوه بر feature selection از PCA نیز استفاده شده و خروجیهای ارزیابی با یکدیگر مقایسه گردیدهاند. برای اطمینان از انتخاب شاخصهای مناسب از سه مدل XGBoost, Random forest و Decision tree استفاده شده است. برای اطمینان از تعداد فیچرهای خروجی مناسب در PCA نیز میزان حداقل واریانس از دست رفته مورد بررسی قرار گرفته است. در مرحله مدل سازی از سه مدل یادگیرنده XGBoost, Random forest و Decision tree استفاده شده است. در تمامی مدلها جهت جلوگیری از Overfitting از تکنیک Kfold استفاده شده است. در نهایت برای ارزیابی قدرت پیشبینی مدلها علاوه بر شاخص accuracy از دو شاخص قدرتمند دیگر ROC و Recall vs. Precision نیز استفاده شده است. تمامی کدهای برنامه در Google colab اجرا شده است. همچنین کدهای برنامه به همراه خروجی های آن در آدرس گیت هاب زیر قرار دارد.