/TPA

TPA_project

Primary LanguageJupyter NotebookMIT LicenseMIT

TPA

در پزشکی، TPA مخفف Tissue Plasminogen Activator است. این یک پروتئینی است که نقش مهمی در تجزیه لخته های خون دارد. در زمینه پزشکی، TPA به عنوان دارویی برای درمان برخی بیماری‌ها که در اثر لخته شدن خون ایجاد می‌شوند، استفاده می‌شود. TPA می تواند به حل شدن لخته و بازگرداندن جریان خون کمک کند و میزان آسیب مغزی را کاهش دهد. در این پروژه، اطلاعات جمع آوری شده در اورژانس یکی از بیمارستان‌های تهران را بررسی کرده‌ایم. چالش اصلی در این بررسی، پاک کردن داده‌های کثیف است. متاسفانه به علت عدم آشنایی بسیاری از افراد در ثبت درست اطلاعات و بی اطلاعی آنها از ارزش داده‌ها باعث شده است با میزان بسیار زیادی از داده های گمشده و یا داده های پرت روبرو باشیم. مرحله اول پاکسازی داده، بررسی داده‌های پرت و چگونگی توزیع داده‌ها می‌باشد. در مرحله بعدی استفاده از تکنیک‌های کاهش ابعاد و یا انتخاب فیچرها مورد بررسی قرار گرفته است. علت این امر تعداد بسیار زیاد فیچر می‌باشد که در بسیاری مواد نه تنها به یادگیری مدل کمکی نمی‌کند بلکه ممکن است موجب کاهش شاخص‌های ارزیابی نیز گردد. در این پروژه علاوه بر feature selection از PCA نیز استفاده شده و خروجی‌های ارزیابی با یکدیگر مقایسه گردیده‌اند. برای اطمینان از انتخاب شاخص‌های مناسب از سه مدل XGBoost, Random forest و Decision tree استفاده شده است. برای اطمینان از تعداد فیچرهای خروجی مناسب در PCA نیز میزان حداقل واریانس از دست رفته مورد بررسی قرار گرفته است. در مرحله مدل سازی از سه مدل یادگیرنده XGBoost, Random forest و Decision tree استفاده شده است. در تمامی مدل‌ها جهت جلوگیری از Overfitting از تکنیک Kfold استفاده شده است. در نهایت برای ارزیابی قدرت پیش‌بینی مدل‌ها علاوه بر شاخص accuracy از دو شاخص قدرتمند دیگر ROC و Recall vs. Precision نیز استفاده شده است. تمامی کدهای برنامه در Google colab اجرا شده است. همچنین کدهای برنامه به همراه خروجی های آن در آدرس گیت هاب زیر قرار دارد.