To jest oficjalne repo dla przedmiotu "Warsztaty Badawcze 2".
Nasz dataset to breast cancer. Zawiera szereg zmiennych dyskretnych, głównie kategorycznych.
Zadanie polega na przewidzeniu wystąpienia raka piersi.
Przetestować:
- gbm
- bart
Porównać z modelem drzewiastym. -bj
Porównać z modelem trenowanym metodą boxa-coxa.
Zwizualizować dane i spróbować dodać nowe zmienne tj. zbudować parametryczny model predykcyjny (uogólniony liniowy). Być może można wspomóc się bibliotekami jak np. Dalex.
Czyszczenie danych - bj. Poprawiłem dane na kilka sposobów. Głównie przekształciłem dane do postaci niekategorycznej gdzie się dało, co znacząco poprawiło jakosć predykcji dla random forest (z ok. 70 do 92). UPDATE teraz wyniki się trochę zmieniły.
Dopasowany został model:
- Random Forest - acc 0.920 old
- lm - acc 0.7545126 old
- svm z jądrem gausowskim - bj