Projekt_Przetwarzanie_Danych

Treść zadania

Na podstawie danych ZTM należy przewidzieć stopień zatłoczenia autobusu wjeżdżającego na przystanek.

Analiza, oprócz wstępnej eksploracji danych, zaprojektowania modelu uczenia i wpływu preprocesingu na wyniki, powinna obejmować następujące kwestie:

  1. Czy lepiej dokonać predykcji dla zadania regresji czy wyrażając poziom zatłoczenia w sposób dyskretny (np. pusty, zatłoczony, b. zatłoczony itp.)?

  2. Czy lepiej stworzyć model globalny dla całego miasta, czy dla pojedynczych lini lub przystanków?

  3. Czy istnieją zewnętrzne źródła danych, które da się wykorzystać dla zwiększenia jakości predykcji?

  • mapa miasta?
  • dane o kolejności przystanków?

Uwagi ogólne:

  • Porównać przynajmniej trzy różne modele
  • Sformułować wnioski aby były zrozumiałe dla eksperta dziedzinowego, który niekoniecznie rozumie uczenie maszynowe, wyjaśnić co wpływa na wynik predykcji.

Plan działania

  1. regresja logistyczna - Ala
  2. klasyfikacja wieloklasowa (SVN) - Patryk
  3. NN - Dodatek
  4. xgboost -

Podział miedzy liniami/kursami - wazny podział na testowy i treningowy Zmapować regresje do katergorii i porównać

dla regresji R kwadrat 3 pytanie to zrozumienie danych, ich odwzorowanie

Las losowy

wrażliwość sensivity

https://towardsdatascience.com/classification-of-unbalanced-datasets-8576e9e366af