/pca-kaggle

Code for my Master's thesis with use of docker and python

Primary LanguageJupyter NotebookGNU General Public License v3.0GPL-3.0

pca-kaggle

Kod źródłowy pracy magisterskiej pt. "Wykorzystanie pandas oraz scikit do analizy cech w uczeniu maszynowym".

Żeby zbudować obraz dockera należy użyć komendy:

make build

W celu uruchomienia konetera należy wpisać w konsoli:

make run

Kod rozwiązuje skończone już wyzwanie Kaggle Two Sigma Financial Modeling Challenge.

Po zbudowaniu i uruchomieniu Jupyter zawiera wewnątrz 5 plików:

  • pca.py - implementacja metody analizy składowych głównych,
  • kagglegym.py - skrypt imitujący api kaggle'owe,
  • data_analysis.ipynb - zeszyt z analizą danych i rozwiązaniem zadania,
  • comparisions.ipynb - zeszyt rozwiązujący zadanie z użyciem różnych technik i podsumowujący je w tabelce,
  • input/train.h5 - plik z zestawem danych.

Do poprawnego pobrania repozytorium niezbędne jest narzędzie git lfs do przechowywania dużych plików. Bez niego nie zostanie pobrany plik train.h5 zawierający zestaw danych. Jeśli podczas uruchamiania zeszytu kernel umiera, oznacza to, że trzeba zwiększyć pamięć dla dockera.