Тестовое задание ML в PT описание
исходный датасет и промежуточные файлы (скрыты в .gitignore)
0.1.feature_transform.ipynb - основной ноутбук исследования и преобразования фичей ✅
0.2.alternative_feature_transform.ipynb - альтернативный вариант преобразования категориальных фичей (в разработке ⌛)
1.0.select_num_clusters.ipynb - графики подбора оптимального количества кластеров ✅
2.1.make_clusters.ipynb - основной ноутбук с различными алгоритмами кластеризации ✅
2.2.pycaret.ipynb - дополнительный ноутбук с различными алгоритмами кластеризации (в разработке ⌛)
preprocessiing.py dbscan.py - скрипты для инференса на данных, которые лежат в data/part_10.csv (название захардкожено). Результаты сохраняются в data/result.csv.
log.py - для сохранения логов в src/make_cluster/logs/update.logs
environment.yml - зависимости проекта, для установки из корня проекта:
conda env create -f /src/make_cluster/environment.yml
Для того, чтобы запустить инференс в докер контейнере:
docker run make-cluster:1.0.0