Зачетная работа по анализу данных (Вариант #4)
Написать программу для удаления выбросов и удалить выбросы.
- Программа для обработки
- Описание на страницу - как работает, какие результаты
data
- Папка с датасетами
raw
- Папка для файла README.md
exam.ipynb
- Реализация функционала удаление выбросов из датасета
Краткое описание блокнота
- Импорт необходимых библиотек
- Загружает датасет в массив и визуализируем его
- Чтобы увидеть более хошоро, где могут быть выбросы вырезаем линейный тренд
- Визуализируем полученный результат
- Делим датасет на ровные части. В данном примере датасет поделен по 1%
- Ищем среднее крадратичное отклонение и выявляем отклонения для каждой части датасета
- Отделяет отдельно выбросы и датасет без выбросов
- Заносим все в массивы
outliers = [] # Выбросы
outliers_removed = [] # Чистые данные
- Визуализируем полученные результаты
Были попытки найти выборосы кластеризатор DBScan
Чистый датасет |
|
Датасет с отмеченными точками которые попали под выброс |
|
Датасет без выбросов |
|
Датасет с выбросами |
|
Попытка использовать кластеризатор DBScan |
|