Cyber-attacks detection

Решение представляет собой приложение для обработки сетевых данных, логов и другой информации о текущем и предыдущих соединениях с целью поиска и классификации на 5 основных классов (normal, dos, u2r, r2l, probe).

Data

Наборы данных;
Типы тренировочных атак;
Схема данных набора данных в машино-читаемой форме;
Полный набор данных для обучения;
Набор данных для тестирования.

Решенные задачи

Обнаружить атаки в тестовой выборке и классифицировать их;
Построить статистику по выявленным атакам, процентные соотношения между атаками;
Продемонстрировать работу разработанного модуля на реальных данных.

1. Обнаружение атак в тестовой выборке

Данная задача решается на известном датасете NSL-KDD. Существует большое число работ (включая обзоры), посвященных решению задачи обнаружения кибер-атак на датасетах NSL-KDD и KDD Cup 1999:

Была проведена предварительная обработка данных:

Масштабирование (Z-нормализация);
Преобразование категориальных признаков;
Приведение вектора ответов к 5 классам кибер-атак.

Задача была решена для двух случаев:

Обнаружение кибер-атак (бинарная классификация);
Классификация кибер-атак (многоклассовая классификация).

Также было учтено изменение распределение классов между трейном и тестом.

Задача бинарной классификации

Данную задачу можно интерпретировать как задачу обнаружения кибер-атак. В качестве бейзлайнового алгоритма Машинного обучения используется случайный лес.

Результаты:

Точность на тестовой выборке: 0.8123.
Время выполнения расчета для 22544 строк логов (тестовая выборка): 0:00:00.116.

Задача многоклассовой классификации

Данную задачу можно интерпретировать как задачу распознавания конкретных типов кибер-атак. В качестве бейзлайнового алгоритма Машинного обучения используется случайный лес.

Результаты:

Точность на тестовой выборке: 0.7758.
Время выполнения расчета для 22544 строк логов (тестовая выборка): 0:00:00.115.

2. Задача расчета и визуализации статистики

Задача решается с помощью средств анализа и визуализации данных python. Пример представлен в презентации.

3. Демонстрация работы модуля распознования и классификации кибер-атак

Демонстрация реализована в веб-приложении.

Необходимо загрузить файл из датасета Kyoto University Benchmark Data либо ввести данные вручную.

YKatser/FraudDetection