Зачетная работа по искусственному интеллекту (Вариант #4)

Задача

Написать программу, которая классифицирует сообщение спам или не спам

Импорт необходимых библиотек и загрузка стоп-слов для библиотеки nltk
Разархивация архива с датасетов сообщений
Просмотр и анализ датасета с помощью библиотеки Pandas
Разбиваем датасет на тестовые (20%) и тренировочные (80%)
Настраивает конвейер Pipeline
1. Преобразуем датасет в матрицу с помощью CountVectorizer с параметром analyzer в которую передан название функции для предварительной обработки текста classifier_bag_words (Мешок слов)
2. Преобразуйте матрицу подсчета в нормализованное представление TF-IDF с помощью TfidfTransformer
3. Уставливаем классификатор наивный байесовский классификатор ComplementNB
Обучаем модель
Прогнозирование значений в тестовом наборе данных для проверки модели
Сохранение моделей с именем finalized_model

Для выхода из режима ввода требуется ввести -1

Accuracy:  97%