text-frequency-analysis

Приложение позволяет выявить самые часто встречающиеся в тексте слова и визуализировать результат.

  • Консольное приложение.
  • Генерирует файл в формате PNG на основе наиболее часто встречающихся в тексте слов.
  • Пользователь может указать путь к файлу в формате .txt или .zip.
  • Для тестирования приложения в папке files есть 2 файла.
  • Пользователь может изменить список слов, которые будут исключены из изображения.
  • Пользователь может изменить максимальное количество слов, которое будет использовано при генерации изображения.

Установка

Для установки зависимостей проекта необходимо выполнить pip install -r requirements.txt

Структура проекта

  • files - содержит файлы для тестирования приложения
    • capital.zip - К.Маркс "Капитал" 1 том
    • finansist.zip - Т.Драйзер "Финансист"
  • text_analysis - содержит .py файлы
    • file - функции по работе с файлом: проверка расширения, поиск файла, извлечение из архива, чтение.
    • user_settings - пользовательские настройки приложения: обновление списка исключений, максимального количества слов при генерации изображения
    • word_cloud - частотный анализ текста и визуализация результата: токенизация, лемматизация текста, создание изображение в формате PNG
  • main - взаимодействие с пользователем, вызов функций