text_classifier

  1. Разработать на языке python (версии 3.6 и выше) в среде разработки PyCharm программу, выполняющую:
    1. Загрузку текстовых выборок
    2. Предварительную обработку текстовой информации (удаление стоп-слов, чисел, стемминг и т.п.)
    3. Разбиение выборок на обучающие и тестовые части (80% и 20% от общего числа текстов в выборке, соответственно)
    4. Классификацию текстов из тестовой части выборок двумя методами: метод к-ближайших соседей, метод опорных векторов
    5. Провести сравнение полученных результатов по точности и быстродействию классификации.

Исходные данные: rus1, rus2, rus3.

Пояснения Имеется 15 выборок с названиями и аннотациями статей на английском и русском языке. В выборках статьи распределены по семи классам (англ. статьи) и 5 классам (русск. статьи). Названия классов перечислены в строке, начинающейся со слова «ClNames:», после которого через точку запятую перечислены названия классов. В строке, начинающейся со слова «CLASS:» указан порядковый номер класса статьи из списка названий «ClNames». В строке, начинающейся со слова «Title:» указано название статьи. В строке, начинающейся со слова «Abstract:» начинается аннотация статьи.