text_classifier
- Разработать на языке python (версии 3.6 и выше) в среде разработки PyCharm программу, выполняющую:
- Загрузку текстовых выборок
- Предварительную обработку текстовой информации (удаление стоп-слов, чисел, стемминг и т.п.)
- Разбиение выборок на обучающие и тестовые части (80% и 20% от общего числа текстов в выборке, соответственно)
- Классификацию текстов из тестовой части выборок двумя методами: метод к-ближайших соседей, метод опорных векторов
- Провести сравнение полученных результатов по точности и быстродействию классификации.
Исходные данные: rus1, rus2, rus3.
Пояснения Имеется 15 выборок с названиями и аннотациями статей на английском и русском языке. В выборках статьи распределены по семи классам (англ. статьи) и 5 классам (русск. статьи). Названия классов перечислены в строке, начинающейся со слова «ClNames:», после которого через точку запятую перечислены названия классов. В строке, начинающейся со слова «CLASS:» указан порядковый номер класса статьи из списка названий «ClNames». В строке, начинающейся со слова «Title:» указано название статьи. В строке, начинающейся со слова «Abstract:» начинается аннотация статьи.