Требуется написать классификатор текст-не текст. В качестве примеров текстовых объектов можно брать любые горизонтальные слова (или связные области) с картинок из каталога Text. В качестве примеров нетекстовых объектов можно брать любые слова (или связные области) с картинок из каталога NonText. Выделенные с изображений с помощью некоторого алгоритма объекты записаны в xml файл рядом с изображением (тег WordFragment). Вместе с объектом хранятся основные растровые признаки , предполагаемые к использованию (ВlackCount, WhiteHolesCount, HorzStrokesCount, VertStrokesCount и MaxHorzStrokeLength), остальные параметры из этого тега (вроде TextQuality) использовать нельзя. В xml также содержится информация о прямоугольнике с исходного изображения. В качете признаков классификатора использовать разнообразные комбинации из растровых свойств. Желательно, чтобы признаки не зависели от разрешения - были безразмерными. Можно использовать разрешение изображения (НЕ в качестве отдельного признака). От вас требуется: Составить датасет на основе изображений и сырой xml разметки. Разбить данные на множества для обучения и тестирования. Обучить классификатор текста. Выбор конкретной модели за вами. Для полученного классификатора на тестовом датасете построить Precision-Recall и ROC кривые, измерить значения PR-AUC и ROC-AUC. Произвести анализ ошибок полученного классификатора. Результаты: код, графики и результаты можно предоставлять в любом виде. Желательный и удобный для всех формат: *.ipynb Код и результаты присылать на aleksey.zhuravlev@abbyy.com до 23:59 19.05.2018 Максимальная оценка за задание - 2 балла.