Требуется написать классификатор текст-не текст. В качестве примеров текстовых объектов можно брать любые горизонтальные слова (или связные области) с картинок из каталога Text.  В качестве примеров нетекстовых объектов можно брать любые слова (или связные области) с картинок из каталога NonText.

Выделенные с изображений с помощью некоторого алгоритма объекты записаны в xml файл рядом с изображением (тег WordFragment). Вместе с объектом хранятся основные растровые признаки , предполагаемые к использованию (ВlackCount, WhiteHolesCount, HorzStrokesCount, VertStrokesCount и MaxHorzStrokeLength), остальные параметры из этого тега (вроде TextQuality) использовать нельзя. В xml также содержится информация о прямоугольнике с исходного изображения.

В качете признаков классификатора использовать разнообразные комбинации из растровых свойств. Желательно, чтобы признаки не зависели от разрешения - были безразмерными. Можно использовать разрешение изображения (НЕ в качестве отдельного признака).
 
От вас требуется:
Составить датасет на основе изображений и сырой xml разметки. Разбить данные на множества для обучения и тестирования.
Обучить классификатор текста. Выбор конкретной модели за вами.
Для полученного классификатора на тестовом датасете построить Precision-Recall и ROC кривые, измерить значения PR-AUC и ROC-AUC.
Произвести анализ ошибок полученного классификатора.

Результаты: код, графики и результаты можно предоставлять в любом виде. Желательный и удобный для всех формат: *.ipynb

Код и результаты присылать на aleksey.zhuravlev@abbyy.com до 23:59 19.05.2018

Максимальная оценка за задание - 2 балла.