Mentor: @shagrath
Во время пентеста встречается задача, когда нужно осуществить поиск по большому числу документов. В пределах папки. Для офисных документов (.doc, .docx, .xls, .xlsx) утилита, решающая эту задачу, существует. А вот с pdf (и не только) проблема. Которую и нужно решить с помощью утилиты.
Необходимо разработать консольную утилиту, которая будет:
- Работать для отдельного файла и рекурсивно обходить директории в поисках файлов PDF (поведение управляется параметрами)
- В каждом файле PDF она будет осуществлять поиск по ключевым словам (параметр keyword) - одному или нескольким.
- Утилита должна поддерживать OCR для pdf со скриншотами и фотографиями (обсуждается с преподавателем).
- Результаты должны печататься на экран.
- Предлагается оценить, какие ещё форматы данных кроме PDF можно добавить. По возможности реализовать работу с данными форматами.
Корректность работы, удобство использования, время выполнения и затрачиваемые ресурсы.
Кроссплатформенность решения (Windows, Linux, MacOS) и отсутствие зависимостей (статический бинарник).
Examples: ./console -d ../../ -t dropbox --filetype html ./console -t 40 -f ../../Test/damn.rtf --filetype rtf ./console -d ../../ -t вектор --filetype csv ./console -d ../../ -t введение --filetype odt