/S4ur0n3ye

Primary LanguageRich Text Format

SauronEye для PDF

Mentor: @shagrath

Описание

Во время пентеста встречается задача, когда нужно осуществить поиск по большому числу документов. В пределах папки. Для офисных документов (.doc, .docx, .xls, .xlsx) утилита, решающая эту задачу, существует. А вот с pdf (и не только) проблема. Которую и нужно решить с помощью утилиты.

Что мы хотим

Необходимо разработать консольную утилиту, которая будет:

  1. Работать для отдельного файла и рекурсивно обходить директории в поисках файлов PDF (поведение управляется параметрами)
  2. В каждом файле PDF она будет осуществлять поиск по ключевым словам (параметр keyword) - одному или нескольким.
  3. Утилита должна поддерживать OCR для pdf со скриншотами и фотографиями (обсуждается с преподавателем).
  4. Результаты должны печататься на экран.
  5. Предлагается оценить, какие ещё форматы данных кроме PDF можно добавить. По возможности реализовать работу с данными форматами.

Критерии оценивания

Корректность работы, удобство использования, время выполнения и затрачиваемые ресурсы.

Ограничения

Кроссплатформенность решения (Windows, Linux, MacOS) и отсутствие зависимостей (статический бинарник).

Examples: ./console -d ../../ -t dropbox --filetype html ./console -t 40 -f ../../Test/damn.rtf --filetype rtf ./console -d ../../ -t вектор --filetype csv ./console -d ../../ -t введение --filetype odt