/vkMultiThreadContentParser

Многопоточный парсер фото/текста из публичных страниц вконтакте с сохранением/поддержкой заданий написанный на C++

Primary LanguageC++GNU General Public License v3.0GPL-3.0

vkMultiThreadContentParser

alt text

Многопоточный парсер фото/текста из публичных страниц вконтакте с сохранением/поддержкой заданий написанный на C++

Данный парсер - часть моего закрытого проекта по созданию контента для каналов телеграма и автоматического подбора контента из ВК, который возможно(!) в дальнейшем опубликую под MIT лицензией.

Преимущества:

  • Многопоточность. Тестировалось на 10 потоках в режиме парсинга изображений.

  • Сохранение заданий после завершения работы/перезагрузки сервера. После перезапуска сервера на котором осуществляется парсинг вы можете продолжить парсинг на том месте, на котором остановились, просто перезапустив программу

  • Поддержка стоп слов для того чтобы не парсить рекламный контент.

  • Исключение репостов/удаление HTML тегов

  • Возможность выбора парсинга контента - текст или изображения

Данный парсер запускается из командной строки, файл новых тасков - newtasks.txt, файл со стоп словами - stopwords.txt

Схема файла newtasks.txt из которого генерируются новые таски:

;file.txt;0;50;krasivie_kartin;0 (папка куда идет сохранения);(имя файла куда парсится текстовый контент(если выбрано));Первоначальный offset от последней записи;Необходимое количество контента;короткий адрес публичной страницы;что парсить - 0 это картинки, 1 это текст

В примере ";file.txt;0;50;krasivie_kartin;0" будут парситься 50 изображений начиная с последней записи с паблика vk.com/krasivie_kartin в текущую папку(т.к. первый параметр пустой)

Если вы используете парсинг в отдельную папку её необходимо предварительно создать.

Используемые библиотеки для сборки - pthread, curl. Для сборки воспользуйтесь командой make