vkMultiThreadContentParser
Многопоточный парсер фото/текста из публичных страниц вконтакте с сохранением/поддержкой заданий написанный на C++
Данный парсер - часть моего закрытого проекта по созданию контента для каналов телеграма и автоматического подбора контента из ВК, который возможно(!) в дальнейшем опубликую под MIT лицензией.
Преимущества:
-
Многопоточность. Тестировалось на 10 потоках в режиме парсинга изображений.
-
Сохранение заданий после завершения работы/перезагрузки сервера. После перезапуска сервера на котором осуществляется парсинг вы можете продолжить парсинг на том месте, на котором остановились, просто перезапустив программу
-
Поддержка стоп слов для того чтобы не парсить рекламный контент.
-
Исключение репостов/удаление HTML тегов
-
Возможность выбора парсинга контента - текст или изображения
Данный парсер запускается из командной строки, файл новых тасков - newtasks.txt, файл со стоп словами - stopwords.txt
Схема файла newtasks.txt из которого генерируются новые таски:
;file.txt;0;50;krasivie_kartin;0 (папка куда идет сохранения);(имя файла куда парсится текстовый контент(если выбрано));Первоначальный offset от последней записи;Необходимое количество контента;короткий адрес публичной страницы;что парсить - 0 это картинки, 1 это текст
В примере ";file.txt;0;50;krasivie_kartin;0" будут парситься 50 изображений начиная с последней записи с паблика vk.com/krasivie_kartin в текущую папку(т.к. первый параметр пустой)
Если вы используете парсинг в отдельную папку её необходимо предварительно создать.
Используемые библиотеки для сборки - pthread, curl. Для сборки воспользуйтесь командой make