Worker of Distributed Web Crawler and Data Management System for Web Data

Tech Stack

Create workflows for crawling.
Crawl and Parse product data in distributed environment (Master / Worker model).
Upload / Update crawled data in the database incrementaly (View maintenance in Database).
Upload / Update crawled data to target sites (View maintenance in target sites).
Register schedule for crawling and view maintenance.

Provide all services through GUI.
- git repository link: https://github.com/SML0127/pse-extension
Easyly create workflow for crawling (no code, script).
For crawling in distributed environment, we chose Breadth-First-Search Crawling Model and Redis & RQ as a Message Broker.
For Breadth-First-Search Crawling Model, we created several operators for crawling.
Docker image for our ubuntu environment
- git repository link for Master: https://github.com/SML0127/pse-master-Dockerfile
- git repository link for Worker: https://github.com/SML0127/pse-worker-Dockerfile