- scrapy
- selenium (phantom.js)
- redis
- rq
- unix계열 /var/log/ 아래에 생성 로그정보가 없을시 6시간정도의 데이터를 크롤링
- RQPipeline : rq서버로 crawling한 item을 전달 (rq서버에서 데이터 저장 담당)
- JsonPipeline : 각 크롤러의 프로젝트 폴더 아래에 crawling한 data를 json 파일로 저장 (test용)
- spitz_crawler : 오늘의 유머 크롤링
$ scrapy crawl spitz_crawler
- beagle_crawler_bbs : 뽐뿌 자유게시판 크롤링
- beagle_crawler_etc_info : 뽐뿌 생활정보 게시판 크롤링
- beagle_crawler_app_info : 뽐뿌 앱정보 게시판 크롤링
- beagle_crawler_ppomppu : 뽐뿌 뽐뿌게시판 크롤링
$ scrapy crawl beagle_crawler_bbs
$ scrapy crawl beagle_crawler_etc_info
$ scrapy crawl beagle_crawler_app_info
$ scrapy crawl beagle_crawler_ppomppu
- poodle_crawler : dcinside 크롤링
$ scrapy crawl poodle_crawler -a gall_id=<갤러리 id>
- dachshund_crawler : 네이버카페 레몬테라스 크롤링
$ scrapy crawl dachshund_crawler
- pointer_crawler : 클리앙 크롤링
$ scrapy crawl pointer_crawler
- 현재 테스트중이므로 Json파일로만 저장됩니다.
- retriever_crawler : 루리웹 크롤링
$ scrapy crawl retriever_crawler -a board_id=<게시판 id>
- 현재 테스트중이므로 Json파일로만 저장됩니다.
- processing_start : 데이터 프로세싱을 위한 스케쥴링 명령 전달
$ scrapy crawl process_start -a cycle=<사이클 넘버> -a is_first=<True or False>