Run all spiders by
./runner
Or run single spider
./runner careerbuilder
Để test style/lint chạy:
make lint
Chú ý, máy bạn cần cài sẵn make
.
Để test các spider, chạy:
make test
- Tìm hiểu về Scrapy
- Fork project về tài khoản GitHub của bạn: https://github.com/pymivn/pyjobs_crawlers#fork-destination-box (bấm nút Fork góc trên bên phải).
- Chỉnh sửa các spiders trong spiders/ hoặc thêm spider mới
- Commit, push rồi tạo Pull Request https://github.com/pymivn/pyjobs_crawlers/compare
- Mỗi job phải có tối thiểu 5 thông tin:
['name', 'province', 'url', 'work', 'specialize']
- Code chuẩn Pep8, độ dài mỗi dòng giới hạn là 100 ký tự.
- Python 2 (project được tạo trước khi Scrapy hỗ trợ Python3)
- Xem các spider trong https://github.com/pymivn/pyjobs_crawlers/tree/master/vnw/vnw/spiders
- TODO: fix Vietnamwork crawler
- TopCV: bỏ, quá ít job.
Chạy lệnh sau để cài trên Ubuntu (các hệ điều hành khác sẽ có gói tương tự).
sudo apt-get install -y python-dev libffi-dev
để khỏi gặp lỗi
c/_cffi_backend.c:2:20: fatal error: Python.h: No such file or directory
sudo apt-get install -y libssl-dev
để khỏi gặp lỗi
build/temp.linux-x86_64-2.7/_openssl.c:423:25: fatal error: openssl/aes.h: No such file or directory
compilation terminated.
error: command 'x86_64-linux-gnu-gcc' failed with exit status 1
- Thêm status của các crawler vào web