シェルスクリプトで書かれた主要省庁と都道府県のWebサイトを収集し分類するシステム。
make wegt
を実行するとかなりのディスク容量を消費します。また、全国の各自治体のサイトに負荷をかけることになるので、基本的には実行をしないようにしてください。
動作確認が必要でデータをクロールしたい場合は、代わりに下記のコマンドを実行してください。
./crawler/wget.sh data/test.csv
sudo apt install make wget jq nginx fcgiwrap squid poppler-utils
cp nginx_config /etc/nginx/site-available/
ln -s /etc/nginx/site-available/nginx_config /etc/nginx/site-enabled/nginx_config
sudo service nginx restart
cp -f squid.conf /etc/squid/
sudo service squid restart
cp .wgetrc ~/
brew install wget jq nginx fcgiwrap squid poppler
$ brew install findutils
$ export PATH="/usr/local/opt/findutils/libexec/gnubin:$PATH"
$ brew install grep
$ export PATH="/usr/local/opt/grep/libexec/gnubin:$PATH"
$ brew install gnu-sed
$ export PATH="/usr/local/opt/gnu-sed/libexec/gnubin:$PATH"
docker-compose build
docker-compose up # add `-d` to run in background
# open http://localhost:8080/
docker-compose exec crawler make publish
docker-compose exec crawler make wget
docker-compose exec crawler bash
開発についての議論などは Code for Japan が運営する Slack Workspace で行っています。
開発に参加したい方は下記の招待リンクから Slack の Workspace に参加いただき、 #covid19-surveyor-dev
チャンネルに参加してください。