/crawlers

Some web crawlers.

Primary LanguagePython

POPONG Crawlers

Just some minor web crawlers.

bills

cd bills
cp settings.py.sample settings.py   # Input data directory
python main.py

Attributes

name description type values
`assembly_id` 국회 대수 int
`assembly_meeting_id` 국회 회의 번호 int
`bill_id` 의안 번호 str
`decision_date` 의결 일자 str
`decision_result` 의결 결과 str 대안반영폐기, 부결, 수정가결, 원안가결, 철회, 폐기
`has_summaries` 요약본 유무 int 0: No summary
1: Has summary
`link_id` 링크 번호 str http://likms.assembly.go.kr/bill/jsp/BillDetail.jsp?bill_id=[link_id]
`original_bill_links` 의안원문링크 list(str)
`proposer_type` 제안자 구분 str 위원장, 의원, 의장, 정부, 기타
`proposer_representative` 대표 발의자 str
`proposers` 발의자명단 list(str)
`proposed_date` 제안 일자 str [yy]-[mm]-[dd]
`status` 의안 상태 int 1: 계류의안
2: 처리의안
`status_detail` 심사진행상태 str 공포, 대안반영폐기, 본회의불부의, 본회의의결, 부의가능안건, 소관위심사, 소관위심사보고, 소관위접수, 의안정리, 접수, 정부이송, 철회, 체계자구심사, 체계자구의뢰
`summaries` 요약문 list(str)
`title` 의안명 str
`withdrawers` 철회요구의원 명단 list(str)
## election_commission Get Korean politicians' data from [Korea Election Commission (중앙선거관리위원회)](http://www.nec.go.kr/).
cd election_commission
python main.py

glossary

Get and merge data for POPONG Glossary.

python get.py       # To get source data files
python merge.py     # To create glossary.csv

Sources

google

Get Google search counts.

cd google
python ndocs.py

peoplepower

Get People Power 21 (열려라국회) webpages.

cd peoplepower
scrapy crawl peoplepower21

pledges

Get pledges from NEC (선거관리위원회) for 19th National Assembly officials.

cd pledges
python crawler.py

rokps

Get Korean politicians' data from ROKPS(헌정회).

cd rokps
python crawler.py
python parser.py

wikipedia

Get Korean lastnames from Wikipedia.

cd wikipedia
python wiki_lastnames.py

Get Wikipedia links for assembly members.

cd wikipedia
python assembly_members.py