2018.12.02更新:
2018.11.30更新:
- 更新
village.csv
文件,按照code
顺序从小到大排列,看起来更方便 - 更新数据总结中的错误
2018.11.10更新:
- 缺失数据补充:Issues #1
详细分析见个人博客:国家统计局统计用区划代码和城乡划分代码---爬虫、详细分析。
这里实现了国家统计用区划代码和城乡划分代码
的爬取。本仓库包含:
- 爬虫完整代码---Urban-and-rural-statistics-spider.py
- 居委会级爬虫代码(因为内存不足,所以这里分段爬取,最后合并csv文件)---Village-Spider-Test.py
- 居委会数据合并代码---合并多个csv文件.py
- 本次设计的详细说明
页面分析
国家统计局的统计用区划代码和城乡划分代码爬取---第一版
问题分析
国家统计局的统计用区划代码和城乡划分代码爬取---最终版
合并多个csv文件代码说明 - 爬取的2016年统计用区划代码和城乡划分代码(截止2016年07月31日)数据
省级数据.csv
市级数据.csv
区级数据.csv
街道数据.csv
居委会数据.csv
统计局网站提供的2016年统计用区划代码和城乡划分代码(截止2016年07月31日)按照:省-市-县-镇-村
这样的层次关系来组织页面。统计局的网站对于爬虫的限制也不多,我只使用一个ip就爬取全部数据,爬取的过程中请求被拒绝的情况很少。
- 中文乱码问题
- 多线程碰到的问题1---csv文件中出现很多空值
- 多线程碰到的问题2---信息顺序混乱
- 数据量过大,内存不足
在解决了上述问题以后,我通过:
截止2016年07月31日,我国共有:
- 31个省
- 344个市
- 2852个区
- 42927个街道
- 665062个居委会