/NBSPRC-spider

国家统计用区划代码和城乡划分代码---爬虫及数据

Primary LanguagePythonApache License 2.0Apache-2.0

国家统计用区划代码和城乡划分代码---源码、详细分析、数据


2018.12.02更新:

  • 修改爬虫代码,添加了中山市/东莞市下面没有区级单位的异常处理
  • 页面源码的编码为GB2312,实际为GBK,因此手工指定编码为GBKIssues #2

2018.11.30更新:

  • 更新village.csv文件,按照code顺序从小到大排列,看起来更方便
  • 更新数据总结中的错误

2018.11.10更新:


详细分析见个人博客:国家统计局统计用区划代码和城乡划分代码---爬虫、详细分析

这里实现了国家统计用区划代码和城乡划分代码的爬取。本仓库包含:

总体说明

统计局网站提供的2016年统计用区划代码和城乡划分代码(截止2016年07月31日)按照:省-市-县-镇-村这样的层次关系来组织页面。统计局的网站对于爬虫的限制也不多,我只使用一个ip就爬取全部数据,爬取的过程中请求被拒绝的情况很少。

  • 中文乱码问题
  • 多线程碰到的问题1---csv文件中出现很多空值
  • 多线程碰到的问题2---信息顺序混乱
  • 数据量过大,内存不足

在解决了上述问题以后,我通过:

数据总结

截止2016年07月31日,我国共有:

  • 31个省
  • 344个市
  • 2852个区
  • 42927个街道
  • 665062个居委会