爬取**城乡数据,数据统计时间是2019年,有请求重试机制,执行代码即可获取所有省市五级地址,数据以json格式存储
{
"北京市": {
"市辖区": {
"东城区": {
"东华门街道": [
"多福巷社区居委会",
"银闸社区居委会",
"东厂社区居委会",
"智德社区居委会",
"南池子社区居委会",
"黄图岗社区居委会",
"灯市口社区居委会",
"正义路社区居委会",
"甘雨社区居委会",
"台基厂社区居委会",
"韶九社区居委会",
"王府井社区居委会"
],
"景山街道": [
"隆福寺社区居委会",
"吉祥社区居委会",
······
]
}
}
}
}
有两种方式,具体例子可参看测试文件
- 使用AC自动机的正向最长匹配
- 使用nlpir分词工具,根据词性标注,发现文本中最长的地址串
writing....
writing....