思路:核心目的,将同一地点的不同写法统一。
- 删除只写「家」、「长沙」、「酒店」的
- 科大佳园分南苑北苑,不精确到楼栋,精确到楼栋的删除,未写南苑北苑的,默认北苑。所有「科大家园」统一改为「科大佳园」。
- 开头小区名,前有「长沙市」、「开福区」等前缀的去掉。长沙市以外的保留。
- 校内,统一为两个选型「科大一号院」、「科大四号院」,不精确到楼栋。只写科大校内的默认「科大一号院」。
- 「小区」后缀统一去掉,如「万熙园小区」改为「万熙园」,小区名为两个字的除外如「枫林小区」。
- 德雅村不区分门牌号,统一为「德雅村」。
- 所有「x期」后缀统一去掉,如「悦湖山二期」统一改为「悦湖山」。
- 社区xx栋精确到社区。
- 「科大西门外」合并到「东风社区」。
- 三一大道138号,手动改为「湖南省糖酒公司」
- place_2.csv 按照上述原则修改后的数据
- place_dup.csv 为去重后的小区数据
- name_value.json 为 groupby 处理后的转格式 name 对应 value 文件
- Windows csv 文件默认打开方式是 Excel,而Excel处理csv如果有中文会显示乱码,请用编辑器打开。