数据处理

思路:核心目的,将同一地点的不同写法统一。

  1. 删除只写「家」、「长沙」、「酒店」的
  2. 科大佳园分南苑北苑,不精确到楼栋,精确到楼栋的删除,未写南苑北苑的,默认北苑。所有「科大家园」统一改为「科大佳园」。
  3. 开头小区名,前有「长沙市」、「开福区」等前缀的去掉。长沙市以外的保留。
  4. 校内,统一为两个选型「科大一号院」、「科大四号院」,不精确到楼栋。只写科大校内的默认「科大一号院」。
  5. 「小区」后缀统一去掉,如「万熙园小区」改为「万熙园」,小区名为两个字的除外如「枫林小区」。
  6. 德雅村不区分门牌号,统一为「德雅村」。
  7. 所有「x期」后缀统一去掉,如「悦湖山二期」统一改为「悦湖山」。
  8. 社区xx栋精确到社区。
  9. 「科大西门外」合并到「东风社区」。
  10. 三一大道138号,手动改为「湖南省糖酒公司」

文件说明

  1. place_2.csv 按照上述原则修改后的数据
  2. place_dup.csv 为去重后的小区数据
  3. name_value.json 为 groupby 处理后的转格式 name 对应 value 文件

其他

  1. Windows csv 文件默认打开方式是 Excel,而Excel处理csv如果有中文会显示乱码,请用编辑器打开。