laravolt/indonesia

Pecah data master csv

Closed this issue · 13 comments

uyab commented

Supaya bisa di preview di github dan mudah diedit.

dipecah bagaimana mas maksudnya?

uyab commented

@darkcyber dipecah jadi satu kota satu file. Atau bisa lebih kecil lagi, satu kecamatan satu file. Jadi kalau mau ngecek data di suatu wilayah bisa langsung buka di github, dan karena bentuknya csv bisa langsung cantik https://help.github.com/articles/rendering-csv-and-tsv-data/

maaf mas masih bingung maksudnya, mohon diperjelas dengan contohnya (1 file namanya apa, isinya apa saja). soalnya saya cek di github aman aman saja, bisa di preview dengan mudah.

uyab commented

image

uyab commented

Bandingkan dengan provinsi yang sedikit datanya:

image

Cuma perlu direncanakan dulu gimana struktur filenya, ada masukan @darkcyber ?

Menurut saya dari segi database memang posisi sekarang paling pas (rapi), wajar data kelurahan se-Indonesia banyak.

Efeknya memang tidak bisa di view langsung di github karena batasan ukuran. Tapi kalau diubah di perkecil efeknya file semakin banyak dan masih bingung dengan schema nya bagaimana yang pas.

Kalau dibandingan file master dipecah versus tetap seperti sekarang? mana yang paling baik ya mas? alasannya kenapa? Terima Kasih

tapi saya pikir pecah file rasanya tidak berpengaruh di sisi database deh, kan nanti yang input ke DB dari sisi Migrationnya, jadi ada file kelurahan untuk tiap kota (jumlah sesuai total kota di indonesia isinya adalah kelurahan) file name bisa villages-surabaya, villages-malang, dst nanti di sisi database tetap masuknya ke table villages.

artinya pecah file hanya berguna untuk github saja.

uyab commented

Yes, tidak berpengaruh terhadap skema database. Ini hanya untuk memudahkan view dan proses editing kalau diperlukan.

Struktur yang saya bayangkan:

  • provinces.csv
  • 11
    • cities.csv (list kota di provinsi 11 [Aceh] saja)
    • 1101 (folder)
    • 1102
      • districts.csv (list kecamatan di kota 1102 saja)
      • 1101010
        • villages.csv (list desa di kecamatan 1101010 saja)
      • 1101020
  • 12

Berarti kalau di buat path seperti berikut ya mas?

  • Folder 11
    • File cities.csv (list kota provinsi 11 [Aceh] saja)
    • Folder 1101
      • File districts.csv (list kecamatan di kota 1101 saja)
      • Folder 1101010
        • File villages.csv (list kelurahan/desa di kecamatan 1101010 saja)

dan seterusnya. begitu kah mas maksudnya?

uyab commented

yup, bisa bantu implementasi @darkcyber ?

Mas @uyab, saya mau usul juga, misal tanpa folder, struktur file di dalam folder csv seperti ini bagaimana mas?

provinces.csv (tetap)
cities.csv (tetap)

districts_11.csv
districts_12.csv
districts_13.csv
...
districts_91.csv
districts_94.csv

villages_1101.csv
villages_1102.csv
villages_1103.csv
...
villages_9435.csv
villages_9436.csv
villages_9471.csv

Jadi:

  1. provinces.csv dan cities.csv tetap.
  2. Untuk districts.csv di-split berdasarkan kode provinsinya (2 digit), total akan ada 34 file districts_**.csv.
  3. Untuk villages.csv di-split berdasarkan kode kab./kotanya (4 digit), total akan ada ~514 file villages_****.csv.

Tapi nanti di folder resources/csv akan ada ~577 file csv. 😃

uyab commented

@nafiesl Ini sekarang tinggal file villages.csv saja yang tidak bisa kebuka di github. Mungkin fokus ke situ saja.

Random cek dari wikipedia, provinsi dengan penduduk terbesar di Indonesia punya 5000an desa. Jumlah segitu sepertinya masih bisa ditampilkan oleh github, karena file districts.csv dengan 7094 data juga masih bisa ditampilkan dengan baik.
image

Berdasar info di atas, usulanku struktur file-nya seperti ini:

  • provinces.csv (tetap)
  • cities.csv (tetap)
  • districts.csv (tetap)
  • villages (folder)
    • 11.csv
    • 12.csv
    • dst...

Jadi maksimal cuma ada 3 + 35 files.

I see. Boleh saya bantu split file villages.csv nya ya mas?
Mudah2an pas weekend besok saya bisa buat Pull Request.