/instagram-posts-crawler

Merupakan program yang berguna untuk mendapatkan dan mengolah konten post di Instagram menjadi Dataset.

Primary LanguagePython

instagram-posts-crawler

Merupakan program yang berguna untuk mendapatkan dan mengolah konten post di Instagram menjadi Dataset.

Contributors Forks Stargazers Issues

Tentang

  • Tujuan
  1. Menghasilkan Dataset Posts berupa username, caption, hashtag, likes, dan comments.
  2. Kemudian Dataset tersebut diolah menjadi Dataset Kumpulan Pasangan Kata berupa id user, kata pertama, kata kedua, dan frekuensi kemunculan.
  • Cara Kerja
  1. Program ini akan mengambil post dan username setiap followers dari username pertama (target)
  2. Kemudian akan dilanjutkan mengambil konten post dari setiap followers
  3. Setelah selesai, target selanjutnya akan dipilih secara acak dari followers username pertama
  4. Kembali ke langkah 1, tetapi dengan target yang sudah dipilih sebelumnya
  5. Program akan berhenti ketika semua akun menyentuh limit atau jika koneksi tidak mendukung
  6. Hasil berupa Dataset Posts dengan format CSV berupa username, caption, hashtag, likes, dan comments.

Yang di Butuhkan

  • Python 3.5+
  • Koneksi yang Bagus
  • Beberapa akun Instagram (karena Instagram memiliki limit akses)
  • Library Python berupa: pandas, selenium, emoji
  • Chrome WebDriver

Cara Penggunaan

  • Mengumpulkan Dataset Posts
  1. Unduh/clone repository ini.
  2. Install python dan library yang diperlukan. Untuk library dapat diinstall melalui cmd: pip install <nama library>
  3. Download Chrome WebDriver dan taruh file exe nya di folder yang sama dengan file ini.
  4. Siapkan beberapa akun dan buat file txt dengan format username:password, untuk memisahkan akun pisahkan dengan baris baru.
    Contoh:
    username:password
    username2:password2
  5. Jalankan script python crawl.py dengan mengklik 2x atau dengan command python crawl.py
  6. Isi input nama file akun dan username pertama yang ingin di scrape
  7. Hasil terdapat di dataset-posts.csv
  • Mengolah hasil Dataset Posts menjadi Dataset Pasangan Kata
  1. Jalankan script python olah.py dengan mengklik 2x atau dengan command python olah.py
  2. Isi input nama file hasil Dataset Posts
  3. Hasil terdapat di dataset-pasangankata.csv

Kontak

Project Link: https://github.com/lazuardyk/instagram-posts-crawler/