Merupakan program yang berguna untuk mendapatkan dan mengolah konten post di Instagram menjadi Dataset.
- Tujuan
- Menghasilkan Dataset Posts berupa username, caption, hashtag, likes, dan comments.
- Kemudian Dataset tersebut diolah menjadi Dataset Kumpulan Pasangan Kata berupa id user, kata pertama, kata kedua, dan frekuensi kemunculan.
- Cara Kerja
- Program ini akan mengambil post dan username setiap followers dari username pertama (target)
- Kemudian akan dilanjutkan mengambil konten post dari setiap followers
- Setelah selesai, target selanjutnya akan dipilih secara acak dari followers username pertama
- Kembali ke langkah 1, tetapi dengan target yang sudah dipilih sebelumnya
- Program akan berhenti ketika semua akun menyentuh limit atau jika koneksi tidak mendukung
- Hasil berupa Dataset Posts dengan format CSV berupa username, caption, hashtag, likes, dan comments.
- Python 3.5+
- Koneksi yang Bagus
- Beberapa akun Instagram (karena Instagram memiliki limit akses)
- Library Python berupa: pandas, selenium, emoji
- Chrome WebDriver
- Mengumpulkan Dataset Posts
- Unduh/clone repository ini.
- Install python dan library yang diperlukan. Untuk library dapat diinstall melalui cmd:
pip install <nama library>
- Download Chrome WebDriver dan taruh file exe nya di folder yang sama dengan file ini.
- Siapkan beberapa akun dan buat file txt dengan format username:password, untuk memisahkan akun pisahkan dengan baris baru.
Contoh:username:password
username2:password2
- Jalankan script python crawl.py dengan mengklik 2x atau dengan command
python crawl.py
- Isi input nama file akun dan username pertama yang ingin di scrape
- Hasil terdapat di
dataset-posts.csv
- Mengolah hasil Dataset Posts menjadi Dataset Pasangan Kata
- Jalankan script python olah.py dengan mengklik 2x atau dengan command
python olah.py
- Isi input nama file hasil Dataset Posts
- Hasil terdapat di
dataset-pasangankata.csv
- Lazuardy Khatulistiwa - @lazuardyk - lazdevs@gmail.com
- Zaidan Pratama - @zaidanprtm - zaidanpratamaa@gmail.com
Project Link: https://github.com/lazuardyk/instagram-posts-crawler/