MapReduce Jobs for Problems in T2 Hackathon
http://serkan-ozal.github.io/t2-hackathon-answers/
s3n://t2-hackathon-question-data/1
dizini altında bulunan tüm tweetler incelenerek ülke kodları ve bunların kaç tane geçtiğini bulan bir Map/Reduce uygulamasını yazınız.
Açıklamalar:
- Ülke kodu alanı tweet datasındaki
place
alanının içindekicountry_code
değeridir. - Ülke kodu değeri 2 karakterlidir ve
country_code
değeri boş olan tweetlerincountry_code
değeri??
olarak kabul edilecektir. - Çıktıda her satırda ülke kodu ve bu ülke kodunun kaç kere geçtiği bilgisi olacaktır.
- Çıktıdaki ülke kodu ve sıklık değeri arasında bir tane boşluk olacaktır.
- Satırlar ülke kodlarının string değerlerine göre küçükten büyüğe göre artan sırada olacaktır.
- Örnek girdi verisi
s3n://t2-hackathon-question-sampledata/1
dizininde, çıktı ises3n://t2-hackathon-sampleanswers/1/output.txt
dosyasında mevcuttur.
Örnek çıktı:
?? 19682
...
GB 24643
...
TR 30881
...
s3n://t2-hackathon-question-data/4
dizini altında bulunan tüm tweetler incelenerek profil bilgisi parametre geçilen dilde olan tweet sayısını bulan bir Map/Reduce uygulamasını yazınız.
Açıklamalar:
- Dil bilgisi tweet datasındaki
user
alanının içindekilang
değeridir. -
- parametrenin girdi verisinin dizini, 2. parametrenin çıktı verisinin dizini olduğunu hatırlarsak dil parametresi 3. parametredir.
- Sonuçlar karşılaştırılırken dil parametresi
tr
(case-insensitive) olarak geçilmiş olan sonuçlar ile karşılaştırılacaktır. Fakat aynı zaman da sonucun doğru olması halinde tam puan alabilmek için kod incelemesi de yapılacaktır. - Çıktıda tek satır bulunacaktır ve bu satırda sadece belirtilen dildeki tweet sayısı belirtilecektir.
- Örnek girdi verisi
s3n://t2-hackathon-question-sampledata/4
dizininde, çıktı ises3n://t2-hackathon-sampleanswers/4/output.txt
dosyasında mevcuttur.
Örnek çıktı:
29634
s3n://t2-hackathon-question-data/8
dizini altında bulunan tüm tweetler incelenerek toplam tweet sayısını bulan bir Map/Reduce uygulamasını yazınız.
Açıklamalar:
- Çıktıda tek bir satırda toplam tweet sayısı değeri olacaktır.
- Örnek girdi verisi
s3n://t2-hackathon-question-sampledata/8
dizininde, çıktı ises3n://t2-hackathon-sampleanswers/8/output.txt
dosyasında mevcuttur.
Örnek çıktı:
120000