/technologie-nosql

Technologie noSQL | Zima 2013/14 | MongoDB, Elasticsearch

Primary LanguageJavaScript

#technologie-nosql

Technologie noSQL - laboratoria

####Wersje baz danych

  • MongoDB 2.4.6 / 2.4.7 /2.4.8
  • Elasticsearch 0.90.5 /0.90.7

####Instalacje


###Zadanie 1

Co to jest Exploratory Data Analysis (EDA)?

data cleaning

Na Kaggle znajdziemy dużo interesujących danych. W sierpniu 2013 Facebook ogłosił konkurs Identify keywords and tags from millions of text questions. Skorzystamy z danych udostępnionych na ten konkurs przez Stack Exchange:

Archiwum Train.zip zawiera plik Train.csv (6.8 GB). Każdy rekord zawiera cztery pola "Id","Title","Body","Tags":

  • Id – Unique identifier for each question
  • Title – The question's title
  • Body – The body of the question
  • Tags – The tags associated with the question (all lowercase, should not contain tabs '\t' or ampersands '&')

Przykładowy rekord CSV z pliku Train.csv:

"2","How can I prevent firefox from closing when I press ctrl-w",
"<p>In my favorite editor […]</p>

<p>Rene</p>
","firefox"

Do testowania swoich rozwiązań można skorzystać ze 101 JSON–ów fb101.json. Wybrałem je losowo po zapisaniu rekordów z Train.csv w bazie MongoDB.

#####Rozwiązania


###Zadanie 2

  1. Wyszukać w sieci dane zawierające co najmniej 1 000 000 rekordów/jsonów.

  2. Dane zapisać w bazach MongoDB i Elasticsearch.

  3. Wymyśleć i opisać cztery agregacje – po dwie dla każdej z baz.

  4. Zaprogramować i wykonać wszystkie aggregacje.

  5. Wyniki przedstawić w postaci graficznej (wykresów, itp.).

#####Rozwiązania


###Zadanie 3

Przygotować funkcje map oraz reduce w MongoDB lub CouchDB. Dla danych zapisanych w Elasticsearch przygotować faceted search.

#####Rozwiązania


###Ciekawe linki