technologie-nosql: A JavaScript repository from mmotel

#technologie-nosql

Technologie noSQL - laboratoria

####Wersje baz danych

MongoDB 2.4.6 / 2.4.7 /2.4.8
Elasticsearch 0.90.5 /0.90.7

####Instalacje

###Zadanie 1

Co to jest Exploratory Data Analysis (EDA)?

Na Kaggle znajdziemy dużo interesujących danych. W sierpniu 2013 Facebook ogłosił konkurs Identify keywords and tags from millions of text questions. Skorzystamy z danych udostępnionych na ten konkurs przez Stack Exchange:

Train.zip o rozmiarze 2.19 GB

Archiwum Train.zip zawiera plik Train.csv (6.8 GB). Każdy rekord zawiera cztery pola "Id","Title","Body","Tags":

Id – Unique identifier for each question
Title – The question's title
Body – The body of the question
Tags – The tags associated with the question (all lowercase, should not contain tabs '\t' or ampersands '&')

Przykładowy rekord CSV z pliku Train.csv:

"2","How can I prevent firefox from closing when I press ctrl-w",
"<p>In my favorite editor […]</p>

<p>Rene</p>
","firefox"

Do testowania swoich rozwiązań można skorzystać ze 101 JSON–ów fb101.json. Wybrałem je losowo po zapisaniu rekordów z Train.csv w bazie MongoDB.

#####Rozwiązania

###Zadanie 2

Wyszukać w sieci dane zawierające co najmniej 1 000 000 rekordów/jsonów.
Dane zapisać w bazach MongoDB i Elasticsearch.
Wymyśleć i opisać cztery agregacje – po dwie dla każdej z baz.
Zaprogramować i wykonać wszystkie aggregacje.
Wyniki przedstawić w postaci graficznej (wykresów, itp.).

#####Rozwiązania

MongoDB --> MongoDB-Aggregations
Elasticsearch --> ES-Facets

###Zadanie 3

Przygotować funkcje map oraz reduce w MongoDB lub CouchDB. Dla danych zapisanych w Elasticsearch przygotować faceted search.

#####Rozwiązania

MongoDB ---> MongoDB-MapReduce

###Ciekawe linki

mmotel/technologie-nosql