#technologie-nosql
Technologie noSQL - laboratoria
####Wersje baz danych
- MongoDB
2.4.6 / 2.4.7 /2.4.8
- Elasticsearch
0.90.5 /0.90.7
####Instalacje
###Zadanie 1
Co to jest Exploratory Data Analysis (EDA)?
Na Kaggle znajdziemy dużo interesujących danych. W sierpniu 2013 Facebook ogłosił konkurs Identify keywords and tags from millions of text questions. Skorzystamy z danych udostępnionych na ten konkurs przez Stack Exchange:
Archiwum Train.zip
zawiera plik Train.csv
(6.8 GB
). Każdy rekord zawiera cztery pola "Id","Title","Body","Tags"
:
Id
– Unique identifier for each questionTitle
– The question's titleBody
– The body of the questionTags
– The tags associated with the question (all lowercase, should not contain tabs'\t'
or ampersands'&'
)
Przykładowy rekord CSV
z pliku Train.csv
:
"2","How can I prevent firefox from closing when I press ctrl-w",
"<p>In my favorite editor […]</p>
<p>Rene</p>
","firefox"
Do testowania swoich rozwiązań można skorzystać ze 101 JSON–ów
fb101.json. Wybrałem je losowo po zapisaniu rekordów z Train.csv
w bazie MongoDB
.
#####Rozwiązania
###Zadanie 2
-
Wyszukać w sieci dane zawierające co najmniej
1 000 000
rekordów/jsonów. -
Dane zapisać w bazach
MongoDB
iElasticsearch
. -
Wymyśleć i opisać cztery agregacje – po dwie dla każdej z baz.
-
Zaprogramować i wykonać wszystkie aggregacje.
-
Wyniki przedstawić w postaci graficznej (wykresów, itp.).
#####Rozwiązania
###Zadanie 3
Przygotować funkcje map
oraz reduce
w MongoDB
lub CouchDB
. Dla danych zapisanych w Elasticsearch
przygotować faceted search
.
#####Rozwiązania
- MongoDB
--->
MongoDB-MapReduce
###Ciekawe linki