Agregacje 3

Kilka przykładowych agregacji korzystających z danych zipcodes oraz imieniny opisano w Aggregation Pipeline Examples.

Poprawka, deadline, 2014-11-27, 08:00 CEST

[16.11.2014] 12.11. pojawiła się wersja 2.8.0-rc0. Dlatego do tabelek w zadaniach 1a, 1c, 2 dodać wiersze dla tej (lub późniejszej) wersji MongoDB. W wynikach uwzględnić storageEngines MMAP (Understanding MongoDB Storage) i WiredTiger.

Należy przygotować rozwiązania zadań 1 i 2.

Dane należy wpisać według schematu (całość w jednym wierszu):

1. [Nazwisko, Imię](link do **prywatnego** repo z rozwiązaniem zadania 1 na GitHub).
   [Tytuł](link do **prywatnego** repo z rozwiązaniem zadania 2 na GitHub)

Niezaliczone laboratorium

Banecka, Kamila
Bieliński, Marcin
Gałka, Łukasz
Grycko, Marcin
Janowski, Arkadiusz
Kamiński, Jakub
Kłeczek, Piotr
Koźmiński, Marcin
Makulec, Krzysztof
Sałata, Jakub
Soliński, Damian
Szklarska, Milena
Szymanek, Tomasz
Zdunek, Kamil

Egzamin, deadline czwartek, 2015-01-08, 08:00 CEST

Należy przygotować rozwiązanie Zadania 3 (można użyć innych danych i napisać swoje map-reduce).

Zamiast bazy MongoDB, można przygotować przykłady lub wtyczki lub agregacje dla bazy Elasticsearch. Na początek należy się przyjrzeć narzędziu Kibana, następnie poczytać o wtyczkach a na koniec o agregacjach.

Uwaga: Większe zadania, można przygotować w zespole 2–3 osobowym.

Acewicz-Hepfner, Patryk
Banecka, Kamila
Banecki, Daniel
Bednarczyk, Marek
Bieliński, Marcin
Bławat, Adam
Bonczkowska, Magdalena
Borkowski, Maciej
Cimoch, Jarosław
Czechowicz, Kacper
Dargacz, Mateusz
Drozdowski, Adrian
Ekiert, Łukasz
Gałka, Łukasz
Grycko, Marcin
Horoszko, Marcin
Janowski, Arkadiusz
Józwiak, Roman
Kamiński, Jakub
Karolczak, Jakub
Kąkol, Jan
Kłeczek, Piotr
Komorowski, Szymon
Koźmiński, Marcin
Kożuch, Adam
Kucharski, Maciej
Kulas, Piotr
Kuźnik, Mateusz
Kwiatkowski, Dominik
Lamkiewicz, Krzysztof
Latoszewski, Adam
Latoszewski, Krzysztof
Ławicki, Patryk
Makulec, Krzysztof
Miotk, Mateusz
Miś, Maciej
Nowak, Wojciech
Nowicki, Jakub
Ossowski, Marcin
Piotrkowski, Łukasz
Rękawek, Szymon
Sałata, Jakub
Sarzyńska, Magdalena
Sienkiewicz, Daniel
Skałkowski, Michał
Soliński, Damian
Synowczyk, Piotr
Szklarska, Milena
Szymanek, Tomasz
Wittbrodt, Łukasz
Zakrzewski, Patryk
Zalewski, Marcin
Zdunek, Kamil

Simple Rules for Reproducible Computations

Provide public access to scripts, runs, and results:

Version control all custom scripts:

avoid writing code
write thin scripts and use standard tools and use standard UNIX commands to chain things together.

Avoid manual data manipulation steps:

use a build system, for example make, and have all results produced automatically by build targets
if it’s not automated, it’s not part of the project, i.e. have an idea for a graph or an analysis? automate its generation

Use a markup, for example Markdown, to create reports for analysis and presentation output products.

And two more rules:

Record all intermediate results, when possible in standardized formats.
Connect textual statements to underlying results.

Różne rzeczy

Do automatycznego wygenerowania spisu treści w zadaniach można użyć narzędzia Table of Contents Preprocessor.
Scott Chacon, Ben Straub. Pro Git

6.2 GitHub – Contributing to a Project

Big Collections

Stanford Large Network Dataset Collection by Jure Leskovec: Online Reviews (Amazon, Movies, Beer)
GetGlue and Timestamped Event Data (ok. 11 GB); próbka 100 jsonów getglue101. Dane pochodzą z lat 2007–2012 – tylko filmy i przedstawienia TV. Przykładowe aggregacje: ilu jest różnych użytkowników w danych? jakie jest 10 najpopularniejszych filmów i przedstawień TV? ile jest różnych akcji?
GeoNames i Postal Codes.

aszykula/aggregations-3