gisparsing: A Java repository from jogueber

#Spark Job for parsing GIS Data

Die Hauptlogik ist den Klassen SparkProduction und OSMParser.

Die Runtime ist Apache Spark hauptsächlich läuft es jedoch als Single threaded Parser, weil Spark keinen größereren Performance Vorteil bringt (eher sogar Nachteile auf Grund des Perforamance Auswirkungen).

Falls wir jemals mehrere Datein parallel verarbeiten wollen (>20) macht es Sinn das auf Spark anzupassen. Essentiell muss einfach die Parsing Logik in map Funktionen gepackt werden.

##Konfiguration

Die Konfiguration des Jobs ist augelagert in application.conf. Diese Datei enthält alles wesentlichen Optionen.

Building

Apache Maven basiertes Projekt. Gebaut wird mit folgendem Befehl:

mvn clean compile package

Resultierendes JAR File aus dem target folder kann deployed werden.

Todos

Wir müssen prüfen wie es alles auf dem Cluster funktioniert. Insbesondere müssen wir in wie weit wir relevante Dateien wie hdfs-site.xml und core-site.xml noch in das JAR hinzufügen müssen. Weiterhin ist der Unit Test eher rudimentär (bis jetzt).

jogueber/gisparsing

Building

Todos

Verwendete Tools