HTTP-requests-to-the-NASA-Kennedy-Space-Center-WWW-server

Job interview test. Read the "how to use" part before trying to run the code.
Teste de entrevista de emprego. Leia a sessão de "como usar" antes de rodar o código.

Requirements / Requisitos

Python 2.7.12*
Pyspark library (pip install pyspark)
Pandas library (pip install pandas)

*If you are windows user make sure to enable python on command line when installing it./ Se você utiliza windows tenha certeza que habilitou a opção de rodar python no prompt de comando ao realizar a instalação.

How to use

Files on the original_data folder have to be extracted on the aplication's root folder.
If you want to redownload the data you can run wget_data.sh or wget_data.bat.
Make sure you can run spark code on command line. (Requirements)
Then run "python main.py" on command line and see it working.
After the execution some csv files will be gerated by the code.

Como usar

Os arquivos na pasta original_data precisam ser extraídos para a pasta raiz da aplicação.
Se quiser baixar novamente os dados originais pode utilizar os scripts wget_data.sh ou wget_data.bat.
Tenha certeza que consegue rodar o spark por linha de comando. (Requisitos)
Então rode "python main.py" no terminal e veja acompanhe o funcionamento.
Após a execução haverá alguns arquivos csv gerados pelo código.

As perguntas e as respostas das questões referentes a esse programa estão no arquivo "Perguntas_respondidas.docx".

Running on local spark installation

You can also run on a local spark instalation. But you have to modify some parts of the code:
-You have to modify 92 and 93 adding project's path before the file's name. (Example /home/project/access_log_Aug95)
-You also have to modify lines 111, 117, 123, 129 and 135 adding a new path for saving the documents or otherwise it will save on spark folder.
After it is done you have to run on you "spark-2.2.1-bin-hadoop2.7/bin" folder "./spark-submit projectpath/main.py" and it will start executing

Executando em uma instalação local do spark

Você também pode rodar em uma instalação local do spark, caso possuir. Para isso você precisará alterar algumas partes do código:
-Você precisa alterar as linhas 92 e 93 adicionando o local do projeto antes do nome do arquivo que será carregado. (Exemplo /home/project/access_log_Aug95)
-Você também precisa alterar as linhas 111, 117, 123, 129 e 135 adicionando um novo local para salvar os arquivos gerados. Caso não alterar ele salvará os arquivos na pasta do spark.
Após ter executado essas ações você só precisa rodar na pasta "spark-2.2.1-bin-hadoop2.7/bin" o comando "./spark-submit pastadoprojeto/main.py" e iniciará a execução.