Código criado para utilização junto a plataforma da Digital Innovation One
O desafio faz parte do curso na plataforma da Digital Innovation One:
Criando um ecossitema Hadoop totalmente gerenciado com Google Cloud Platform
O desafio consiste em efetuar um processamento de dados utilizando o produto Dataproc do GCP. Esse processamento irá efetuar a contahem das palavras de um livro e informar quantas vezes cada palavra aparece no mesmo.
-
Criar um bucket no Cloud Storage
-
Atualizar o arquivo
contador.py
com o nome do Bucket criado nas linhas que contém{SEU_BUCKET}
. -
Fazer o upload dos arquivos
contador.py
elivro.txt
para o bucket criado (instruções abaixo) -
Utilizar o código em um cluster Dataproc, executando um Job do tipo PySpark chamando
gs://{SEU_BUCKET}/contador.py
-
O Job irá gerar uma pasta no bucket chamada
resultado
. Dentro dessa pasta o arquivopart-00000
irá conter a lista de palavras e quantas vezes ela é repetida em todo o livro.
- Criar um repositório no GitHub.
- Criar um arquivo chamado
resultado.txt
. Dentro desse arquivo, colocar as 10 palavras que mais são usadas no livro, de acordo com o resultado do Job. - Inserir os arquivo
resultado.txt
epart-00000
no repositório e informar na plataforma da Digital Innovation One.
NOTA: Se o Job mostrar um WARN de Interrupt, basta ignorar. Existe um bug no Hadoop que é conhecido. Isso não impacta no processamento.
Qualquer outra dúvida, informação ou sugestão, fique a vontade para entrar em contato.