Criar uma tabela para padronizar base de dados

Question

Criar uma tabela para padronizar base de dados

Closed this issue 4 years ago · 14 comments

brunobrr commented 4 years ago

@kguidonimartins, deixei aqui detalhes que falta ser adicionado

Adicionar mensagem de avisos aos usuários. Pensei nos seguintes casos:
- quando algum campo obrigatório estiver faltanto;
- quando a há um nome do dataset na planilha "databaseInfo" mas o caminho para o dataset não existe ou está errado;

quando o nome fornecido pelo usuário não pode ser encontrado por esta escrito errado

kguidonimartins commented 4 years ago

Joia!

Answer 1 · 2020-10-20T13:34:55.000Z

@kguidonimartins, atualizei o tipo de cada coluna para salvar a tabela "merged_datasets". Depois só me diz se você concorda com as alterações.

Tentei rodar o script sem remover das colunas problemáticas (e.g. locality, etc) e realmente tem algo estranho. Você tem ideia do que pode estar acontecendo?

Answer 2 · 2020-10-20T15:20:01.000Z

Usei o pacote janitor para limpar o nome das colunas das planilhas. Em uma das etapas de limpeza da função, o nome "basisOfRecord" é convertido para "basis_of_record" por exemplo. Pode ser que algum dataset tenha "basisofrecord" e a função janitor::clean_names não modificou o nome dessa coluna. Vou verificar a etapa de renomeação das colunas e subo uma nova versão da nossa função. Se o problema for esse mesmo, usar algo como mutate_all(str_to_lower) logo após a leitura dos dados pode resolver.

Answer 3 · 2020-10-29T00:15:43.000Z

Oi @kguidonimartins, você acha que dá para fazer os ajustes no script para importar os dados até nossa próxima reunião?

Answer 4 · 2020-10-29T03:21:46.000Z

oi @brunobrr, acabei de resolver o problema. Obrigado pelo lembrete.

Parte do problema era que os nomes listados em Config/DatabaseInfo.csv não batiam com os nomes nas colunas dos datasets. Esse é um detalhe que o usuário precisa estar atento. As mensagens de erro para esse problema às vezes não são tão claras. Vou trabalhar nisso em outro momento. Por agora, tudo está funcionando como deveria.

Repare que eu não recriei os datasets em data/temp. Deixei isso para você testar. Um detalhe em relação à leitura (veja aqui): é impossível especificar as colunas que não existem durante o processo de mesclagem (bind_rows) dos dataset. Alguns datasets não têm as colunas que estamos especificando ali. Além disso, muitos dados faltantes em uma determinada coluna geralmente transformam essas colunas para o tipo lógico e o vroom não aceita a mesclagem entre colunas de tipo distintos (por exemplo, ao mesclar uma coluna de latitude preenchida em um dataset [tipo númerico] e outra coluna latitude com muitos NA em outro dataset [tipo lógico]).

No entanto, esse problema de leitura será facilmente resolvido quando tivemos o dataset completo (o dataset final, mesclado; teste aí no data/temp/standard_database.xz), quando todas as colunas estarão presentes.

Answer 5 · 2020-10-30T23:34:32.000Z

Incorporei uma mensagem de erro. Veja aqui: 494a2b8

Minha sugestão de teste aí pra você: apague o dataset das epífitas; em Config/DatasetInfo.csv, troque o RECORD_ID por RECORDID e veja o que acontece.

Answer 6 · 2020-10-31T00:54:09.000Z

Maravilha!!! Vou testar e te dou um retorno!!!

Answer 7 · 2020-11-24T01:16:30.000Z

@kguidonimartins, a @Geiziane vai fazer alguns testes da função e adicionar algumas mensagens de erros ou aviso. Depois vamos conversando para fechar esse issue.

Acredito o que precisa ser feito é:

Adicionar mensagem de avisos aos usuários quando...

quando algum campo obrigatório estiver faltanto;
quando há um nome do dataset na planilha "databaseInfo" mas o caminho para o dataset não existe ou está errado;
quando está faltando algum campo obrigatório (nome do arquivo, lat ou long e nome das espécies) retornar um erro
Remover colunas que não há dados em todos os datasets (colunas que só há NA)

Answer 8 · 2020-11-28T17:12:41.000Z

@kguidonimartins, a @Geiziane vai fazer alguns testes da função e adicionar algumas mensagens de erros ou aviso. Depois vamos conversando para fechar esse issue.

Acredito o que precisa ser feito é:

Adicionar mensagem de avisos aos usuários quando...

quando algum campo obrigatório estiver faltanto;

quando há um nome do dataset na planilha "databaseInfo" mas o caminho para o dataset não existe ou está errado;

quando está faltando algum campo obrigatório (nome do arquivo, lat ou long e nome das espécies) retornar um erro

Remover colunas que não há dados em todos os datasets (colunas que só há NA)

Tudo pronto e funcionando corretamente

Answer 9 · 2020-11-28T17:20:11.000Z

@Geiziane @kguidonimartins @lucas-jardim @sjevelazco fiz o teste da função para juntar os dados utilizando as 10 bases de dados. A função funcionou perfeitamente. Uma coisa que percebi é que existe um trade-off entre salvar os arquivos em xz (comprimido) ou csv.

1.Salvar os arquivos em xz demora mais (cerca de 2 horas) mas todos os arquivos 10 datasets e o arquivo que concatena os 10 datasets ficaram com 1.4 gigas.

2.Salvar os arquivos em csv é muito mais rápido, cerca de 15 min. Mas os arquivos ficam com 10 gigas.

Answer 10 · 2020-11-29T11:53:06.000Z

Podemos usar tentar o pacote `qs` para comprimir os dados. Usei em um projeto tempos atrás e achei mais satisfatório do que o `vroom`.

Answer 11 · 2020-12-02T20:13:54.000Z

@brunobrr, o qs funcionou legal?

Answer 12 · 2020-12-02T20:22:09.000Z

@kguidonimartins, funcionou sim. Muito mais pratico do que usar o xz. Os arquivos são um pouco mais pesados, mas a velocidade de processamento (ler e salvar) é muito maior.

Além disso, troquei o vroom pelo fread, principalmente dado aquele erro do gbif.

Answer 13 · 2020-12-02T22:25:50.000Z

Muito bom!

…

On Wed, Dec 2, 2020 at 5:22 PM Bruno R Ribeiro ***@***.***> wrote: @kguidonimartins <https://github.com/kguidonimartins>, funcionou sim. Muito mais pratico do que usar o xz. Os arquivos são um pouco mais pesados, mas a velocidade de processamento (ler e salvar) é muito maior. Além disso, troquei o vroom pelo fread, principalmente dado aquele erro do gbif. — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#4 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AB6JBVWTII6L2SQWGCBUG4TSS2OYBANCNFSM4SR6WBBQ> .