Speaker: Leonardo Cestarolli - Banco Carrefour
Contexto geral sobre o uso do banco de dados na atualidade
- Tecnologias de banco de dados tem várias, sendo necessário entender o propósito de cada um para fazer uso.
O que é SQL e NoSQL?
- Banco Relacional: tipo de dados que tem relacionamento entre si e tem normalização, consistência, esquema rígido e você sabe exatamente o que vai armazenar. Ter um banco muito bem definido.
- Banco NoSQL: Not Only Structured Query Language. Alternativa aos bancos relacionais, com capacidades adicionais. Necessidades diferentes e informações não relacionadas, estrutura de dados não-rígida.
O NoSQL não foi criado para substituir o SQL
- A ideia é que não substitua de fato. São complementares. Foram criados para resolver problemas que os relacionais não resolvem. Um ponto interessante, é a consulta, que pode se tornar bem mais complexa no relacional.
Como se consulta um dado armazenado no NoSQL?
- É preciso ter um conjunto de chaves interessantes, é preciso tomar cuidado e ser feita desde o início. A aplicação tem que considerar as consultas e estar preparado para isso.
- É preciso pensar na modelagem também.
Conhecer um SGBD de cada tipo é suficiente para iniciar?
- É inviável aprender todos os tipos, mas é importante conhecer os conceitos e os propósitos para que quando de fato for precisar, você já saiba qual utilizar.
- Após escolher o banco é necessário conhecer mais a fundo a tecnologia e suas capacidades.
- Não existe só um caminho.
- Estabeleça bem os critérios técnicos que vão embasar uma decisão arquitetural.
No Banco Carrefour, quais os SGBDs mais utilizados?
- Contexto híbrido, com Oracle, infraestrutura de Big Data e um pouco de Mongo.
Evolução da arquitetura de sistemas e transições de estruturas
- Quando começamos do zero temos mais liberdade de escolha, a partir do momento em que já temos algo estabelecido, precisamos pensar em uma transição que seja o mais suável possível, para que não seja necessário parar.
- Sobre as tecnologias de núvem, mais do que a tecnologia tem que pensar na estratégia.
Sobre DataLake e Databricks
- Ajudam a manter uma consistência dentro de uma datalake, com segurança e com baixo custo visto de armazenamento e processamento dado o volume de dados.
Quais os maiores desafios na hora de realizar o ETL?
- É a parte de manipulação forte de dados.
- Mais de mil processos de ETL.
O tipo de banco de dados influencia na complexidade?
- o que de fato será armazenado dentro do banco de dados.
- Precisa ter uma forma de definição de como esses dados serão consultados.
Como é gerada a demanda dos dado e quem define quais dados serão coletados?
- Times mais estruturantes com capacidades técnicas trabalham bem próximas.
Engenheiro e Cientista de dados
- São complementares. O engenheiro tá mais ligado a preparação dos dados. E o cientista tá mais ligado com modelos.
Deficiências em pessoas com skill em Estatística
- É importante essa skill. Matemática e estatística são a base, assim como de negócios e outros.
Quais dicas para quem quer ser Engenheiro de dados do Banco Carrefour?
- A ferramenta em si não é o principal é o meio para se atingir os seus objetivos.
- Precisa ter um conhecimento bem amplo de todas as camadas.
- Curiosidade, pois as coisas vão surgir a todo momento. Olhar crítico, a tecnologia para resolver o problema que a gente precisa. Técnicas ETL, fluxos com Spark, conhecimento em GCP, fluxo de dados.