Engenheiro de dados

O Engenheiro de Dados é o responsável pela criação do pipeline que transforma os dados brutos que estão nos mais variados formatos bancos realacionais, bancos não relacionais e base de dados físicas, desde bancos de dados transacionais até arquivos de texto, em um formato que permita ao Cientista de Dados começar seu trabalho.

É o profissional responsável por gerenciar, otimizar, supervisionar e monitorar a recuperação, armazenamento e distribuição de dados

São membros vitais de qualquer equipe corporativa de análise de dados. Eles são responsáveis por encontrar tendências nos conjuntos de dados e desenvolver algoritmos para ajudar a tornar os dados brutos informações úteis para a empresa.

Função de TI que exige um conjunto significativo de habilidades técnicas, incluindo um profundo conhecimento do design do banco de dados SQL e de várias linguagens de programação.

Engenheiro de Dados deve manter o pipeline em execução para que os dados possam ser coletados no momento certo, com o nível de segurança exigido pela empresa.

Segundo a Dataquest, há três funções principais nas quais os engenheiros de dados podem se encaixar. Esses incluem:

– Generalista: Generalistas geralmente são encontrados em pequenas equipes ou em pequenas empresas. Nesse cenário, os engenheiros de dados usam muitos títulos como uma das poucas pessoas “focadas em dados” da empresa. Generalistas geralmente são responsáveis por cada etapa do processo de dados, desde gerenciar dados até analisá-los. A Dataquest diz que esse é um bom papel para quem quer fazer a transição da Ciência de Dados para a Engenharia de Dados, já que as empresas menores não precisarão se preocupar tanto com a engenharia “por escala”.

– Centralizado em pipeline: geralmente encontrado em empresas de médio porte, os engenheiros de dados centrados em pipeline trabalham em conjunto com cientistas de dados para ajudar a usar os dados coletados. Engenheiros de dados centrados em pipeline precisam de “conhecimento profundo de Sistemas Distribuídos e Ciência da Computação”, segundo a Dataquest.

– Centralizado no banco de dados: em organizações maiores, onde o gerenciamento do fluxo de dados é um trabalho em tempo integral, os engenheiros de dados se concentram em bancos de dados analíticos. Os engenheiros de dados centrados no banco de dados trabalham com data warehouses e são responsáveis pelo desenvolvimento de esquemas de tabelas.

Um Engenheiro de Dados precisa ser bom em:

Arquitetar sistemas distribuídos Criar pipelines confiáveis Combinar fontes de dados Criar a arquitetura de soluções Colaborar com a equipe de Data Science e construir as soluções certas para essas equipes

A tarefa comum dos engenheiros de dados é transformar os dados em um formato que possa ser facilmente analisado por outras pessoas. Ele precisa conhecer toda a infra.

Ele precsa conhecer todos os bancos de dados utilizados. relacional ou não relacional

O engenheiro precisa entender do negocio para poder saber que melhores ferramentas usar na hora de armazenar os dados! Ele pode escolher um banco de dados relacional para uma parte do negocio e um não relacional para outra parte!

A palavra depende é muito importante. Pois tudo é contexto. Depende do contexto para saber exatamente qual tipo de banco de dados utilizar para cada situação especifica!