Dados

Engenharia de Dados

Trilha focada em pipelines, arquitetura de dados e sistemas distribuídos, com foco em prática e operação em produção.

Intermediário 6 passos sugeridos

Sequência sugerida de estudos

Cada módulo é um passo no seu aprendizado. Siga de cima para baixo, adaptando o ritmo à sua realidade.

1
Etapa 1

Fundamentos para Engenheiros de Dados

Base técnica essencial antes de entrar em pipelines e plataformas.
Tópicos
- Linux para data engineers
- Git e fluxo de branches
- SQL avançado (window functions, CTEs)
- Modelagem de dados transacional e analítica
- Versionamento de código e de schema de dados
Recursos sugeridos
- Canal Data Engineer Help (YouTube)
- Documentação de SQL avançado do seu banco principal
2
Etapa 2

Pipelines de Dados

Construção, orquestração e monitoramento de pipelines batch e streaming.
Tópicos
- ETL vs ELT
- Orquestração (Airflow, Dagster ou similar)
- Mensageria (Kafka, Pub/Sub, Kinesis)
- Boas práticas de versionamento de dados
- Estratégias de backfill e reprocessamento
- Monitoramento de SLA/SLO de pipelines
- Alertas para falhas e atrasos de jobs
Recursos sugeridos
- Documentação oficial do Apache Airflow (conceitos)
- Introdução prática a Apache Kafka
3
Etapa 3

Storage e Processamento

Escolhendo ferramentas de armazenamento e processamento adequadas.
Tópicos
- Arquivos colunares (Parquet, ORC)
- Formatos otimizados para lakes
- Processamento batch vs streaming
- Engines como Spark, Flink, Beam
- Particionamento e ordenação de dados
- Layouts de tabelas otimizados para leitura
Recursos sugeridos
- Documentação oficial do Apache Spark
- Artigos sobre formatação de dados em data lakes
4
Etapa 4

Arquitetura de Dados em Escala

Design de plataformas de dados modernas.
Tópicos
- Data Lake e Data Warehouse
- Data Lakehouse
- Catálogo de dados e governança
- Padrões de arquitetura orientada a dados
- Domínios de dados e malha de dados (data mesh)
- Evolução incremental de arquitetura
- Integração com times de produto e analytics
Recursos sugeridos
- Material sobre Data Mesh e malha de dados
5
Etapa 5

Qualidade, Testes e Observabilidade de Dados

Garantindo qualidade e confiabilidade dos dados ao longo dos pipelines.
Tópicos
- Testes de schema e qualidade de dados
- Data contracts entre times
- Detectando anomalias e quedas de volume
- Catálogo de datasets críticos
- Reprocessamento seguro em caso de falhas
Recursos sugeridos
- Ferramentas de data quality (Great Expectations ou similares)
6
Etapa 6

Plataformas de Dados em Nuvem

Aplicando os conceitos da trilha em um provedor específico (AWS, GCP ou Azure).
Tópicos
- Serviços de ingestão e mensageria no provedor escolhido
- Serviços de armazenamento (objetos, data lake, warehouses)
- Serviços gerenciados de orquestração e processamento
- Integração com ferramentas de BI
- Boas práticas de custo e segurança em dados
Recursos sugeridos
- Guias de dados na AWS
- Documentação de BigQuery (GCP)

Como usar esta trilha

Esta página não é um curso completo. Ela só organiza, em ordem, temas que fazem sentido estudar se você quer se aprofundar nesse assunto.

Use a sequência como um mapa de referência, não como uma obrigação rígida.
Procure conteúdos (vídeos, artigos, livros, documentações) para cada tópico listado.
Adapte, pule ou reordene módulos conforme sua experiência e contexto.

Tópicos

Recursos sugeridos

Tópicos

Recursos sugeridos

Tópicos

Recursos sugeridos

Tópicos

Recursos sugeridos

Tópicos

Recursos sugeridos

Tópicos

Recursos sugeridos

Como usar esta trilha