-
Tópicos
- Linux para data engineers
- Git e fluxo de branches
- SQL avançado (window functions, CTEs)
- Modelagem de dados transacional e analítica
-
Tópicos
- ETL vs ELT
- Orquestração (Airflow, Dagster ou similar)
- Mensageria (Kafka, Pub/Sub, Kinesis)
- Boas práticas de versionamento de dados
- Estratégias de backfill e reprocessamento
- Monitoramento de SLA/SLO de pipelines
-
Tópicos
- Arquivos colunares (Parquet, ORC)
- Formatos otimizados para lakes
- Processamento batch vs streaming
- Engines como Spark, Flink, Beam
- Particionamento e ordenação de dados
Recursos sugeridos
-
Documentação oficial do Apache Spark
-
Artigos sobre formatação de dados em Lakes
-
Tópicos
- Data Lake e Data Warehouse
- Data Lakehouse
- Catálogo de dados e governança
- Padrões de arquitetura orientada a dados
- Domínios de dados e malha de dados (data mesh)
- Evolução incremental de arquitetura
Como usar esta trilha
Esta página não é um curso completo. Ela só organiza, em ordem, temas que fazem sentido estudar
se você quer se aprofundar nesse assunto.
- Use a sequência como um mapa de referência, não como uma obrigação rígida.
- Procure conteúdos (vídeos, artigos, livros, documentações) para cada tópico listado.
- Adapte, pule ou reordene módulos conforme sua experiência e contexto.