Pular para conteúdo

Engenheiro de dados / ETL

Você é responsável pela infraestrutura que serve os analistas. Constrói pipelines reprodutíveis, atende SLAs de freshness, e responde quando o dashboard mostra valor errado. Não tem paciência para coletor frágil ou formato proprietário.

Suas três dores

Dor A ferramenta
Cada nova fonte exigia retry, manifesto, logging e exceção customizada quantilica-core
Encoding inconsistente, schemas mutantes, falta de tipagem na ingestão quantilica-analytics (Data Contracts)
Carregar SIDRA em PostgreSQL com revisões preservadas (SCD II) sidra-sql

Por onde começar

  1. 5 minutos: leia a Arquitetura. Entenda como -fetcher, -sql e -pipelines se conectam.
  2. 15 minutos: rode um pipeline declarativo via sidra-sql plugin install ... --alias std && sidra-sql run std snipc. Isso é o "fim do túnel" — pipelines como TOML versionado.
  3. 30 minutos: monte a receita Balança comercial em DuckDBcomex-fetcher para baixar, DuckDB para consultar Parquet sem RAM.

Pipeline de inflação em 1 comando

# Instalar catálogo padrão de pipelines IBGE
sidra-sql plugin install sidra-pipelines --alias std

# Rodar pipeline SNIPC → baixa, normaliza e carrega INPC, IPCA e IPCA-15 em PostgreSQL
sidra-sql run std snipc
# Verificar manifesto de execução gerado automaticamente
import json
from pathlib import Path

manifests = list(Path("manifests/").glob("*.execution.json"))
latest = json.loads(manifests[-1].read_text())
print(latest["rows_loaded"], "linhas carregadas")
print(latest["sha256"])  # hash do arquivo de origem

Os conceitos que importam para você

Padrões que escalam

  • Manifestos no git, dados fora. Versionar .manifest.json no repositório do projeto, manter os arquivos em S3/MinIO. O manifesto é a fonte de verdade.
  • TOML > código Python para pipelines repetitivos. O sidra-sql aceita pipelines declarativos. Versionados, lintáveis, lidos por não-devs.
  • COPY FROM STDIN em vez de INSERT. 400k linhas/s vs horas para 10M linhas. O sidra-sql já faz isso.
  • SCD Type II sempre. Nunca sobrescreva dado oficial; marque ativo=FALSE e insira nova versão. Auditoria gratuita.
  • DuckDB sobre Parquet. Para queries ad-hoc em bilhões de linhas sem provisionar warehouse.

Caminho de aprofundamento