Engenheiro de dados / ETL¶

Você é responsável pela infraestrutura que serve os analistas. Constrói pipelines reprodutíveis, atende SLAs de freshness, e responde quando o dashboard mostra valor errado. Não tem paciência para coletor frágil ou formato proprietário.

Suas três dores¶

Dor	A ferramenta
Cada nova fonte exigia retry, manifesto, logging e exceção customizada	`quantilica-core`
Encoding inconsistente, schemas mutantes, falta de tipagem na ingestão	`quantilica-analytics` (Data Contracts)
Carregar SIDRA em PostgreSQL com revisões preservadas (SCD II)	`sidra-sql`

Por onde começar¶

5 minutos: leia a Arquitetura. Entenda como -fetcher, -sql e -pipelines se conectam.
15 minutos: rode um pipeline declarativo via sidra-sql plugin install ... --alias std && sidra-sql run std snipc. Isso é o "fim do túnel" — pipelines como TOML versionado.
30 minutos: monte a receita Balança comercial em DuckDB — comex-fetcher para baixar, DuckDB para consultar Parquet sem RAM.

Pipeline de inflação em 1 comando¶

# Instalar catálogo padrão de pipelines IBGE
sidra-sql plugin install sidra-pipelines --alias std

# Rodar pipeline SNIPC → baixa, normaliza e carrega INPC, IPCA e IPCA-15 em PostgreSQL
sidra-sql run std snipc

# Verificar manifesto de execução gerado automaticamente
import json
from pathlib import Path

manifests = list(Path("manifests/").glob("*.execution.json"))
latest = json.loads(manifests[-1].read_text())
print(latest["rows_loaded"], "linhas carregadas")
print(latest["sha256"])  # hash do arquivo de origem

Os conceitos que importam para você¶

Modularidade — cada fetcher tem suas próprias deps e retry. Sem mega-fetcher.
Resiliência — backoff exponencial, retomada, idempotência.
Proveniência & Manifestos — SHA-256 ao lado de cada artefato, embarcado em Parquet.
Parquet + Polars — o formato analítico padrão do ecossistema.

Padrões que escalam¶

Manifestos no git, dados fora. Versionar .manifest.json no repositório do projeto, manter os arquivos em S3/MinIO. O manifesto é a fonte de verdade.
TOML > código Python para pipelines repetitivos. O sidra-sql aceita pipelines declarativos. Versionados, lintáveis, lidos por não-devs.
COPY FROM STDIN em vez de INSERT. 400k linhas/s vs horas para 10M linhas. O sidra-sql já faz isso.
SCD Type II sempre. Nunca sobrescreva dado oficial; marque ativo=FALSE e insira nova versão. Auditoria gratuita.
DuckDB sobre Parquet. Para queries ad-hoc em bilhões de linhas sem provisionar warehouse.

Caminho de aprofundamento¶

quantilica-core — anatomia de um download
quantilica-analytics — Parquet com proveniência embarcada
sidra-sql — warehouse + SCD II
Padrões Práticos — receitas táticas para casos comuns.