Engenheiro de dados / ETL¶
Você é responsável pela infraestrutura que serve os analistas. Constrói pipelines reprodutíveis, atende SLAs de freshness, e responde quando o dashboard mostra valor errado. Não tem paciência para coletor frágil ou formato proprietário.
Suas três dores¶
| Dor | A ferramenta |
|---|---|
| Cada nova fonte exigia retry, manifesto, logging e exceção customizada | quantilica-core |
| Encoding inconsistente, schemas mutantes, falta de tipagem na ingestão | quantilica-io (Data Contracts) |
| Carregar SIDRA em PostgreSQL com revisões preservadas (SCD II) | sidra-sql |
Por onde começar¶
- 5 minutos: leia a Arquitetura. Entenda como
-fetcher,-sqle-pipelinesse conectam. - 15 minutos: rode um pipeline declarativo via
sidra-sql plugin install ... --alias std && sidra-sql run std ipca. Isso é o "fim do túnel" — pipelines como TOML versionado. - 30 minutos: monte a receita Balança comercial em DuckDB —
comex-fetcherpara baixar, DuckDB para consultar Parquet sem RAM.
Os conceitos que importam para você¶
- Modularidade — cada fetcher tem suas próprias deps e retry. Sem mega-fetcher.
- Resiliência — backoff exponencial, retomada, idempotência.
- Proveniência & Manifestos — SHA-256 ao lado de cada artefato, embarcado em Parquet.
- Parquet + Polars — o formato analítico padrão do ecossistema.
Padrões que escalam¶
- Manifestos no git, dados fora. Versionar
.manifest.jsonno repositório do projeto, manter os arquivos em S3/MinIO. O manifesto é a fonte de verdade. - TOML > código Python para pipelines repetitivos. O
sidra-sqlaceita pipelines declarativos. Versionados, lintáveis, lidos por não-devs. COPY FROM STDINem vez deINSERT. 400k linhas/s vs horas para 10M linhas. Osidra-sqljá faz isso.- SCD Type II sempre. Nunca sobrescreva dado oficial; marque
ativo=FALSEe insira nova versão. Auditoria gratuita. - DuckDB sobre Parquet. Para queries ad-hoc em bilhões de linhas sem provisionar warehouse.
Caminho de aprofundamento¶
quantilica-core— anatomia de um downloadquantilica-io— Parquet com proveniência embarcadasidra-sql— warehouse + SCD II- Padrões Práticos — receitas táticas para casos comuns.