Visão Estratégica e Roadmap¶
Visão estratégica do Ecossistema Quantilica para dados abertos brasileiros.
Visão de Futuro¶
A Quantilica é um ecossistema de dados aberto com SDK — a camada de confiança entre o analista e a instabilidade das fontes oficiais brasileiras. A direção de longo prazo se apoia em três pilares:
- Cobertura — uma ferramenta resiliente por fonte pública relevante, todas sob os mesmos princípios.
- Ativos analíticos prontos — sair de "arquivos brutos" para Parquet tipado, com proveniência e time travel embarcados.
- Confiabilidade observável — saúde das fontes monitorada e visível, para que quebras externas virem alertas, não surpresas.
Quick wins (DX)¶
Melhorias de baixo custo e alto impacto na experiência do desenvolvedor, fora da trilha das fases estratégicas:
- Template de Projeto (Boilerplate) — repositório template com
hatchling,ruff,pytestequantilica-corepré-configurados, mais GitHub Actions base para teste e lint automático.
Roadmap de Execução Detalhado¶
O desenvolvimento da Quantilica está estruturado em ciclos incrementais que definem a direção técnica e de produto do ecossistema.
Fase 1: Confiança, Estabilidade e Qualidade¶
Objetivo: Transformar a Quantilica na camada de confiança entre os usuários e a instabilidade das fontes oficiais.
- Sistema de Observabilidade Proativa (Health Checks):
- Implementar cron jobs semanais que testam a conectividade e integridade dos endpoints governamentais.
- Criar uma "Status Page" pública informando se uma fonte (ex: FTP do DATASUS) está instável.
- Alertas automáticos via GitHub Issues quando um fetcher falhar por mudança externa.
- Padronização Rigorosa de CI/CD:
- Matrix de testes em Python 3.12 e 3.13 para todos os pacotes.
- Obrigatoriedade de 80%+ de cobertura de testes para novos PRs.
- Bloqueio de PRs que não atendam às regras do
ruff.
- Distribuição via Container (Docker Oficiais):
- Publicar imagens Docker no GitHub Container Registry (GHCR) para cada fetcher.
- Suporte a arquiteturas múltiplas (amd64, arm64).
- Permitir execução via:
docker run quantilica/inmet-fetcher --year 2024.
Fase 2: Evolução Técnica (Data Access Layer)¶
Objetivo: Mover o processamento de "arquivos brutos" para "ativos analíticos prontos".
- Analytical-Ready (Foco em Parquet):
- Garantir que todo download possa ser automaticamente convertido em Parquet tipado.
- Injeção de hashes de proveniência no header dos arquivos Parquet.
- Governança via Contratos de Dados (Data Contracts):
- Implementar validação de schema no momento da leitura (
ParseErrorpreventivo). - Detectar se a fonte oficial removeu colunas ou alterou tipos de dados silenciosamente.
- Versionamento de schemas no
catalog.json.
- Implementar validação de schema no momento da leitura (
- Proveniência Avançada e Imutabilidade:
- Integrar os hashes SHA256 dos manifestos em um sistema de armazenamento endereçável por conteúdo (CAS).
- Habilitar o "Time Travel": capacidade de referenciar exatamente o conjunto de dados usado em uma pesquisa científica passada.
- Ingestão Inteligente (Smart Sync):
- Desenvolver o
State Storepara rastrear fatias (partições) já baixadas. - Lógica de download incremental (delta) para economizar banda e tempo em datasets volumosos.
- Desenvolver o
Fase 3: Produto e Ecossistema¶
Objetivo: Oferecer conveniência máxima e dados pré-processados.
- Sustentabilidade:
- Estabelecer modelos de apoio e governança comunitária para garantir a longevidade do projeto.
Comunidade e Sustentabilidade¶
Transformar a Quantilica em referência para a comunidade analítica brasileira e garantir sua longevidade:
- Quantilica Cookbook: notebooks com cruzamentos de alto valor (ex.: "como o desemprego do CAGED se correlaciona com a inflação do IPCA em SP").
- Presença técnica (storytelling): artigos sobre os desafios de minerar FTPs do DATASUS e APIs obsoletas.
- GitHub Sponsors / Open Collective: sustentabilidade e transparência financeira para os custos de infraestrutura.
Atualizado em: 12 de maio de 2026