Pesquisador acadêmico¶
Você publica em journals, defende tese, ou produz nota técnica que será lida em audiência pública. Reprodutibilidade não é luxo — é requisito de defesa. Sua dor é específica: provar, três anos depois, que o número da Tabela 4 veio de uma versão exata do dado oficial que, na época, era diferente da atual.
Suas três dores¶
| Dor | A ferramenta |
|---|---|
| Provar com qual versão de dado uma análise foi feita | Proveniência & Manifestos |
| Reproduzir um paper de 2019 com dados de 2019, não de 2026 | sidra-sql (SCD Type II) |
| Séries longas com revisões silenciosas do IBGE/DATASUS | quantilica-core (manifestos SHA-256) |
Por onde começar¶
- 5 minutos: leia Proveniência & Manifestos. É o coração metodológico do ecossistema para o seu caso de uso.
- 15 minutos: baixe um dataset (Quickstart IBGE ou Saúde) e abra o
.manifest.jsonque ficou ao lado. É exatamente isso que você anexa ao apêndice de replicação. - 30 minutos: se você trabalha com IBGE, suba
sidra-sqlem PostgreSQL e familiarize-se com o padrão SCD II —WHERE modificacao <= '2024-01-15' AND ativo = TRUEreproduz um snapshot histórico exato.
O conceito que importa para você¶
Reprodutibilidade — toda transformação é determinística e auditável. Manifesto SHA-256, hash embarcado no Parquet, dimensão
modificacaopreservada no warehouse. É a infraestrutura mínima para que outro pesquisador, em outra década, refaça seus números sem chamar você.
Padrões para defesa de tese¶
- Versione manifestos no git do paper. O arquivo bruto pode estar no Zenodo, em S3, no HD externo. Mas o
.manifest.json(SHA-256 + URL + timestamp) entra no repositório de replicação. É leve e suficiente. - Anexe a query SQL com
modificacao <= snapshot_date. Se você usasidra-sql, deixe explícito a data de corte. O grupo do referee consegue reproduzir mesmo se o IBGE revisar a série amanhã. - Sempre cite a versão do producer. O manifesto guarda
producereproducer_version. Reportar isso na metodologia é o mínimo defensável. - Cuidado com agregações pré-pandemia. Vários datasets têm quebras estruturais em 2020. Sinalize datas de corte ou use dummies — não esconda.
Caminho de aprofundamento¶
- Proveniência & Manifestos — time travel real.
- Princípios de Design — todos os cinco; reprodutibilidade só funciona se os outros quatro também.
sidra-sql— Governança de Dados — SCD II e snapshots históricos em SQL.