Pular para conteúdo

Pesquisador acadêmico

Você publica em journals, defende tese, ou produz nota técnica que será lida em audiência pública. Reprodutibilidade não é luxo — é requisito de defesa. Sua dor é específica: provar, três anos depois, que o número da Tabela 4 veio de uma versão exata do dado oficial que, na época, era diferente da atual.

Suas três dores

Dor A ferramenta
Provar com qual versão de dado uma análise foi feita Proveniência & Manifestos
Reproduzir um paper de 2019 com dados de 2019, não de 2026 sidra-sql (SCD Type II)
Séries longas com revisões silenciosas do IBGE/DATASUS quantilica-core (manifestos SHA-256)

Por onde começar

  1. 5 minutos: leia Proveniência & Manifestos. É o coração metodológico do ecossistema para o seu caso de uso.
  2. 15 minutos: baixe um dataset (Quickstart IBGE ou Saúde) e abra o .manifest.json que ficou ao lado. É exatamente isso que você anexa ao apêndice de replicação.
  3. 30 minutos: se você trabalha com IBGE, suba sidra-sql em PostgreSQL e familiarize-se com o padrão SCD II — WHERE modificacao <= '2024-01-15' AND ativo = TRUE reproduz um snapshot histórico exato.

O conceito que importa para você

Reprodutibilidade — toda transformação é determinística e auditável. Manifesto SHA-256, hash embarcado no Parquet, dimensão modificacao preservada no warehouse. É a infraestrutura mínima para que outro pesquisador, em outra década, refaça seus números sem chamar você.

Padrões para defesa de tese

  • Versione manifestos no git do paper. O arquivo bruto pode estar no Zenodo, em S3, no HD externo. Mas o .manifest.json (SHA-256 + URL + timestamp) entra no repositório de replicação. É leve e suficiente.
  • Anexe a query SQL com modificacao <= snapshot_date. Se você usa sidra-sql, deixe explícito a data de corte. O grupo do referee consegue reproduzir mesmo se o IBGE revisar a série amanhã.
  • Sempre cite a versão do producer. O manifesto guarda producer e producer_version. Reportar isso na metodologia é o mínimo defensável.
  • Cuidado com agregações pré-pandemia. Vários datasets têm quebras estruturais em 2020. Sinalize datas de corte ou use dummies — não esconda.

Caminho de aprofundamento