Cientista de dados de saúde pública¶
Você trabalha com microdados do SUS — mortalidade (SIM), nascimentos (SINASC), internações (SIH), atenção ambulatorial (SIA), cadastro de estabelecimentos (CNES). Sua rotina envolve baixar GBs de .dbc, juntar com denominadores populacionais, e produzir indicadores reproduzíveis.
Suas três dores¶
| Dor | A ferramenta |
|---|---|
| 320+ GB de microdados em FTP legado que cai três vezes por semana | datasus-fetcher |
| Denominadores populacionais por município, ano, faixa etária | sidra-fetcher (Censo, Estimativas) |
| Auditar exatamente qual versão do dado alimentou seu paper | Proveniência & Manifestos |
Por onde começar¶
- 5 minutos: baixe o SIH-RD para SP nos últimos 3 anos via Quickstart aba Saúde.
- 15 minutos: liste todos os 113 datasets do DATASUS com
datasus-fetcher list-datasets. Veja a estrutura antes de comprometer disco. - 30 minutos: combine mortalidade do SIM com população do SIDRA para taxa por 100k habitantes — receita a publicar; até lá, use o Cookbook como referência.
O conceito que importa para você¶
Reprodutibilidade — o DATASUS republica arquivos antigos quando há correção, frequentemente sem mudar o nome. A coluna
archive/dodatasus-fetchere o manifesto SHA-256 permitem provar com qual versão exata você trabalhou.
Padrões que economizam tempo¶
- Filtre cedo. Use
--regions sp rj mge--start 2020-01 --end 2023-12antes de qualquer download massivo. 320 GB começam pequenos quando você sabe o recorte. .dbcprecisa de leitor próprio. Usepyreaddbcou converta para Parquet viaquantilica-io.pd.read_csvnão abre.- Baixe dicionários junto.
datasus-fetcher docstraz os PDFs de descrição dos campos — sem eles, códigos comoRACACOR=4ouCAUSABAS=I64são opacos. - Use
--dry-runantes do download real. Mostra tamanho total e número de arquivos. Evita surpresa de 50 GB.
Caminho de aprofundamento¶
datasus-fetcher— referência completa de CLI- Princípios — Resiliência — entenda como retry e versionamento funcionam.
- Cookbook — receitas que cruzam saúde com outras fontes.