Cientista de dados de saúde pública¶
Você trabalha com microdados do SUS — mortalidade (SIM), nascimentos (SINASC), internações (SIH), atenção ambulatorial (SIA), cadastro de estabelecimentos (CNES). Sua rotina envolve baixar GBs de .dbc, juntar com denominadores populacionais, e produzir indicadores reproduzíveis.
Suas três dores¶
| Dor | A ferramenta |
|---|---|
| 320+ GB de microdados em FTP legado que cai três vezes por semana | datasus-fetcher |
| Denominadores populacionais por município, ano, faixa etária | sidra-fetcher (Censo, Estimativas) |
| Auditar exatamente qual versão do dado alimentou seu paper | Proveniência & Manifestos |
Por onde começar¶
- 5 minutos: baixe o SIH-RD para SP nos últimos 3 anos via Quickstart aba Saúde.
- 15 minutos: liste todos os 113 datasets do DATASUS com
datasus-fetcher list. Veja a estrutura antes de comprometer disco. - 30 minutos: combine mortalidade do SIM com população do SIDRA para taxa por 100k habitantes — receita em Mortalidade infantil × SUS.
SIH-RD para SP em 3 linhas de CLI¶
# Listar datasets disponíveis
datasus-fetcher list
# Baixar internações hospitalares para SP, 2022–2023
datasus-fetcher sync sih-rd --regions sp --start 2022-01 --end 2023-12 -o /data/datasus
# Converter .dbc para Parquet (leitura 10× mais rápida)
datasus-fetcher convert sih-rd -o /data/datasus/parquet
# Leitura após conversão
import polars as pl
df = pl.read_parquet("/data/datasus/parquet/sih-rd/**/*.parquet")
print(df.shape) # (linhas, colunas)
O conceito que importa para você¶
Reprodutibilidade — o DATASUS republica arquivos antigos quando há correção, frequentemente sem mudar o nome. A coluna
archive/dodatasus-fetchere o manifesto SHA-256 permitem provar com qual versão exata você trabalhou.
Padrões que economizam tempo¶
- Filtre cedo. Use
--regions sp rj mge--start 2020-01 --end 2023-12antes de qualquer download massivo. 320 GB começam pequenos quando você sabe o recorte. .dbcprecisa de leitor próprio. Usepyreaddbcou converta para Parquet viaquantilica-analytics.pd.read_csvnão abre.- Baixe dicionários junto.
datasus-fetcher sync --docstraz os PDFs de descrição dos campos — sem eles, códigos comoRACACOR=4ouCAUSABAS=I64são opacos. - Use
--dry-runantes do download real. Mostra tamanho total e número de arquivos. Evita surpresa de 50 GB.
Caminho de aprofundamento¶
datasus-fetcher— referência completa de CLI- Princípios — Resiliência — entenda como retry e versionamento funcionam.
- Cookbook — receitas que cruzam saúde com outras fontes.