Bases de datos de salud y demografía

Catálogo razonado de fuentes para epidemiología, mortalidad y cohortes longitudinales

databases
public-health
demography
epidemiology
cohorts
ehr
mortality
Referencia comentada de las principales bases de datos de salud pública, demografía y cohortes biomédicas: agregados internacionales, registros nacionales, mortalidad histórica, cohortes longitudinales y datos clínicos EHR.

Sobre bases de datos de salud y demografía

Las fuentes que se catalogan aquí cubren un espectro amplio que conviene tener mentalmente compartimentado antes de decidir cuál usar. No son intercambiables, y mezclarlas sin entender su naturaleza es la primera causa de conclusiones epidemiológicas torcidas.

Cuatro familias estructuran el catálogo:

  • Agregados internacionales de salud pública. WHO GHO, OECD Health Statistics, Eurostat Health, IHME/GBD. Datos country-year, comparables entre países, derivados de modelos de armonización sobre fuentes nacionales heterogéneas. Útiles para comparativas internacionales, tendencias seculares y benchmarking de sistemas de salud. No son datos individuales. Son estimaciones agregadas con incertidumbre asociada (a veces explícita, a veces no).
  • Bases nacionales públicas. INE España, Ministerio de Sanidad (portal estadístico), CDC WONDER, NHANES. Mezcla de registros administrativos (defunciones, altas hospitalarias) y encuestas representativas (NHANES, ENSE). El nivel de detalle es mayor y la cadena causal hasta el dato bruto es más corta, pero la comparabilidad internacional es limitada.
  • Cohortes longitudinales y biobancos. UK Biobank, FinnGen, NHANES (también encaja aquí por su componente de seguimiento). Datos individuales con seguimiento prospectivo, fenotipado profundo y, cada vez más, genotipado completo. Acceso restringido (managed access), application formal, y un data use agreement. La fuente natural para inferencia causal, estudios genéticos y modelos de riesgo.
  • EHR / datos clínicos. MIMIC-IV y similares. Registros electrónicos hospitalarios desidentificados. Granularidad máxima (cada signo vital, cada laboratorio, cada nota), sesgo de selección máximo (solo pacientes ingresados en UCI o urgencias). Requieren entrenamiento CITI y application aprobada.
  • Mortalidad histórica. Human Mortality Database. Series largas, alta calidad y metodología homogénea para análisis demográfico formal (tablas de vida, descomposición de Arriaga, Lee-Carter).

Tres principios transversales que conviene interiorizar:

  • Edad estandarizada vs. edad cruda. Cualquier comparación entre poblaciones con estructuras de edad distintas exige estandarización (directa o indirecta, contra población de referencia explícita: OMS, europea, USA 2000). Es la fuente número uno de errores en interpretación de tasas brutas.
  • Datos administrativos vs. encuestas vs. cohortes. Los tres regímenes tienen sesgos sistemáticamente distintos. Los registros captan eventos atendidos por el sistema (sesgo de acceso). Las encuestas captan respuestas auto-reportadas en muestras representativas (sesgo de respuesta). Las cohortes captan volunteers (sesgo de participación, severo en UK Biobank). Saber cuál estás usando determina qué inferencias son válidas.
  • Anonimización no es lo mismo que dato abierto. Las bases de cohortes y EHR contienen datos desidentificados pero no públicos: se accede mediante application aprobada, DUA firmado y, a menudo, ejecución dentro de un Trusted Research Environment (UK Biobank RAP, FinnGen Sandbox).

Esta página cataloga doce fuentes. El orden refleja la jerarquía de granularidad y restricción: primero agregados abiertos (WHO, OECD, Eurostat, IHME), después registros nacionales públicos (INE, Sanidad, CDC WONDER, NHANES), luego mortalidad demográfica (HMD), después cohortes longitudinales con acceso restringido (UK Biobank, FinnGen) y, por último, datos clínicos EHR (MIMIC-IV).


WHO Global Health Observatory (GHO)

El Global Health Observatory es el repositorio oficial de estadísticas sanitarias de la OMS. Centraliza más de mil indicadores armonizados a nivel country-year, cubriendo mortalidad, morbilidad, ODS de salud, factores de riesgo, cobertura de servicios y sistemas sanitarios. Es el punto de partida natural para cualquier comparativa internacional y aparece como fuente upstream de prácticamente todos los informes globales de salud.

Los datos son agregados, no individuales. La OMS no recopila directamente la mayoría: armoniza lo que reportan los estados miembros y aplica modelos para producir series comparables. Esa armonización es a la vez el valor y la principal limitación: las cifras de un país pueden diferir de su estadística nacional oficial.

Qué incluye

  • Indicadores de mortalidad (todas las causas, materna, infantil, cause-specific).
  • Cobertura sanitaria universal y acceso a servicios.
  • Factores de riesgo conductuales y ambientales (tabaco, alcohol, contaminación, obesidad).
  • Enfermedades transmisibles (VIH, TB, malaria, hepatitis) y no transmisibles (cardiovascular, cáncer, diabetes).
  • Recursos del sistema sanitario (personal, camas, gasto).
  • Indicadores SDG y monitoreo del Triple Billion targets.

Cuándo usarla

  • Comparativas internacionales de indicadores estándar a nivel país-año.
  • Benchmarking de sistemas sanitarios.
  • Análisis de tendencias seculares globales o regionales (regiones OMS: AFR, AMR, EMR, EUR, SEAR, WPR).
  • Datos para informes técnicos o documentos de política donde la fuente OMS aporta autoridad institucional.

Cuándo NO usarla

  • Análisis subnacional: la mayoría de indicadores está agregada a país. Para nivel provincial / municipal, ir al INE o equivalentes.
  • Datos individuales o cohortes.
  • Series temporales cortas o de alta frecuencia: muchos indicadores se reportan anualmente con 1-2 años de lag.
  • Cuando necesites la cifra oficial nacional exacta: la armonización OMS a veces difiere de la fuente nacional.

Conceptos clave

  • Indicadores armonizados, no datos brutos. Cada serie pasa por validación y, en muchos casos, modelado para imputar valores ausentes o ajustar a definiciones estándar. Los * y [] en el portal indican estimaciones vs. valores reportados.
  • Disaggregation. Los indicadores se ofrecen por sexo, edad, zona urbano/rural y, cuando aplica, por quintil socioeconómico. No todos los disaggregations están disponibles en todas las series.
  • Definiciones estandarizadas. Cada indicador tiene un metadata sheet con definición operativa, fuente, método de cálculo y limitaciones. Léelo antes de comparar.
  • Versionado anual. Las cifras de años anteriores se revisan en cada release. Cita siempre fecha de extracción.

Cómo se accede

Limitaciones / cobertura

  • Calidad heterogénea según país: los registros vitales completos están disponibles en ~70 países. El resto se modeliza a partir de encuestas y estimaciones.
  • Lag de 1-3 años en la mayoría de indicadores.
  • Revisiones retroactivas sustanciales entre releases anuales, no asumas estabilidad de series históricas.
  • Cobertura desigual de NCDs en países de ingresos bajos.

Enlaces

Relacionadas en esta página

  • OECD Health Statistics, alternativa para países OCDE con mayor profundidad económica.
  • IHME / GBD, estimaciones modeladas más agresivamente, con intervalos de incertidumbre explícitos.

OECD Health Statistics

OECD Health Statistics es la base de referencia para comparar sistemas sanitarios de los 38 países miembros de la OCDE. Frente a la GHO, su valor diferencial es la profundidad económica y de utilización de servicios: gasto sanitario por función, tipo de financiación, recursos humanos por categoría, episodios hospitalarios por DRG agrupado, listas de espera, equipamiento (TC, RMN por millón de habitantes).

Es la fuente upstream de buena parte de los informes Health at a Glance y de las comparaciones de eficiencia del sistema sanitario que circulan en literatura de policy.

Qué incluye

  • Gasto sanitario (System of Health Accounts, SHA 2011): total, público, privado, por función, por proveedor.
  • Recursos del sistema: médicos, enfermeras, camas, equipamiento técnico.
  • Utilización: consultas, altas, estancia media, intervenciones quirúrgicas.
  • Resultados: esperanza de vida, mortalidad evitable, mortalidad por causa.
  • Calidad de la atención: indicadores HCQI (admisiones evitables, mortalidad a 30 días en IAM e ictus).
  • Determinantes no médicos: tabaco, alcohol, obesidad.
  • Farmacéuticos: consumo (DDD por 1000 habitantes / día), gasto.

Cuándo usarla

  • Comparativas entre países OCDE con foco en eficiencia, gasto y utilización.
  • Análisis de policy sanitaria.
  • Benchmarking del sistema sanitario español frente a comparables (DEU, FRA, ITA, NLD, GBR).
  • Indicadores HCQI para calidad y seguridad clínica.

Cuándo NO usarla

  • Países fuera de la OCDE (usa WHO GHO).
  • Datos subnacionales: solo agregados nacionales.
  • Datos individuales o microdatos: OECD no distribuye microdatos clínicos.
  • Lag temporal: muchos indicadores van 2 años por detrás de las fuentes nacionales originales.

Conceptos clave

  • SHA 2011 (System of Health Accounts) es el marco contable estándar. Los datos de gasto OCDE son comparables solo entre países que reportan bajo SHA.
  • PPP$ (Purchasing Power Parity). El gasto se reporta en USD PPP para comparabilidad. No uses tipos de cambio nominales.
  • HCQI (Health Care Quality Indicators) es una colección específica con metodología armonizada. Cubre poco más de 30 indicadores.
  • Lag. Los datos económicos sanitarios suelen publicarse con 18-24 meses de retraso por el ciclo de cuentas nacionales.

Cómo se accede

  • Web (OECD Data Explorer): https://data-explorer.oecd.org.
  • API SDMX: estándar SDMX-JSON / SDMX-ML. Endpoint base https://sdmx.oecd.org/public/rest/.
  • Cliente R: OECD (CRAN), rsdmx para acceso genérico SDMX.
  • Cliente Python: pandasdmx, sdmx1.
  • Bulk download: CSV / Excel desde el portal.

Limitaciones / cobertura

  • 38 países OCDE. Algunos partner countries (BRA, ZAF, RUS antes de 2022) con cobertura parcial.
  • Comparabilidad incompleta en clasificaciones quirúrgicas y de DRG entre países.
  • Datos de calidad asistencial dependen de la calidad del sistema de información de cada país: los nórdicos y NLD reportan mejor. Otros tienen huecos.

Enlaces

Relacionadas en esta página

  • WHO GHO, cobertura global, menor profundidad económica.
  • Eurostat Health, solapamiento parcial en UE-27, mayor detalle subnacional NUTS.

Eurostat Health

Eurostat Health es el dominio sanitario del sistema estadístico europeo. Su ventaja diferencial frente a OECD es la desagregación territorial NUTS (NUTS-1, NUTS-2 y, para algunos indicadores, NUTS-3), que permite análisis regionales coherentes dentro de la UE. Para investigación sobre desigualdades territoriales o coordinación intersanitaria a escala europea, es la fuente natural.

Cubre UE-27, EFTA (NOR, ISL, CHE, LIE) y países candidatos. Los datos provienen de los institutos nacionales de estadística vía el sistema ESS.

Qué incluye

  • Estadísticas de causas de muerte (codificadas en CIE-10), hlth_cd_*.
  • Estancias hospitalarias y altas por diagnóstico, hlth_co_*.
  • Encuesta Europea de Salud (EHIS): morbilidad auto-percibida, conductas de salud, acceso a servicios.
  • Recursos sanitarios: personal, camas, equipamiento, hlth_rs_*.
  • Mortalidad evitable y tratable.
  • Esperanza de vida y healthy life years (HLY) por sexo y educación.

Cuándo usarla

  • Análisis comparativos en la UE con desagregación NUTS-2 (regiones).
  • Estudios de desigualdades territoriales dentro de la UE.
  • Mortalidad por causa específica a nivel regional.
  • Healthy life years (HLY) y esperanza de vida saludable: Eurostat produce el indicador HLY oficial UE.

Cuándo NO usarla

  • Países no-UE / no-EFTA.
  • Microdatos: para EHIS los microdatos están disponibles solo bajo application a la unidad de microdatos.
  • Datos de muy alta frecuencia (mensual): la mayoría de series son anuales.

Conceptos clave

  • Códigos de tabla. Cada dataset tiene un código (hlth_cd_acdr = causes of death, all causes). Las tablas se identifican por código en Bulk Download Facility y API.
  • NUTS versioning. La clasificación NUTS cambia cada ~3 años (NUTS 2013, 2016, 2021, 2024). Comparaciones longitudinales largas requieren conciliar versiones.
  • EHIS. La Encuesta Europea de Salud se ejecuta en olas (2008, 2014, 2019, 2024-25). No es una panel: muestras independientes en cada ola.
  • Confidentiality flags. Algunos valores se ocultan por reglas de confidencialidad (: en CSV). No los confundas con NA.

Cómo se accede

  • Web (Eurostat Data Browser): https://ec.europa.eu/eurostat/databrowser/.
  • API REST: endpoint https://ec.europa.eu/eurostat/api/dissemination/statistics/1.0/data/{dataset_code}.
  • Cliente R: eurostat (CRAN), maduro y muy usado.
  • Cliente Python: eurostat (PyPI), pyjstat para el formato JSON-stat.
  • Bulk Download Facility: TSV comprimido para descarga masiva.

Limitaciones / cobertura

  • Lag típico de 1-2 años en causas de muerte. Mayor en EHIS.
  • Comparabilidad CIE-10 limitada en lista corta vs. lista detallada de causas.
  • NUTS-3 disponible solo para mortalidad básica, no para utilización.

Enlaces

Relacionadas en esta página


IHME / Global Burden of Disease (GBD)

El Global Burden of Disease del IHME (Institute for Health Metrics and Evaluation, Universidad de Washington) es el ejercicio sistemático más ambicioso de cuantificación de la carga de enfermedad mundial. A diferencia de GHO, GBD produce estimaciones modeladas con intervalos de incertidumbre explícitos para cada combinación país × año × sexo × edad × causa, recurriendo a fuentes heterogéneas (registros vitales, encuestas, verbal autopsies, datos hospitalarios) integradas con modelos Bayesianos.

Los outputs principales son DALYs (años de vida ajustados por discapacidad), YLLs (años de vida perdidos), YLDs (años vividos con discapacidad), prevalencia, incidencia y mortalidad, todo cause-specific con desagregación granular.

Qué incluye

  • DALYs, YLLs, YLDs por causa, edad, sexo, país y año (1990 en adelante).
  • 369 causas en GBD 2021 (última iteración mayor), 87 factores de riesgo, organizados en jerarquía de niveles (Level 1-4).
  • Cobertura por Socio-Demographic Index (SDI).
  • Estimaciones subnacionales para ~30 países (incluyendo España por CCAA en algunas iteraciones).
  • Métricas de progreso ODS.

Cuándo usarla

  • Comparativas de carga de enfermedad ajustadas y armonizadas entre países.
  • Identificación de causas principales de pérdida de salud, no solo de mortalidad.
  • Análisis de tendencias 1990-presente con intervalos de incertidumbre.
  • Visualización rápida con GBD Compare / GBD Results Tool / VizHub.
  • Atribución de carga a factores de riesgo (counterfactual analysis).

Cuándo NO usarla

  • Cuando necesites cifras “oficiales” de un país: las estimaciones GBD pueden diferir significativamente de las nacionales.
  • Análisis con horizonte temporal muy reciente: lag de 2-3 años respecto al último año cubierto.
  • Series ininterrumpidas largas: cada iteración GBD revisa retroactivamente toda la serie histórica con nuevos modelos. No mezcles cifras de GBD 2019 con GBD 2021, son inconsistentes.
  • Estudios microdatos / individuales.

Conceptos clave

  • DALY = YLL + YLD. Años de vida ajustados por discapacidad. Combina mortalidad prematura (YLL) y morbilidad ponderada por severidad (YLD).
  • Counterfactual / TMREL. Los riesgos se cuantifican comparando contra un Theoretical Minimum Risk Exposure Level. Por ejemplo, el riesgo “consumo de alcohol” en GBD 2020 se redefinió con TMREL = 0 (debate metodológico activo).
  • Iteraciones. GBD 2015, 2017, 2019, 2021… Cada nueva iteración rehace los modelos sobre todo el periodo. No es retrocompatible: cita siempre la iteración exacta.
  • Niveles jerárquicos de causas. Level 1 (3 grupos), Level 2 (~22), Level 3 (~150), Level 4 (~370). Asegúrate de no doble-contar al sumar entre niveles.
  • Intervalos de incertidumbre (UI 95 %). Reportados en todas las estimaciones. No los descartes al presentar resultados.

Cómo se accede

Limitaciones / cobertura

  • Estimaciones modeladas: en países con sistemas de registro vital pobres, gran parte del valor procede del modelo, no de datos primarios. Conviene revisar la data source map para cada indicador.
  • Controversia metodológica: algunos cambios entre iteraciones (alcohol 2020, COVID-19 indirecto) han generado debate público fuerte.
  • DALYs incorporan ponderaciones de discapacidad derivadas de encuestas globales: discutibles culturalmente.

Enlaces

Relacionadas en esta página

  • WHO GHO, fuente alternativa para indicadores estándar, menos modelada.
  • GHDx, catálogo asociado al ecosistema IHME, sección siguiente.

GHDx: Global Health Data Exchange

GHDx es el catálogo de fuentes de datos sobre salud mantenido por IHME. No es una base de datos en sí, sino un metabuscador: indexa más de 30 000 datasets de salud (encuestas DHS, MICS, censos, registros, estudios específicos), con metadatos, descripción, periodo de cobertura, geografía, instrucciones de acceso y, cuando es posible, descarga directa.

Es la herramienta de descubrimiento por excelencia cuando buscas una fuente concreta de una encuesta nacional o regional. Si IHME usa una fuente para alimentar GBD, suele estar referenciada aquí.

Qué incluye

  • Catálogo de microdatos de encuestas de salud (DHS, MICS, ENSANUT, NHANES, etc.).
  • Datasets agregados nacionales y subnacionales.
  • Datasets producidos por IHME (GBD result files, Local Burden of Disease).
  • Verbal autopsies, registros de cáncer, registros vitales catalogados.
  • Documentos asociados: cuestionarios, manuales, codebooks.

Cuándo usarla

  • Punto de partida para buscar la encuesta nacional de salud de un país.
  • Identificar la fuente upstream de una cifra GBD.
  • Descubrir datasets desconocidos en una región o tema concreto.
  • Acceder a datos publicados por IHME (resultados GBD, LBD).

Cuándo NO usarla

  • Como base de datos estructurada para análisis directo: es un catálogo, no un almacén consultable por SQL/API.
  • Datos individuales sensibles: el catálogo enlaza, pero el acceso real depende del propietario.

Conceptos clave

  • Catálogo, no base. El uso típico es buscar → ir al sitio de origen → solicitar acceso si aplica.
  • Tipos de registro: Surveys, Censuses, Vital Registrations, Disease Registries, Administrative Records, Research Studies, Estimates.
  • Descargas IHME-hosted. Cuando IHME aloja el dataset, suele requerir registro gratuito y aceptación de terms of use.

Cómo se accede

Limitaciones / cobertura

  • Cobertura excelente en países LMIC (priorizados por IHME para GBD). Más patchy en países high-income.
  • Calidad de metadatos heterogénea.
  • Algunos enlaces a fuentes externas se rompen con el tiempo.

Enlaces

Relacionadas en esta página

  • IHME / GBD, productor del catálogo y de buena parte de sus datasets de estimaciones.

INE España

El Instituto Nacional de Estadística es la fuente nacional canónica de estadística sociodemográfica y sanitaria en España. Para cualquier análisis serio sobre población, mortalidad, fecundidad o salud auto-percibida en territorio español, este es el punto de partida, no Eurostat ni OCDE (que se nutren del INE) ni los portales internacionales.

Cubre desde estadísticas vitales (defunciones, nacimientos, matrimonios) hasta encuestas sanitarias (ENSE, EESE) y proyecciones de población. La desagregación territorial baja a municipio en muchos indicadores, lo que es excepcional en el panorama internacional.

Qué incluye

  • Estadísticas vitales: Movimiento Natural de la Población (MNP), nacimientos, defunciones, matrimonios. Defunciones según causa de muerte (CIE-10).
  • Padrón continuo: población por edad, sexo, nacionalidad y municipio.
  • Censo de Población y Viviendas (2021 más reciente, ahora con metodología basada en registros).
  • Encuesta Nacional de Salud (ENSE) y Encuesta Europea de Salud en España (EESE), alternadas con periodicidad bienal.
  • Tablas de mortalidad anuales y proyecciones de población.
  • Indicadores demográficos básicos (esperanza de vida, fecundidad, edad media a la maternidad).

Cuándo usarla

  • Cualquier análisis demográfico o sanitario centrado en España.
  • Mortalidad por causa con detalle CCAA y, en algunos casos, provincia.
  • Estandarización por edad de tasas usando población oficial INE.
  • Esperanza de vida a nivel CCAA y provincia.

Cuándo NO usarla

  • Comparativas internacionales directas: usa Eurostat / OECD para garantizar armonización.
  • Información clínica detallada por episodio: para eso, CMBD del Ministerio de Sanidad.
  • Datos en tiempo real: la mayoría de series son anuales con lag de 6-18 meses.

Conceptos clave

  • MNP (Movimiento Natural de la Población). La estadística mensual y anual oficial de eventos vitales.
  • Padrón vs. censo. El padrón es continuo y administrativo (residentes empadronados). El censo es decenal y, desde 2021, basado en registros + encuesta de control. Difieren en cobertura de no-empadronados.
  • JSON-stat y CSV (separador ;). El INE distribuye en formato JSON-stat y CSV con separador ; y codificación a veces ISO-8859-15. Atención al parsing.
  • CCAA, NUTS y códigos. El INE usa códigos propios (CCAA 01-19, provincia 01-52). Hay tablas de equivalencia oficiales con NUTS 2 / NUTS 3.

Cómo se accede

  • Web: https://www.ine.es, INEbase organizado por temas.
  • API JSON: https://www.ine.es/dyngs/DataLab/manual.html, endpoint https://servicios.ine.es/wstempus/js/.
  • Cliente R: INEbaseR (no en CRAN, GitHub) o consumo directo con httr2 + jsonlite.
  • Cliente Python: ine (PyPI, comunidad), o llamadas directas con requests.
  • PC-Axis y CSV: descargas masivas.
  • Microdatos: ENSE, EESE, EPF y otras encuestas distribuyen ficheros de microdatos bajo application gratuita.

Limitaciones / cobertura

  • Defunciones por causa: cierre anual con lag ~12-18 meses. Estimaciones provisionales mensuales (EDeP) con menor detalle.
  • Cambios de codificación causa-muerte entre listas (lista corta, lista CIE-10 detallada).
  • Cambios metodológicos en el padrón (revisión 2021) afectan comparabilidad con series previas.
  • Encuestas ENSE/EESE: muestras independientes, no panel.

Enlaces

Relacionadas en esta página


Ministerio de Sanidad: Portal Estadístico SNS

El Portal Estadístico del Sistema Nacional de Salud del Ministerio de Sanidad (España) es complementario al INE: cubre el ángulo del sistema sanitario (recursos, actividad asistencial, cobertura, calidad). El INE produce demografía y salud poblacional. Sanidad produce datos del sistema asistencial.

Es la fuente oficial del CMBD (Conjunto Mínimo Básico de Datos al alta hospitalaria), de las estadísticas de centros sanitarios (SIAE), de los indicadores clave del SNS y de las estimaciones de gasto sanitario público (Sistema de Cuentas de Salud, SCS).

Qué incluye

  • CMBD: registro de altas hospitalarias del SNS, codificadas en CIE-10-ES (desde 2016) con diagnósticos, procedimientos, severidad, GRD.
  • SIAE: Estadística de Centros Sanitarios de Atención Especializada.
  • Indicadores clave del SNS: lista de espera, satisfacción, mortalidad evitable, indicadores de seguridad.
  • Encuestas de Recursos Humanos del SNS.
  • Cuentas Satélite del Gasto Sanitario Público.
  • Boletines epidemiológicos (Red Nacional de Vigilancia Epidemiológica, RENAVE, ahora CNE-ISCIII).

Cuándo usarla

  • Análisis del sistema asistencial español (recursos, actividad, calidad).
  • Estudios sobre episodios hospitalarios codificados (CIE-10-ES, GRDs).
  • Indicadores de salud asistencial a nivel CCAA.
  • Mortalidad evitable y avoidable mortality con metodología armonizada SNS.

Cuándo NO usarla

  • Datos individuales de pacientes: el CMBD agregado público está disponible. Los microdatos requieren application al Subdirección General de Información Sanitaria.
  • Atención primaria: cobertura limitada en portal público (depende de cada CCAA).
  • Demografía pura: usa INE.

Conceptos clave

  • CMBD. Registro administrativo de altas hospitalarias. Cubre prácticamente el 100 % de altas del SNS público y la mayoría de privadas con concierto. Codificación cambió de CIE-9-MC a CIE-10-ES en 2016, ojo a la break en series.
  • GRD / APR-DRG. Agrupadores que clasifican episodios por consumo de recursos. España usa APR-DRG (3M) en CMBD.
  • CIE-10-ES. Variante española del CIE-10 (clinical modification), no exactamente igual al ICD-10 OMS.
  • CCAA-dependencia. Algunas estadísticas dependen del reporte voluntario de las CCAA. Cobertura desigual.

Cómo se accede

Limitaciones / cobertura

  • Lag CMBD: cierre del año t en torno a t+18 meses.
  • Heterogeneidad de cobertura entre CCAA en algunos indicadores.
  • Cambio metodológico CIE-9-MC → CIE-10-ES en 2016 introduce discontinuidad fuerte.

Enlaces

Relacionadas en esta página

  • INE España, complementaria, con foco poblacional y vital.

CDC WONDER

CDC WONDER (Wide-ranging ONline Data for Epidemiologic Research) es la plataforma de consulta del CDC estadounidense para microdatos agregables de salud pública. Es el equivalente funcional al portal estadístico del SNS español pero con una arquitectura técnica más madura: permite construir queries multivariadas online sobre tablas de mortalidad, natalidad, cáncer, vacunación, dispensación de opioides y otras, con desagregación por edad, sexo, raza/etnia, condado y año.

Qué incluye

  • Underlying Cause of Death (1999-presente, CIE-10) y Multiple Cause of Death, mortalidad por causa, desagregada hasta nivel condado.
  • Detailed Mortality (1968-1998 con CIE-8 / CIE-9).
  • Natality: nacimientos con detalle clínico y demográfico.
  • United States Cancer Statistics (USCS).
  • Vaccine Adverse Event Reporting System (VAERS), eventos post-vacunación auto-reportados.
  • Population estimates (consistentes con Census Bureau).
  • Environmental data: TSP, PM, temperatura.

Cuándo usarla

  • Mortalidad y natalidad en EEUU con desagregación detallada.
  • Comparativas estado-condado en EEUU.
  • Análisis longitudinal de mortalidad por causa específica.
  • Generación rápida de tablas agregadas con queries online.

Cuándo NO usarla

  • Países fuera de EEUU.
  • Microdatos individuales: WONDER agrega. Los microdatos de mortalidad están en NCHS (National Center for Health Statistics) bajo Research Data Center.
  • Análisis donde el cell suppression afecte: WONDER suprime celdas con conteos < 10 (privacidad).

Conceptos clave

  • Cell suppression. Conteos < 10 se reportan como “Suppressed”. Esto limita análisis de causas raras a nivel condado.
  • ICD-10 transition. Cambio CIE-9 → CIE-10 en 1999, comparabilidad pre/post requiere reclasificación cuidadosa.
  • Bridged-race vs. single-race. El CDC mantuvo “bridged-race” (para compatibilidad con definiciones pre-2000). Desde 2018 el estándar es single-race. Verifica qué versión usas.
  • Edad ajustada a estándar 2000 USA. El estándar de referencia para tasas estandarizadas es la población USA 2000.

Cómo se accede

  • Web (query builder): https://wonder.cdc.gov.
  • API: existe API XML semi-documentada. Menos amigable que el portal web pero scriptable.
  • Cliente R / Python: sin paquete oficial. wondR (GitHub, comunidad) o consumo directo XML.

Limitaciones / cobertura

  • Solo Estados Unidos.
  • Cell suppression limita análisis de eventos raros a nivel granular.
  • Algunos datasets tienen lag de 1-2 años.
  • VAERS es passive surveillance: no inferencia causal directa.

Enlaces

Relacionadas en esta página

  • NHANES, encuesta CDC complementaria con datos individuales.

NHANES

NHANES (National Health and Nutrition Examination Survey) es el programa de encuestas del CDC que combina entrevistas en hogar y examen físico en clínica móvil sobre una muestra representativa de la población estadounidense. Es la fuente de referencia mundial para datos de salud nacional con medición objetiva (no solo auto-reporte): toma de tensión, antropometría, espirometría, ecografía hepática, analítica completa de sangre y orina, dieta 24h.

NHANES continuous, desde 1999, se ejecuta en ciclos bienales (1999-2000, 2001-2002… 2017-2018, y de nuevo desde 2021-2023 tras pausa COVID). Cada ciclo es una muestra independiente con factores de ponderación.

Qué incluye

  • Demographics: variables sociodemográficas.
  • Examination: antropometría, tensión, audición, dental, espirometría, ecografía hepática elastográfica, dexa, vision.
  • Laboratory: bioquímica, hemograma, marcadores cardiometabólicos, vitaminas, contaminantes ambientales, perfil lipídico, hba1c.
  • Questionnaire: historia médica, dieta, actividad física, sueño, salud mental, conductas.
  • Dietary: recall 24h × 2.

Cuándo usarla

  • Estimación de prevalencia de condiciones (HTA, diabetes, dislipemia, obesidad) en EEUU con medición objetiva.
  • Estudios de exposición a contaminantes ambientales con biomarcadores.
  • Análisis de tendencias temporales en biomarcadores poblacionales.
  • Reference ranges para variables clínicas en población general.

Cuándo NO usarla

  • Inferencia causal sin estrategia adicional: NHANES es transversal (cada ciclo es cross-sectional independiente).
  • Países fuera de EEUU.
  • Subgrupos pequeños sin considerar el diseño muestral.

Conceptos clave

  • Diseño muestral complejo. Estratificado, multietápico, con sobremuestreo de grupos específicos (afroamericanos, hispanos, mayores de 60). Hay que usar siempre WTMEC2YR (o WTINT2YR) como pesos y declarar SDMVSTRA (strata) y SDMVPSU (PSU) en el análisis. Ignorarlo es el error #1 en análisis NHANES.
  • Ciclos de 2 años. Para aumentar tamaño muestral hay que combinar ciclos y reajustar pesos (regla: el peso combinado es el peso original dividido entre el número de ciclos).
  • Pre-pandemic 2017-March 2020. Un ciclo especial (parcial) por pausa COVID. Pesos específicos.
  • NHANES vs. NHIS. NHIS (National Health Interview Survey) es solo entrevista. NHANES añade examen y laboratorio. No los confundas.

Cómo se accede

  • Web (datasets): https://www.cdc.gov/nchs/nhanes/.
  • Datasets en XPT (SAS Transport). Conversión directa con haven::read_xpt() (R) o pandas.read_sas(format='xport') (Python).
  • Cliente R: nhanesA (CRAN), recomendado, abstrae descarga y merge de ciclos.
  • Cliente Python: nhanes (no oficial), o descarga directa + pandas.
  • Documentación por ciclo y módulo: imprescindible leer codebooks (_doc.htm).

Limitaciones / cobertura

  • Solo EEUU.
  • Datos transversales. Sin seguimiento longitudinal (excepto algunos subestudios de mortalidad: NHANES Linked Mortality Files).
  • Subgrupos sobremuestreados requieren cuidado con los pesos.
  • Algunos módulos disponibles solo en Research Data Center (datos restringidos).

Enlaces

Relacionadas en esta página

  • CDC WONDER, datos agregados. NHANES es la fuente de microdatos individuales con examen.
  • UK Biobank, análogo en UK pero longitudinal, mucho más profundo en genómica.

Human Mortality Database (HMD)

El Human Mortality Database es el estándar académico para análisis demográfico formal de mortalidad. Mantenida conjuntamente por el Max Planck Institute for Demographic Research (Rostock) y la University of California Berkeley, contiene tablas de mortalidad armonizadas para ~40 países con datos de alta calidad, en muchos casos desde el siglo XIX.

Los datos están meticulosamente reconstruidos a partir de fuentes nacionales con metodología transparente, documentada por país en Country Background and Documentation files. No es una base “rápida”: es la fuente de mayor calidad disponible para tablas de mortalidad por edad-año-sexo.

Qué incluye

  • Tablas de mortalidad anuales (período y cohorte) por edad simple (0-110+) y sexo.
  • Exposiciones (population-years).
  • Defunciones por edad simple, sexo, año.
  • Esperanzas de vida a cada edad.
  • Versiones 1×1, 1×5, 5×1, 5×5 (edad × año).
  • Subpoblaciones para algunos países (HMD subnacional, p. ej. CCAA en España vía HMD Spain Region).

Cuándo usarla

  • Análisis demográfico formal: tablas de vida, descomposición Arriaga, Lee-Carter, lifespan inequality (Gini, varianza).
  • Series largas de mortalidad para análisis seculares.
  • Cualquier comparativa internacional donde la calidad metodológica importe más que la cobertura geográfica.
  • Forecasting demográfico.

Cuándo NO usarla

  • Países LMIC con sistemas de registro vital débiles (no incluidos por estándares de calidad).
  • Mortalidad por causa: HMD es all-cause solamente. Para causas específicas, INE / Eurostat / WHO Mortality Database.
  • Análisis muy recientes: lag de 1-2 años respecto al último año disponible.

Conceptos clave

  • Período vs. cohorte. Período: tablas calculadas con las tasas observadas en un año t (hipotética cohorte expuesta a esas tasas toda su vida). Cohorte: seguimiento real de una cohorte de nacimiento. Las cohortes están disponibles solo para series suficientemente largas.
  • Lexis triangles. Disponibles para análisis avanzado (descomposición de tasas en cuadrángulos edad × periodo).
  • HMD Methods Protocol. Documento técnico explícito que describe la armonización. Léelo si vas a comparar HMD con cifras nacionales (diferirán ligeramente).
  • Tipos de tablas: 1×1, 5×1, 1×5, 5×5, el primer número es la anchura del intervalo de edad y el segundo el del periodo.

Cómo se accede

  • Web: https://www.mortality.org, registro gratuito requerido.
  • Cliente R: HMDHFDplus (CRAN), el estándar de facto.
  • Cliente Python: descarga directa con requests + parseo (formato fijo bien documentado).
  • Bulk download: archivos por país y tipo de tabla.

Limitaciones / cobertura

  • ~40 países, todos high-income / Europa del Este / Japón / Taiwan / Corea / Israel.
  • No países LMIC (por requisitos de calidad de registro vital).
  • All-cause únicamente.
  • Lag típico 1-2 años.

Enlaces

Relacionadas en esta página

  • INE España, fuente nacional alimentadora de la serie HMD-España.
  • WHO GHO, cobertura global pero metodología menos uniforme.

UK Biobank

UK Biobank es la cohorte poblacional prospectiva más completa del mundo en términos de fenotipado integrado: ~500 000 participantes británicos reclutados entre 2006 y 2010 (edad 40-69 al reclutamiento), con seguimiento continuo a través de registros sanitarios del NHS. La combinación de genotipado masivo + fenotipado profundo + linkage a EHR + imagen multimodal la convierte en la referencia mundial para estudios genéticos poblacionales, risk scoring y descubrimiento biomédico.

El acceso es restringido (managed access) pero ampliamente otorgado a investigadores académicos y de industria. Desde 2022 opera mayoritariamente vía la Research Analysis Platform (RAP) de DNAnexus, los datos no se descargan, se analizan en cloud.

Qué incluye

  • Baseline: entrevista touchscreen (estilo de vida, salud, antecedentes), medidas físicas (antropometría, espirometría, audición, handgrip), muestras biológicas (sangre, orina, saliva).
  • Genotipado: GWAS-array (Affymetrix) en los 500k, whole-exome sequencing en los 500k, whole-genome sequencing completado para los 500k (release 2023).
  • Imagen: subconjunto de ~100 000 con RM cardiaca, abdominal, cerebral. DEXA. Ecografía carotídea. OCT retina.
  • Linkage a registros NHS: hospital episode statistics (HES), defunciones, registro de cáncer, atención primaria (subset), prescripciones.
  • Reassessments: repeticiones de visita en subset. online questionnaires sucesivos (dieta, salud mental, dolor, exposición ocupacional).
  • Acelerometría: subset de ~100k con monitor 7 días.

Cuándo usarla

  • GWAS y estudios genéticos a gran escala.
  • Polygenic risk scores (entrenamiento y validación).
  • Estudios de asociación entre fenotipos profundos y outcomes incidentes (linkage NHS).
  • Imagen + genética (radiogenómica).
  • Validación externa de modelos de riesgo cardiovascular o de cáncer.

Cuándo NO usarla

  • Inferencia poblacional sin corrección de healthy volunteer bias. UK Biobank tiene sesgo de selección fuerte: participantes más sanos, más educados, más blancos que la población UK general. Para prevalencias poblacionales, NHANES o ENSE son preferibles.
  • Subgrupos raciales no-blancos pequeños: el reclutamiento es ~94 % blanco-británico.
  • Estudios sobre infancia o adolescencia: cohorte adulta.

Conceptos clave

  • Healthy volunteer bias. Documentado y cuantificado (Fry et al. 2017, Am J Epidemiol). Las prevalencias absolutas en UK Biobank no son representativas. Las asociaciones genéticas suelen ser válidas pero con efectos posiblemente atenuados.
  • Data Field IDs. Cada variable se identifica por un Field ID numérico (21001 = BMI, 30750 = HbA1c). El Data Showcase es la herramienta para buscarlos.
  • Application + DUA. Acceso por application (registration → application → MTA + payment). Tiempo típico: 2-6 meses.
  • Research Analysis Platform (RAP). Plataforma cloud DNAnexus donde residen los datos y se ejecutan los análisis. Pay-as-you-go por compute y storage. Genomics datasets (WES, WGS) solo accesibles vía RAP, no descargables.
  • Returns. Resultados de imagen procesados, scores derivados, etc., devueltos por investigadores anteriores y disponibles para nuevos proyectos.

Cómo se accede

Limitaciones / cobertura

  • Cohorte adulta UK, sesgada hacia healthy volunteers.
  • ~94 % blanco-británico, diversidad limitada.
  • Solo NHS registros (UK).
  • Coste y tiempo de acceso no triviales.

Enlaces

Relacionadas en esta página

  • FinnGen, cohorte análoga finlandesa con linkage nacional completo.
  • NHANES, alternativa para representatividad poblacional (a costa de tamaño y profundidad).

FinnGen

FinnGen es la cohorte genómica nacional finlandesa: combina muestras de biobancos hospitalarios y poblacionales con linkage exhaustivo a registros sanitarios nacionales finlandeses (uno de los sistemas de registro más completos del mundo). Última data freeze pública: DF12, ~500 000 participantes con genotipado GWAS-array imputado a panel de referencia finlandés.

La ventaja diferencial frente a UK Biobank es doble: (a) población finlandesa con bottleneck genético, que enriquece la potencia para variantes de baja frecuencia específicas. (b) linkage nacional total a registros de hospitalización, atención primaria, dispensación, defunciones, cáncer y prestaciones sociales (Kela), todo con identificador único nacional.

Qué incluye

  • Genotipado GWAS-array imputado al panel de referencia SISu (finlandés).
  • Linkage a registros: Care Register for Health Care (HILMO), Cause of Death, Cancer Registry, Drug Purchase Register (Kela), Specialty Outpatient Care, Primary Health Care.
  • Endpoint phenotypes pre-definidos (~3 000 endpoints clínicos curados por equipo médico FinnGen).
  • Resultados GWAS open data: summary statistics para casi todos los endpoints públicos en cada release.

Cuándo usarla

  • GWAS y phenome-wide association studies (PheWAS) con endpoints clínicos curados.
  • Análisis de variantes de baja frecuencia en población finlandesa (enriquecidas por el bottleneck).
  • Replicación y meta-análisis con UK Biobank y otras cohortes (a través de summary stats).
  • Mendelian randomization usando GWAS finlandeses como exposición o outcome.

Cuándo NO usarla

  • Estudios de diversidad poblacional global: cohorte de ascendencia finlandesa.
  • Análisis a nivel individual de datos sensibles sin pasar por el Sandbox de FinnGen, no se descargan datos individuales.
  • Cuando necesites imagen, dieta detallada o muestras biológicas frescas: FinnGen es genética + registros, no fenotipado profundo tipo UK Biobank.

Conceptos clave

  • Endpoint definitions. FinnGen mantiene definiciones armonizadas de endpoints clínicos (combinan códigos CIE-10, CIE-9, CIE-8, procedimientos, dispensación, reembolsos especiales Kela). Documentados en https://www.finngen.fi/en/researchers/clinical-endpoints.
  • Data Freezes (DF). Releases acumulativos numerados (DF1, DF2… DF12). Cada DF aumenta el N. Cita siempre la DF exacta.
  • Sandbox. Plataforma cloud donde se ejecutan los análisis sobre datos individuales (sin extracción). Acceso a través de application aprobada.
  • Summary statistics públicos. A diferencia de UK Biobank, FinnGen publica abiertamente los GWAS summary statistics por endpoint, muy útiles para colocalización, MR, replicación.

Cómo se accede

  • Web pública con browser de resultados: https://www.finngen.fi/en, Risteys navegador de endpoints y PheWAS.
  • Summary statistics públicos: Google Cloud Storage bucket, descarga libre por endpoint.
  • Acceso a microdatos: application aprobada → análisis en Sandbox.
  • Risteys: https://r12.risteys.finngen.fi/, interfaz de exploración de endpoints, PheWAS y comorbilidades.

Limitaciones / cobertura

  • Población finlandesa: bottleneck genético, patrón único, no generalizable a otras ancestralidades.
  • Genética principalmente GWAS-array imputado. Secuenciación más limitada que UK Biobank.
  • Acceso a individual-level solo via Sandbox.

Enlaces

Relacionadas en esta página

  • UK Biobank, cohorte hermana, fenotipado más profundo, población más diversa.

MIMIC-IV

MIMIC-IV (Medical Information Mart for Intensive Care, version IV) es el dataset de registros electrónicos hospitalarios desidentificados más utilizado en investigación de clinical informatics y machine learning clínico. Mantenido por el MIT Laboratory for Computational Physiology, contiene datos del Beth Israel Deaconess Medical Center (Boston) de 2008-2022: ~300 000 hospitalizaciones, ~73 000 estancias en UCI, con granularidad de evento (cada signo vital, cada laboratorio, cada nota, cada medicación).

Es la fixture sobre la que se han entrenado y validado cientos de modelos predictivos clínicos (mortalidad UCI, sepsis, AKI, length of stay) y resulta un estándar para benchmarking en clinical NLP.

Qué incluye

  • hosp schema: admisiones, demografía, diagnósticos CIE-10/CIE-9, procedimientos, laboratorios, microbiología, medicación administrada y prescrita.
  • icu schema: signos vitales (chartevents), salidas (outputevents), entradas (inputevents), eventos (procedureevents, datetimeevents).
  • note schema (MIMIC-IV-Note): notas clínicas desidentificadas (discharge summaries, radiología).
  • MIMIC-IV-ECG: trazados ECG de 12 derivaciones.
  • MIMIC-CXR (linked): imágenes de tórax con reports asociados.

Cuándo usarla

  • Modelos predictivos clínicos en pacientes críticos.
  • Benchmarking de algoritmos de ML clínico (sepsis, mortalidad, readmission).
  • Investigación en clinical NLP sobre notas clínicas.
  • Estudios de farmacoepidemiología hospitalaria.
  • Cualquier proyecto que requiera datos clínicos granulares con permiso de redistribución.

Cuándo NO usarla

  • Inferencia poblacional: sesgo extremo (un solo hospital terciario, Boston. Pacientes UCI o ingresados).
  • Estudios de atención primaria o ambulatoria: solo eventos asociados a hospitalización.
  • Casos pediátricos: MIMIC-IV es adulto (>18).
  • Comparaciones internacionales sin extrema cautela.

Conceptos clave

  • PhysioNet credentialed access. Acceso bajo registro en PhysioNet + completar curso CITI “Data or Specimens Only Research” + firmar DUA. Tiempo típico: 1-2 semanas (no meses).
  • Schema. Cargable directamente en PostgreSQL, BigQuery o DuckDB. SQL scripts oficiales en GitHub.
  • hadm_id, stay_id, subject_id. Identificadores anidados: paciente → hospitalización → estancia UCI. La unidad de análisis varía según pregunta.
  • itemid. Cada signo vital / parámetro tiene un itemid único en la tabla d_items. Los mapeos entre versiones MIMIC-III ↔︎ MIMIC-IV cambian, los códigos no son retrocompatibles.
  • Desidentificación. Fechas desplazadas por sujeto (mantienen intervalos relativos, no absolutos). Pacientes >89 agrupados.

Cómo se accede

  • PhysioNet: https://physionet.org/content/mimiciv/.
  • Requisitos: PhysioNet account → CITI training certificate → DUA signed.
  • GitHub oficial con SQL scripts: https://github.com/MIT-LCP/mimic-code, schema, derived tables (mimic-iv-derived), código de cohortes canónicas (sepsis-3, KDIGO AKI).
  • BigQuery hosted: acceso vía Google BigQuery (necesario aceptar BAA).
  • Carga local típica: PostgreSQL 15+ con ~100 GB de datos.

Limitaciones / cobertura

  • Un único hospital terciario (Boston).
  • Cohorte de pacientes ingresados/UCI. Muy sesgada respecto a población general.
  • Notas clínicas en inglés.
  • Desidentificación temporal limita análisis estacionales.

Enlaces

Relacionadas en esta página

  • UK Biobank, datos individuales también restringidos, pero con foco poblacional + genómica, no clínica EHR.