Bases de datos socioeconómicas
Indicadores macro, demográficos y sociales para análisis cuantitativo reproducible
Sobre bases de datos socioeconómicas
Las bases de datos socioeconómicas publican series temporales y secciones transversales de indicadores macroeconómicos, demográficos, sociales y ambientales producidas por oficinas estadísticas oficiales o por organismos multilaterales. A diferencia de los datasets biomédicos, su valor reside menos en el detalle granular y más en la armonización entre países y períodos: lo que se descarga no es la observación bruta, sino el indicador ya construido bajo un marco metodológico explícito (SNA 2008, ESA 2010, SDG framework, NACE Rev. 2, ISIC Rev. 4).
Conviene distinguir cuatro capas que aparecen recurrentemente en cualquier flujo de trabajo serio:
- Agregadores globales: World Bank, OECD, UN, IMF. Recopilan datos de oficinas nacionales, los homogeneizan según estándares internacionales y los redistribuyen con metadatos exhaustivos. Son la primera parada para comparaciones internacionales.
- Oficinas regionales: Eurostat y el Portal de Datos Abiertos de la UE. Garantizan comparabilidad reforzada dentro del espacio EEE/UE mediante reglamentos estadísticos vinculantes.
- Oficinas nacionales: INE en España. Ofrecen el mayor nivel de desagregación geográfica y sectorial, pero requieren mediar la armonización a estándares internacionales cuando se pretende comparación.
- Portales derivados o curados: Our World in Data, FRED. No producen datos primarios: los reorganizan, visualizan y, en algunos casos, los enriquecen con metadatos editoriales o derivaciones (índices compuestos, per capita, en PPA).
Tres principios prácticos:
- Citar la fuente primaria, no el agregador. Si descargas el PIB de Our World in Data, este viene de Penn World Table o del World Bank. Cita el originador y registra la versión del agregador como vía de acceso.
- PPA vs nominal vs constante. Es el error de interpretación más frecuente. Verifica siempre en metadatos qué deflactor se aplica y a qué año base, y si la conversión a USD es por tipo de cambio de mercado o por paridad de poder adquisitivo.
- SDMX como lengua franca. Eurostat, OECD, IMF, INE y ECB publican vía SDMX (Statistical Data and Metadata eXchange). Aprender el modelo (dataflows, dimensiones, code lists) ahorra muchísimo tiempo: el mismo cliente sirve para todos.
Esta página cataloga diez repositorios ordenados por capa: primero los agregadores globales, después los regionales europeos, luego el referente nacional español, y por último los portales derivados de uso más frecuente en análisis aplicado.
World Bank Open Data
El World Bank Open Data publica más de 16.000 indicadores de desarrollo económico, social y ambiental para prácticamente todos los países del mundo, con coberturas que en muchas series se remontan a 1960. Es la fuente canónica para World Development Indicators (WDI) y aloja además colecciones especializadas (Doing Business, retirada, , Worldwide Governance Indicators, Global Financial Development, Poverty and Inequality Platform).
Su valor diferencial frente a fuentes nacionales es la armonización: los indicadores se construyen a partir de envíos de oficinas estadísticas pero se ajustan a definiciones comparables internacionalmente y se rellenan huecos puntuales con estimaciones del propio Banco Mundial (estas estimaciones se marcan en los metadatos).
Qué incluye
- World Development Indicators (WDI): macroeconomía, demografía, educación, salud, infraestructura, medio ambiente, gobernanza.
- Poverty and Inequality Platform (PIP): líneas de pobreza internacionales, Gini, percentiles de la distribución de ingreso/consumo.
- Worldwide Governance Indicators (WGI): seis dimensiones de calidad institucional.
- Global Financial Development: profundidad, acceso, eficiencia y estabilidad financiera.
- International Debt Statistics (IDS): deuda externa de países de renta baja y media.
Cuándo usarla
Comparaciones internacionales con horizonte largo, benchmarking de países, análisis de convergencia, regresiones cross-country, paneles macro a frecuencia anual. Punto de partida natural antes de bajar a fuentes nacionales para detalle adicional.
Cuándo NO usarla
- Frecuencia infra-anual. WDI es anual. Para PIB trimestral, IPC mensual o desempleo mensual, ve a OECD, Eurostat o a la oficina nacional.
- Granularidad subnacional. Salvo excepciones (proyecto Subnational Poverty), los indicadores son a nivel país. Para regiones NUTS, Eurostat. Para CCAA o provincias, INE.
- Indicadores muy recientes. Suele haber 1-2 años de lag respecto a fuentes nacionales por el proceso de armonización.
Conceptos clave
- Códigos de indicador. Cada serie tiene un identificador estable (p. ej.
NY.GDP.MKTP.CDpara PIB en USD corrientes). Memoriza los prefijos:NY(cuentas nacionales),SP(población),SE(educación),SH(salud),EN(medio ambiente). - PPA constantes vs USD corrientes. Para comparaciones de bienestar, usa indicadores
*.PP.KD(PPA en USD constantes). Para flujos financieros,*.CD(USD corrientes). - Bases de PPA. Las series en PPA cambian de año base cada ronda del International Comparison Program (2011, 2017, 2021). Cambios de base producen revisiones notables: documenta la versión que usas.
- Estimaciones imputadas. El campo
Source Noteindica si un dato es observado, imputado o proyección, crítico cuando se publican papers.
Cómo se accede
# R - paquete WDI (mantenido por Vincent Arel-Bundock)
install.packages("WDI")
library(WDI)
# Búsqueda de indicadores por palabra clave
WDIsearch("gdp.*capita.*ppp")
# Descarga: PIB per cápita PPA constantes, UE + EE.UU., 2000-2023
df <- WDI(
country = c("EU", "US"),
indicator = "NY.GDP.PCAP.PP.KD",
start = 2000,
end = 2023
)# Python
import pandas_datareader.wb as wb
df = wb.download(
indicator="NY.GDP.PCAP.PP.KD",
country=["EU", "US"],
start=2000, end=2023
)API REST directa: https://api.worldbank.org/v2/country/{ISO}/indicator/{CODE}?format=json.
Limitaciones / cobertura
- Cobertura excelente para 1990-2022. Series previas a 1980 con muchos huecos en países en desarrollo.
- Revisiones retrospectivas frecuentes, fija siempre la versión (
WDI_versionen metadatos) si la reproducibilidad es crítica. - No publica datos de Taiwán como país independiente. Aparecen agregados en “China” o ausentes.
Enlaces
Relacionadas en esta página
OECD.Stat, mejor frecuencia infra-anual para países desarrollados.IMF Data, alternativa para macro financiera y balanza de pagos.Our World in Data, usa intensivamente WDI como fuente upstream.
OECD.Stat
OECD.Stat es la plataforma estadística de la Organización para la Cooperación y el Desarrollo Económicos. Cubre los 38 países miembros (más asociados clave: Brasil, China, India, Indonesia, Sudáfrica) con una profundidad sectorial superior a la del Banco Mundial: cuentas nacionales detalladas, Input-Output, productividad por industria (KLEMS), empleo por ocupación y nivel educativo, gasto público por función (COFOG), bienestar (Better Life Index) y mercado laboral granular.
Su ventaja diferencial frente al WDI es la frecuencia infra-anual (mensual y trimestral) y el detalle metodológico: cada dataset trae el MetadataReportingFile con definiciones exactas y rupturas de serie documentadas.
Qué incluye
- Cuentas nacionales (PIB, gasto, ahorro, formación bruta de capital), anual y trimestral.
- Mercado laboral: tasas de empleo y desempleo armonizadas, horas trabajadas, costes laborales unitarios.
- Educación: indicadores PISA, PIAAC, educación terciaria, gasto por estudiante.
- Salud: gasto sanitario, esperanza de vida, ENS armonizadas.
- Comercio internacional bilateral y por valor añadido (TiVA).
- Productividad multifactorial, KLEMS, Input-Output.
Cuándo usarla
Análisis comparado entre países desarrollados con mayor detalle que WDI. Series mensuales o trimestrales de macro. Estudios de productividad y mercado laboral. Análisis fiscales (COFOG).
Cuándo NO usarla
- Países fuera de OECD/asociados. Para África subsahariana o sudeste asiático, usa WDI o las propias bancos regionales (AfDB, ADB).
- Series históricas profundas. OECD suele cubrir desde 1970-1990 en función del indicador. Para series anteriores, hay que recurrir a Penn World Table o reconstrucciones académicas (Maddison Project).
- Datos subnacionales sistemáticos. Aunque hay un dataset Regions and Cities, su cobertura es desigual.
Conceptos clave
- Migración a
data-explorer. OECD jubiló la interfazstats.oecd.orgclásica en 2024 y consolidó todo endata-explorer.oecd.org, basado en SDMX 2.1. - Dataflows SDMX. Cada conjunto de datos es un dataflow con identificador estable. Las dimensiones (país, frecuencia, medida) se filtran por keys tipo
LOCATION.MEASURE.FREQUENCY. - Rupturas de serie. OECD documenta explícitamente los breaks metodológicos. Ignorarlos da regresiones espurias en series largas.
Cómo se accede
# R - paquete OECD (cliente SDMX)
install.packages("OECD")
library(OECD)
# Buscar datasets
search_dataset("unemployment")
# Estructura de un dataset (dimensiones disponibles)
get_data_structure("DP_LIVE")
# Descarga
df <- get_dataset(
dataset = "DP_LIVE",
filter = "ESP+FRA+DEU.UNEMP.TOT.PC_LF.A"
)API SDMX-JSON directa: https://sdmx.oecd.org/public/rest/data/{AGENCY},{DATAFLOW},{VERSION}/{KEY}.
Limitaciones / cobertura
- Cobertura geográfica restringida a países miembros y un grupo de asociados.
- Algunos datasets premium (TiVA en versión detallada) requieren institución suscriptora.
- La migración reciente de plataforma ha invalidado URLs antiguas, verifica enlaces.
Enlaces
Relacionadas en esta página
World Bank Open Data, cobertura geográfica más amplia.Eurostat, solapa parcialmente para países UE con mayor detalle regional.IMF Data, mejor para flujos financieros y balanza de pagos.
UN Data
UN Data es el portal de la Organización de las Naciones Unidas que agrega más de 60 bases de datos producidas por agencias del sistema (UNSD, FAO, UNESCO, OMS, UNICEF, ACNUR, ONU Mujeres, OIT, UNCTAD, UNEP). No produce datos primarios: redistribuye, con metadatos armonizados, lo que cada agencia publica en su dominio temático.
Conceptualmente sirve dos propósitos: punto de entrada único cuando no se conoce qué agencia mantiene un indicador concreto, y fuente canónica para los indicadores asociados a los Objetivos de Desarrollo Sostenible (SDG Indicators Database, mantenida por UNSD).
Qué incluye
- SDG Indicators Database: 248 indicadores oficiales de los 17 ODS, con desagregaciones por sexo, edad, área urbana/rural cuando aplica.
- UN Comtrade: comercio internacional bilateral por producto (HS, SITC), de las series más detalladas que existen.
- Population Division: proyecciones demográficas (revisión bienal del World Population Prospects).
- FAOSTAT: agricultura, alimentación, pesca, forestal (vía FAO).
- UNESCO Institute for Statistics: educación detallada.
- WHO Global Health Observatory: salud global.
Cuándo usarla
Indicadores ODS oficiales. Demografía detallada con proyecciones. Comercio internacional bilateral. Cuando se necesita la fuente onusiana específica para validez política o reglamentaria.
Cuándo NO usarla
- Cuando ya conoces la agencia productora. Es preferible ir directamente a la agencia (FAOSTAT, WHO GHO, UNCTAD Stats): el portal UN Data tiende a quedarse desactualizado frente a las fuentes upstream.
- API unificada. No existe una API REST unificada de UN Data. Cada agencia mantiene su propio endpoint. Para SDG, usa el endpoint específico de UNSD (
https://unstats.un.org/SDGAPI/).
Conceptos clave
- Indicadores ODS vs proxy nacionales. Para muchos países la oficina nacional reporta un indicador proxy en lugar del oficial. El campo
Natureindica si esC(calculado por la agencia internacional),N(reportado por el país) oE(estimación). - Cobertura asimétrica. La calidad varía drásticamente por dominio: demografía y educación son muy completas. Gobernanza e instituciones tienen huecos importantes.
Cómo se accede
# Python - API REST de UNSD para SDG
import requests
url = "https://unstats.un.org/SDGAPI/v1/sdg/Indicator/Data"
params = {"indicator": "1.1.1", "areaCode": "724", "timePeriod": "2020"}
r = requests.get(url, params=params)
data = r.json()Para FAOSTAT, hay el paquete R FAOSTAT. Para Comtrade, el paquete comtradr.
Limitaciones / cobertura
- Agregador de agregadores: las URLs y endpoints cambian con frecuencia.
- Latencia significativa frente a fuentes nacionales (1-3 años).
- Algunos indicadores ODS solo se reportan para subconjuntos de países.
Enlaces
Relacionadas en esta página
World Bank Open Data, indicadores ODS también disponibles vía WDI.Our World in Data, visualiza intensivamente indicadores ODS de UNSD.
IMF Data
IMF Data (Fondo Monetario Internacional) es la referencia para estadísticas financieras y de balanza de pagos. Donde el Banco Mundial pone el énfasis en desarrollo y la OCDE en economía real comparada, el FMI cubre con detalle único el lado monetario y financiero: balanza de pagos, posiciones de inversión internacional, agregados monetarios, tipos de cambio, estadísticas fiscales gubernamentales, indicadores de solidez financiera.
Es además la fuente del World Economic Outlook (WEO), publicación semestral con proyecciones macro a 5 años para todos los países. Ampliamente citado como baseline en informes y modelos.
Qué incluye
- World Economic Outlook (WEO): PIB, inflación, cuenta corriente, deuda pública, observado y proyectado.
- International Financial Statistics (IFS): macro estandarizada (tipos de cambio, agregados monetarios, balanza de pagos).
- Balance of Payments Statistics (BOPS) y International Investment Position.
- Government Finance Statistics (GFS): ingresos, gastos, déficit, deuda por nivel de gobierno.
- Financial Soundness Indicators (FSI): solvencia, liquidez, calidad de activos del sistema bancario.
- Direction of Trade Statistics (DOTS): comercio bilateral en USD.
Cuándo usarla
Análisis de balanza de pagos y financiación externa. Series de tipo de cambio históricos consistentes. Proyecciones macro para escenarios. Estabilidad financiera y banca.
Cuándo NO usarla
- Indicadores reales y sociales. El FMI no es la fuente natural para educación, salud, pobreza, ahí, WDI o agencias temáticas.
- Frecuencia diaria. Para tipos de cambio diarios o tipos de interés intradía, hay que ir a bancos centrales o a Bloomberg/Refinitiv.
Conceptos clave
- WEO vs IFS. WEO contiene un conjunto reducido de variables macro con proyecciones. IFS es la base más amplia con series puramente observadas y mayor frecuencia.
- Cambio de manual de balanza de pagos. El paso de BPM5 a BPM6 (2009) introdujo discontinuidades importantes en muchas series, verifica qué manual rige el periodo de tu análisis.
- API SDMX 2.1. El FMI publica en SDMX. El cliente Python
sdmx1y el Rrsdmxson la vía recomendada.
Cómo se accede
# R - paquete IMFData o vía rsdmx
install.packages("rsdmx")
library(rsdmx)
url <- "http://dataservices.imf.org/REST/SDMX_XML.svc/CompactData/IFS/A.US+ES.NGDP_RPCH"
df <- as.data.frame(readSDMX(url))# Python
import sdmx
imf = sdmx.Client("IMF")
data = imf.data("IFS", key={"FREQ": "A", "REF_AREA": ["US", "ES"], "INDICATOR": "NGDP_RPCH"})
df = sdmx.to_pandas(data)Limitaciones / cobertura
- Algunas series del WEO bajo paywall parcial (descargas masivas requieren registro).
- Las proyecciones se revisan dos veces al año (abril y octubre): si comparas modelos a lo largo del tiempo, fija la vintage del WEO.
- Discontinuidades por cambios metodológicos no siempre se documentan en el campo
description, consulta los manuales BPM6, MFSM, GFSM.
Enlaces
Relacionadas en esta página
World Bank Open Data, complementaria para indicadores de desarrollo.OECD.Stat, solapa en cuentas nacionales y comercio.FRED, agrega series IMF junto a series de Reserva Federal y otras fuentes.
Eurostat
Eurostat es la oficina estadística de la Unión Europea. Su misión es producir estadísticas armonizadas para los 27 Estados miembros más Reino Unido, EFTA y países candidatos. A diferencia de los agregadores anteriores, Eurostat opera con reglamentos vinculantes: los Estados están obligados por derecho UE a transmitir las series bajo definiciones y plazos comunes, lo que produce una comparabilidad muy superior dentro del espacio europeo.
Es la referencia obligada para análisis intra-UE en macro, demografía, mercado laboral, condiciones de vida, comercio intracomunitario y medio ambiente.
Qué incluye
- Cuentas nacionales (ESA 2010), trimestrales y anuales, con desagregación sectorial y por industria (NACE Rev. 2).
- Estadísticas regionales NUTS 0/1/2/3, el mayor nivel de detalle subnacional comparable de Europa.
- Labour Force Survey (EU-LFS) y Statistics on Income and Living Conditions (EU-SILC).
- Structural Business Statistics (SBS), comercio intra y extra-UE (COMEXT).
- Demografía detallada, proyecciones (EUROPOP).
- Indicadores ambientales (cuentas de emisiones, residuos, energía).
Cuándo usarla
Cualquier análisis comparado dentro de la UE. Estudios regionales NUTS. Pobreza, exclusión social y desigualdad europeas. Mercados laborales armonizados. Series temporales largas con metodología estable (ESA 2010 rige desde 2014).
Cuándo NO usarla
- Países no europeos. Salvo agregados regionales puntuales, la cobertura termina en Europa ampliada.
- Indicadores muy específicos a nivel nacional. Para CCAA españolas o estimaciones municipales, INE da más detalle que la versión Eurostat (que se queda en NUTS 3).
Conceptos clave
- NACE Rev. 2. Clasificación de actividad económica europea. Imprescindible para cualquier análisis sectorial. Entrará en vigor NACE Rev. 2.1 en 2025.
- NUTS 2024. Nomenclatura territorial. Revisiones cada ~3 años que pueden alterar agregados regionales. Documenta versión.
- SDMX como canal preferente. Eurostat publica vía API SDMX 2.1 desde 2023, sustituyendo el antiguo
bulkdownload(este último aún disponible, en legacy). - Códigos de dataflow. Cada tabla tiene código estable (p. ej.
nama_10_gdppara PIB anual ESA 2010). Aprende los prefijos:nama_(cuentas nacionales),demo_(demografía),lfs_(empleo),ilc_(condiciones de vida),env_(medio ambiente).
Cómo se accede
# R - paquete eurostat (rOpenSci, mantenido)
install.packages("eurostat")
library(eurostat)
# Búsqueda de tablas
toc <- get_eurostat_toc()
search_eurostat("gdp", type = "table")
# Descarga: PIB per cápita en PPA por NUTS 2, 2020
df <- get_eurostat(
id = "nama_10r_2gdp",
filters = list(unit = "PPS_HAB", time = "2020")
)# Python - paquete eurostat o pandasdmx
import eurostat
df = eurostat.get_data_df("nama_10r_2gdp")API REST: https://ec.europa.eu/eurostat/api/dissemination/sdmx/2.1/data/{DATAFLOW}/{KEY}.
Limitaciones / cobertura
- Latencia variable: PIB trimestral en t+45 días. SILC con 1-2 años de retraso por la naturaleza de la encuesta.
- Algunas series tienen suppression por confidencialidad (codificado
:cen lugar de valor). - Revisiones retrospectivas frecuentes en cuentas nacionales, fijar fecha de descarga si la reproducibilidad importa.
Enlaces
Relacionadas en esta página
Portal de Datos Abiertos de la UE, complemento con datasets administrativos no estadísticos.OECD.Stat, solapa para países UE miembros OECD.INE España, fuente nacional cuya transmisión a Eurostat genera las series ES.
Portal de Datos Abiertos de la UE
El Portal de Datos Abiertos de la Unión Europea (data.europa.eu) es el punto único de acceso a datasets publicados por instituciones, agencias y órganos de la UE, así como un agregador de los portales nacionales de datos abiertos de los Estados miembros. Resultado de la fusión en 2021 del antiguo EU Open Data Portal y el European Data Portal.
A diferencia de Eurostat, no se limita a estadística: incluye datos administrativos, regulatorios, geoespaciales (INSPIRE), de transparencia, contratación pública (TED), agricultura (FADN), pesca, transporte (TENtec).
Qué incluye
- Más de 1,7 millones de datasets indexados (incluye recursos federados de portales nacionales como
datos.gob.es). - Datos institucionales: Eurobarómetro, ECDC (epidemiología), EFSA (alimentaria), EMA (medicamentos).
- Tenders Electronic Daily (TED): contratación pública europea.
- Datos geoespaciales bajo Directiva INSPIRE.
- Indicadores de transparencia y Open Data Maturity de Estados miembros.
Cuándo usarla
Cuando el dato buscado no es estadística agregada sino administrativo o regulatorio. Búsqueda federada de datasets nacionales bajo una sola interfaz. data harvesting sistemático con DCAT-AP.
Cuándo NO usarla
- Como sustituto de Eurostat para indicadores macroeconómicos: el portal enlaza a Eurostat pero no es la fuente. Ve directamente.
- Cuando se necesita una serie temporal armonizada: el portal indexa datasets heterogéneos, no series estandarizadas.
Conceptos clave
- DCAT-AP. Perfil de aplicación del Data Catalog Vocabulary del W3C, estándar de metadatos del portal. Permite harvesting automatizado.
- Federación de portales. Los datasets nacionales se cosechan vía DCAT-AP desde portales como
datos.gob.es(España),data.gouv.fr,govdata.de. El portal indexa pero no aloja la mayoría. - Multilingüismo de metadatos. Los títulos y descripciones pueden estar solo en idioma nacional. Usa búsqueda en inglés con filtro de idioma.
Cómo se accede
# Python - API REST (CKAN-compatible parcial; preferente SPARQL para metadatos)
import requests
r = requests.get(
"https://data.europa.eu/api/hub/search/search",
params={"q": "air quality", "limit": 10, "filter": "dataset"}
)
results = r.json()Endpoint SPARQL para metadatos avanzados: https://data.europa.eu/sparql.
Limitaciones / cobertura
- Calidad muy heterogénea: depende de cada publicador.
- Muchos datasets enlazan a recursos externos cuya disponibilidad real puede haber expirado (URLs muertas comunes).
- No es estandarización sino indexación. La armonización metodológica solo existe en los datasets producidos directamente por instituciones UE.
Enlaces
Relacionadas en esta página
Eurostat, fuente preferente para series estadísticas armonizadas UE.INE España, el catálogo de INE se federa parcialmente víadatos.gob.es.
INE España
El Instituto Nacional de Estadística es la oficina estadística oficial de España. Es la fuente primaria de las series ES que después se transmiten a Eurostat, OECD y a los agregadores globales. Su valor diferencial es el detalle territorial (provincial, municipal, secciones censales en algunos productos) y la disponibilidad de microdatos anonimizados para investigación.
INE publica bajo el Plan Estadístico Nacional y opera el Sistema Estadístico Nacional, coordinando con las oficinas autonómicas (IECA, IDESCAT, EUSTAT, IGE, IB-ESTAT, etc.).
Qué incluye
- Censos: Población y Vivienda (decenal. El de 2021 con metodología basada en registros), Agrario, Empresarial.
- Encuestas a hogares: EPA (mercado laboral, trimestral), ECV (condiciones de vida), EPF (presupuestos familiares), Encuesta Continua de Hogares.
- Encuestas a empresas: Industriales, de Servicios, IPI, IPRI.
- Cuentas nacionales (sistema ESA 2010) y trimestrales (CNTR).
- Estadísticas demográficas: nacimientos, defunciones, matrimonios, migraciones (EVR, MNP).
- IPC mensual, IPC armonizado IPCA, índices de precios de vivienda.
- Indicadores Urbanos y Atlas de Distribución de Renta de los Hogares a nivel sección censal.
Cuándo usarla
Análisis nacional o subnacional español. Necesidad de microdatos anonimizados. Series con desagregación geográfica fina (CCAA, provincia, municipio, sección censal). Series mensuales y trimestrales recientes con menor latencia que las versiones armonizadas internacionales.
Cuándo NO usarla
- Comparaciones internacionales sistemáticas. Aunque las definiciones del INE convergen con las europeas, hay matices (definiciones de paro, deflactores) que recomiendan usar Eurostat para benchmarking.
- Series previas a 1976. La cobertura histórica antes de la Transición es desigual. Existen reconstrucciones académicas (Estadísticas históricas de España, Carreras y Tafunell) mejor estructuradas para historia económica.
Conceptos clave
- INEbase y JSON-stat. Toda la base es navegable desde INEbase. La API REST devuelve por defecto JSON-stat 2.0, formato estándar internacional.
- Operación estadística. Cada producto es una operación con código (p. ej. EPA = 30308). Las tablas (
Tabla) viven dentro de operaciones y son los objetos consultables por API. - Códigos territoriales. Provincias en código de 2 dígitos (ISO 3166-2:ES), municipios 5 dígitos, secciones censales 10 dígitos. No confundir con NUTS (Eurostat).
- Microdatos. El portal Datos microdata publica ficheros anonimizados para EPA, ECV, EPF y muchas otras operaciones bajo licencia de uso.
Cómo se accede
# R - paquete INEbaseR (o llamada directa)
# Llamada directa a API JSON-stat
library(jsonlite)
library(httr)
# Tabla 4247 - Tasa de paro por CCAA y sexo
r <- GET("https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/4247?nult=5")
df <- fromJSON(content(r, "text"))# Python - cliente directo o pyjstat para JSON-stat
import requests
import pyjstat
r = requests.get("https://servicios.ine.es/wstempus/js/ES/DATOS_TABLA/4247?nult=5")
ds = pyjstat.Dataset.read(r.text)
df = ds.write("dataframe")Documentación de la API: https://www.ine.es/dyngs/DAB/index.htm?cid=1099.
Limitaciones / cobertura
- Lenguaje de la API solo en español. Documentación en inglés limitada.
- Cambios metodológicos importantes en 2021 (Censo basado en registros, no en cuestionario) generan rupturas con el censo de 2011.
- IPC con cambio de base periódico (cada 5 años aprox.). Las series largas exigen empalme con factores oficiales publicados por INE.
Enlaces
Relacionadas en esta página
Eurostat, las series ES de Eurostat provienen del INE tras armonización.Portal de Datos Abiertos de la UE, el catálogo INE se federa parcialmente víadatos.gob.es.
Our World in Data
Our World in Data (OWID) es un proyecto editorial y técnico de la Universidad de Oxford y la Global Change Data Lab (ONG sin ánimo de lucro) que reorganiza y visualiza datos publicados por organismos oficiales con el objetivo de hacerlos accesibles y narrativamente comprensibles. No es una fuente primaria: es una capa curada sobre Banco Mundial, FAO, OMS, IHME, IEA, UN, Eurostat y publicaciones académicas.
Su valor diferencial está en tres planos: (1) curación editorial con artículos firmados que contextualizan cada indicador, (2) transformaciones útiles (per cápita, en PPA, normalizadas, conversiones de unidades) ya hechas y verificadas, y (3) descarga limpia en CSV directo con metadatos.
Qué incluye
- Más de 4.000 charts interactivos sobre salud global, energía, alimentación, demografía, pobreza, cambio climático, conflictos, educación.
- COVID-19 dataset, mantenido durante la pandemia, hoy uno de los datasets de salud pública más citados.
- Energy Data Explorer con consumo y producción por fuente.
- Pobreza global con líneas múltiples (1.90, 2.15, 3.20, 5.50 USD/día PPA 2017).
- Mortalidad por causa (vía IHME Global Burden of Disease).
Cuándo usarla
Visualización rápida y comunicación divulgativa. Punto de entrada para entender qué indicador está disponible y de qué fuente proviene antes de ir al original. Descargas en CSV ya per cápita o normalizadas. fact-checking contra metadatos editoriales.
Cuándo NO usarla
- Investigación primaria o publicación académica. Cita siempre la fuente upstream (World Bank, OMS, IHME…), no OWID. OWID es transparente sobre su rol de mediador.
- Datos en bruto con la última vintage. Hay típicamente algunos meses de lag respecto a la actualización en la fuente original.
Conceptos clave
- Fuentes documentadas en cada chart. Cada gráfico declara explícitamente las fuentes upstream y, cuando aplica, las transformaciones realizadas por OWID. Esto es excepcional en comparación con otros agregadores.
- GitHub público. Todo el código, los datos y los scripts de procesamiento están en
github.com/owid. Reproducir una serie OWID es trivial. - Charts vs datasets. El nivel CSV descargable corresponde a charts, no a operaciones estadísticas. La granularidad y la organización siguen la lógica editorial, no la del organismo originador.
Cómo se accede
# R - descarga CSV directa
library(readr)
url <- "https://ourworldindata.org/grapher/life-expectancy.csv?v=1&csvType=full"
df <- read_csv(url)# Python
import pandas as pd
df = pd.read_csv("https://ourworldindata.org/grapher/life-expectancy.csv?v=1&csvType=full")Estructura de datos en GitHub: github.com/owid/owid-datasets.
Limitaciones / cobertura
- No es fuente primaria: las atribuciones siempre tienen que remontarse al organismo original.
- Posibles redefiniciones editoriales (agrupaciones de países, categorías derivadas) que difieren de las clasificaciones estándar.
- Algunos indicadores son derivados originales (índices compuestos creados por OWID): aclarado en metadatos pero requiere lectura.
Enlaces
Relacionadas en esta página
World Bank Open Data, fuente upstream para muchos charts OWID.UN Data, fuente upstream para ODS e indicadores demográficos.
FRED
FRED (Federal Reserve Economic Data) es la base de datos económica de la Reserva Federal de St. Louis. Aloja más de 800.000 series temporales con periodicidades que van de la diaria a la anual, agregando datos del Bureau of Labor Statistics, BEA, Census Bureau, OECD, IMF, World Bank, Eurostat, BIS y muchos bancos centrales. Es, junto al sistema de la Fed, una de las bases macro más usadas en investigación cuantitativa y en trading.
Su ventaja es la frecuencia diaria para muchas series financieras (tipos de interés, spreads, volatilidades implícitas, índices), la API estable de larga trayectoria, y el ecosistema de paquetes maduro (fredr en R, fredapi en Python, integración nativa en pandas_datareader).
Qué incluye
- Series macro de EE.UU. en alta frecuencia: PIB, empleo, IPC, ventas minoristas, producción industrial.
- Tipos de interés (Treasury yields, fed funds rate, SOFR), spreads, índices financieros.
- Series internacionales agregadas vía OECD, IMF, World Bank.
- ALFRED (Archival FRED): vintages históricos de cada revisión, esencial para investigación que requiere replicar el conjunto de información disponible en una fecha pasada.
- GeoFRED: series con cobertura geográfica subnacional EE.UU.
Cuándo usarla
Macro y financiero EE.UU. en alta frecuencia. event studies y análisis que requieren real-time data (vintages ALFRED). Cuando se necesita una sola API estable para muchas series internacionales sin tener que rotar entre proveedores.
Cuándo NO usarla
- Datos extra-EE.UU. originales. FRED reenvasa series de Eurostat, OECD, IMF, la fuente upstream es siempre preferible para análisis serio fuera de EE.UU.
- Microdatos. FRED solo trabaja con series agregadas.
Conceptos clave
- Identificadores de serie. Cada serie tiene un código estable (p. ej.
GDPC1para PIB real EE.UU. trimestral,DGS10para Treasury yield 10Y diario,UNRATEpara tasa de paro EE.UU.). Aprenderlos acelera enormemente el flujo. - Vintages (ALFRED). Las series macro se revisan retroactivamente. ALFRED guarda cada vintage publicada. Para análisis de pronóstico o de política, es obligatorio trabajar con la vintage disponible en la fecha del evento, no con la revisión final.
- API key gratuita. Se requiere registro y API key. Los límites son generosos (120 requests/min).
Cómo se accede
# R - paquete fredr
install.packages("fredr")
library(fredr)
fredr_set_key("TU_API_KEY")
# PIB real EE.UU. trimestral
gdp <- fredr(series_id = "GDPC1", observation_start = as.Date("2010-01-01"))
# Treasury 10Y diaria
ust10 <- fredr(series_id = "DGS10")# Python - pandas_datareader o fredapi
import pandas_datareader.data as web
import datetime as dt
gdp = web.DataReader("GDPC1", "fred", dt.datetime(2010, 1, 1), dt.datetime.today())Limitaciones / cobertura
- Bias EE.UU.: aunque FRED reempaqueta muchas series internacionales, su perspectiva natural es la macro estadounidense.
- Algunas series se publican con licencia restringida (proveedores comerciales como Haver Analytics o ICE): accesibles solo a suscriptores.
- ALFRED no cubre todas las series, verifica disponibilidad de vintages antes de comprometerte a un diseño que las requiera.
Enlaces
Relacionadas en esta página
IMF Data, fuente upstream de muchas series internacionales en FRED.OECD.Stat, fuente upstream para series OECD vía FRED.World Bank Open Data, fuente upstream para series WDI vía FRED.
OurAirports
OurAirports es una base de datos colaborativa y de dominio público que cataloga aproximadamente 80.000 aeropuertos, helipuertos y aeródromos del mundo, con coordenadas geográficas, códigos ICAO/IATA, elevación, país y región administrativa. Mantenida por David Megginson y la comunidad, se actualiza diariamente y se publica como CSV directo en ourairports.com/data/.
Aunque no es una base socioeconómica en sentido estricto, se incluye aquí porque es la referencia abierta para análisis de conectividad aérea, accesibilidad geográfica y proxy de infraestructura, entradas frecuentes en estudios de geografía económica, gravity models de comercio, y trabajos sobre desarrollo regional.
Qué incluye
- Coordenadas (lat/lon en WGS84), elevación, código ICAO de 4 letras y código IATA de 3 letras cuando aplica.
- Tipo (
large_airport,medium_airport,small_airport,heliport,seaplane_base,closed). - País (ISO 3166-1 alpha-2), región administrativa (ISO 3166-2 cuando disponible).
- Frecuencias de comunicación, pistas con dimensiones y orientación, navaids asociados.
- Enlaces externos a Wikipedia, Wikidata, Flightradar24.
Cuándo usarla
Construcción de redes aéreas. Cálculos de distancia a aeropuerto más cercano como variable de control en regresiones espaciales. gravity models de comercio o turismo. Análisis de accesibilidad a servicios.
Cuándo NO usarla
- Tráfico real, pasajeros, carga. OurAirports tiene la lista. Los volúmenes operativos hay que cruzarlos con datos de Eurostat (
avia_*), DOT/BTS (EE.UU.), ICAO o agencias nacionales (AENA en España). - Vuelos o rutas activas. No es una base operacional. Para rutas, usa OpenFlights (mantenimiento parcial) o productos comerciales (Cirium, OAG).
Conceptos clave
- ICAO vs IATA. ICAO (4 letras, p. ej.
LEMD) cubre prácticamente todos los aeródromos publicados. IATA (3 letras,MAD) solo aeropuertos comerciales. Para joins con datasets de tráfico de aerolíneas, usa IATA. Para datos aeronáuticos oficiales, ICAO. - Tipos heredados.
large_airportymedium_airportse asignan heurísticamente. No se corresponden con clasificaciones regulatorias formales. - Datos en dominio público. No licencia CC ni atribución obligatoria. Cita por buena práctica.
Cómo se accede
# R - descarga directa
library(readr)
airports <- read_csv("https://davidmegginson.github.io/ourairports-data/airports.csv")
runways <- read_csv("https://davidmegginson.github.io/ourairports-data/runways.csv")# Python
import pandas as pd
airports = pd.read_csv("https://davidmegginson.github.io/ourairports-data/airports.csv")Limitaciones / cobertura
- Datos colaborativos: errores ocasionales en coordenadas o codificación. Revisa antes de usar en infraestructura crítica.
- Algunas regiones (África central, Asia central, islas remotas) tienen cobertura desigual respecto a fuentes regulatorias oficiales.
- No verificación contra AIP (Aeronautical Information Publication) oficial, para aplicaciones aeronáuticas reales, valida contra la fuente regulatoria.
Enlaces
Relacionadas en esta página
Eurostat, seriesavia_*con tráfico operativo en aeropuertos UE.Portal de Datos Abiertos de la UE, datasets de EASA y AESA federados.