Bases de datos de transcriptómica

Repositorios primarios, reanálisis harmonizado y atlas single-cell

databases

transcriptomics

rna-seq

single-cell

microarrays

public-data

Catálogo razonado de los recursos públicos que estructuran el acceso a datos de expresión génica: desde repositorios primarios (GEO, ArrayExpress/BioStudies, SRA, ENA) hasta reanálisis harmonizado, atlas single-cell y paneles de líneas celulares.

Sobre bases de datos de transcriptómica

El ecosistema público de transcriptómica se ha estratificado en cuatro capas que conviene distinguir antes de elegir recurso:

Repositorios primarios. Albergan el dato tal como lo deposita el laboratorio: lecturas crudas (FASTQ) en SRA y ENA. Matrices de expresión a nivel de estudio en GEO. Objetos heterogéneos en ArrayExpress / BioStudies. Garantizan trazabilidad y permanencia (DOI, accesiones estables), pero exigen reprocesar para comparar entre estudios. Son los obligatorios para publicar.
Reanálisis harmonizado. Toman miles de estudios de SRA/GEO y los reprocesan con el mismo pipeline (alineamiento, cuantificación, anotación). Recount3, ARCHS4 y GTEx, este último también productor primario, permiten comparar entre estudios sin tener que reprocesar manualmente. Son la entrada natural para meta-análisis y entrenamiento de modelos.
Atlas single-cell. Recursos curados específicos para datos de célula única: Human Cell Atlas, Tabula Sapiens y EBI Single Cell Expression Atlas. Reanálisis y anotación celular consistentes. Objetos en formatos modernos (h5ad, loom, MuData).
Líneas celulares. CCLE / DepMap concentran transcriptómica, dependencias génicas y respuesta a fármacos sobre ~1.000 líneas tumorales. Imprescindible para drug discovery y target identification preclínicos.

La frontera entre repositorio primario y reanálisis es la decisión más importante: el primero conserva la resolución de muestra y diseño experimental del autor original. El segundo gana comparabilidad a costa de homogeneizar (mismo genoma, misma anotación, misma cuantificación). Para análisis nuevos de un estudio concreto, usa el primario. Para integrar muchos estudios, parte del harmonizado.

Dos estándares de metadatos que conviene tener interiorizados:

MIAME (Minimum Information About a Microarray Experiment), referencia histórica de metadatos para arrays.
MINSEQE (Minimum Information about a high-throughput SEQuencing Experiment), equivalente para secuenciación. Define los campos mínimos (diseño experimental, protocolos, plataformas, identificadores de muestra) que un repositorio debe exigir al depositante.

En la práctica, GEO y ArrayExpress aplican MIAME/MINSEQE de forma desigual: el campo source_name_ch1, characteristics_ch1 y description se rellenan con texto libre en una mayoría de estudios. Esto convierte el parsing de metadatos en el verdadero cuello de botella del reanálisis, no la descarga de los FASTQ.

Esta página cataloga once recursos, ordenados por capa: primero los repositorios primarios (GEO, ArrayExpress/BioStudies, SRA, ENA), después el reanálisis harmonizado (Recount3, ARCHS4, GTEx), después los atlas single-cell (Single Cell Expression Atlas, HCA, Tabula Sapiens) y finalmente las líneas celulares (CCLE/DepMap).

GEO (Gene Expression Omnibus)

GEO es el repositorio público de expresión génica del NCBI. Aloja microarrays, RNA-seq, ChIP-seq, ATAC-seq y, cada vez más, single-cell. Su modelo de datos (Series GSE, Samples GSM, Platforms GPL, Datasets GDS) es el lingua franca para citar transcriptómica pública: prácticamente todo paper biomédico con datos ómicos referencia un GSExxxx.

Qué incluye

Microarrays (Affymetrix, Agilent, Illumina BeadArray) y RNA-seq bulk.
ChIP-seq, ATAC-seq, CUT&RUN, métiloma (Illumina 450K/EPIC).
Single-cell RNA-seq (10x, Smart-seq2, Drop-seq), con datos crudos depositados en paralelo en SRA.
Matrices procesadas por el autor (series_matrix.txt.gz, archivos suplementarios) y raw data (CEL, IDAT, FASTQ via SRA).

Cuándo usarla

Búsqueda de estudios por enfermedad, tejido o tratamiento concretos.
Acceso a matrices ya procesadas para inspección rápida.
Citas y reproducción de figuras de un paper específico.

Cuándo NO usarla

Comparar muchos estudios entre sí. Procesados heterogéneos. Usa Recount3 o ARCHS4.
Trabajar a partir de FASTQ. GEO redirige a SRA. Trabaja desde SRA/ENA directamente y vincula los SRR con la metadata de GSM.

Conceptos clave

Niveles de accesión: GSE (serie completa), GSM (muestra), GPL (plataforma), GDS (dataset curado por NCBI, casi descontinuado).
Series matrix (*_series_matrix.txt.gz): metadata + expresión procesada por el autor, formato heredado pero útil. Cargable con GEOquery::getGEO().
Supplementary files: cuando el autor sube un .tar con counts o .h5 con single-cell, la riqueza real del estudio suele estar ahí, no en la series matrix.
Metadata como texto libre: los campos characteristics_ch1, source_name_ch1, title rara vez están normalizados. Espera trabajo manual de parsing.

Cómo se accede

Web: https://www.ncbi.nlm.nih.gov/geo/
FTP: ftp://ftp.ncbi.nlm.nih.gov/geo/series/
Programático (R): GEOquery::getGEO("GSE12345") devuelve un ExpressionSet con la matrix. getGEOSuppFiles("GSE12345") descarga los archivos suplementarios.
Programático (Python): pysradb, GEOparse, o directamente Entrez vía Biopython.

Limitaciones / cobertura

Metadatos sin controlar, parsear el title y characteristics_ch1 es habitualmente la parte más lenta del reanálisis.
Para acceder a FASTQ hay que saltar a SRA (vínculo SRP -> GSE).
Curaduría dispar: algunos estudios depositan solo matrices normalizadas sin posibilidad de volver al raw.

Enlaces

Relacionadas en esta página

SRA, destino de los FASTQ enlazados desde GEO.
ArrayExpress / BioStudies, equivalente europeo, sincronización parcial.
Recount3 y ARCHS4, reanálisis harmonizado de gran parte del contenido de GEO.

ArrayExpress / BioStudies

ArrayExpress, mantenido por el EBI, fue durante años el equivalente europeo a GEO para datos de microarray y RNA-seq. Desde 2022, su contenido se ha integrado en la plataforma BioStudies, que actúa como repositorio paraguas para estudios biomédicos (no solo transcriptómicos). Las accesiones históricas E-MTAB-*, E-GEOD-*, E-PROT-* siguen siendo válidas y consultables.

Qué incluye

Microarrays y RNA-seq con metadatos en formato MAGE-TAB (IDF + SDRF), considerablemente más estructurados que los de GEO.
Estudios espejo de GEO bajo el prefijo E-GEOD-* (sincronización parcial e intermitente).
Datos de proteómica y otros tipos en BioStudies como contenedor general.

Cuándo usarla

Estudios europeos depositados originalmente en EBI (E-MTAB-*).
Cuando necesitas metadatos estructurados (SDRF facilita el parsing) en lugar del texto libre típico de GEO.
Búsquedas integradas con otros recursos EBI (Ensembl, Expression Atlas, ENA).

Cuándo NO usarla

Necesitas estudios depositados primariamente en NCBI/GEO, el espejo no siempre está actualizado.
Quieres workflows en R: la integración programática es menos pulida que la de GEOquery para GEO.

Conceptos clave

MAGE-TAB: par de archivos IDF (investigación, descripción de alto nivel) + SDRF (mapping muestra ↔︎ archivo ↔︎ protocolo). Permite reconstruir el diseño experimental sin parsear texto libre.
BioStudies como paraguas: ArrayExpress es ahora una vista sobre BioStudies. Las URLs nuevas tienen forma https://www.ebi.ac.uk/biostudies/arrayexpress/studies/E-MTAB-XXXX.
Vínculo con ENA: los archivos raw (FASTQ) viven en ENA. El estudio en ArrayExpress mantiene los identificadores ERR / ERS.

Cómo se accede

Web: https://www.ebi.ac.uk/biostudies/arrayexpress
FTP: ftp://ftp.ebi.ac.uk/biostudies/
Programático (R): ArrayExpress (Bioconductor, mantenimiento intermitente), o descarga directa del SDRF.
REST API de BioStudies: https://www.ebi.ac.uk/biostudies/help#programmatic-access

Limitaciones / cobertura

Sincronización parcial con GEO, no todo lo de GEO está en ArrayExpress y viceversa.
El paquete ArrayExpress de Bioconductor se ha quedado por detrás de la evolución de BioStudies. Descargar el SDRF y construir el SummarizedExperiment a mano suele ser más fiable.

Enlaces

Relacionadas en esta página

GEO, contraparte NCBI.
ENA, repositorio para los FASTQ asociados.
Single Cell Expression Atlas, recurso hermano del EBI para datos single-cell reanalizados.

SRA (Sequence Read Archive)

SRA es el repositorio del NCBI para lecturas de secuenciación crudas: el destino canónico de los FASTQ asociados a cualquier publicación con NGS. No es transcriptómica-específico, alberga también genómica, metagenómica, ChIP-seq, etc., pero es donde acaba el ~80% del RNA-seq publicado.

Qué incluye

Lecturas crudas en formato propio .sra (convertible a FASTQ).
Metadata vinculada a estudios (SRP), experimentos (SRX), muestras (SRS) y runs (SRR).
Sincronización con ENA y DDBJ vía el INSDC (consorcio internacional): todo dato depositado en SRA es accesible también desde ENA, frecuentemente con menos fricción técnica.

Cuándo usarla

Quieres los FASTQ originales para reanalizar.
Estás trabajando con cualquier estudio depositado primariamente en NCBI (GEO redirige aquí).
Necesitas la metadata mínima estructurada (BioProject, BioSample, library strategy).

Cuándo NO usarla

Necesitas matrices procesadas, usa GEO, Recount3 o ARCHS4.
Tu conexión es limitada y los runs son grandes, considera ENA (ofrece FASTQ comprimidos directos vía HTTPS sin necesidad de sra-toolkit).

Conceptos clave

Jerarquía de accesiones: SRP (estudio) → SRX (experimento, una library) → SRR (run, un fichero FASTQ).
Formato .sra: contenedor binario. Hay que convertir a FASTQ con fasterq-dump (de sra-toolkit).
Library strategy: campo crítico para filtrar (RNA-Seq, ChIP-Seq, WGS, etc.) en consultas masivas.
Cloud mirrors: SRA tiene espejos en AWS Open Data y GCP. Descargar desde el bucket regional puede ser orden de magnitud más rápido.

Cómo se accede

Web (Entrez): https://www.ncbi.nlm.nih.gov/sra
Run Selector: https://www.ncbi.nlm.nih.gov/Traces/study/, filtra y exporta CSV de runs.
CLI: prefetch SRR123456 + fasterq-dump SRR123456 (paquete sra-toolkit).
Programático (Python): pysradb ofrece consultas estructuradas y dumps en TSV. Convierte de GSE a SRR automáticamente.
Programático (R): SRAdb (cargando el dump SQLite, voluminoso) o lo más directo, llamar a pysradb desde R.

Limitaciones / cobertura

Convertir .sra → FASTQ es lento y consume espacio (~3× el .sra).
Los metadatos depositados son mínimos y a menudo discordantes con los de GEO/ENA para el mismo run.
El .sra original no preserva los nombres de read originales: si tu workflow depende de ellos, descarga desde ENA.

Enlaces

Relacionadas en esta página

ENA, espejo europeo, FASTQ directos.
GEO, origen habitual de los estudios depositados aquí.
Recount3, reprocesamiento masivo de SRA.

ENA (European Nucleotide Archive)

ENA, mantenido por el EBI, es el equivalente europeo a SRA. Comparte contenido vía INSDC: cualquier run de SRA está también disponible aquí. En la práctica, ENA es preferible para descargar FASTQ: ofrece los archivos en .fastq.gz directamente vía HTTP/FTP, sin la fricción del formato .sra y sra-toolkit.

Qué incluye

Lecturas crudas (FASTQ.gz) y ensamblajes.
Metadatos en formato estructurado (XML / TSV) más limpios que los de SRA en muchos casos.
Datos embargados y privados (con autorización), gestión de proyectos europeos.

Cuándo usarla

Descargar FASTQ sin pasar por sra-toolkit.
Necesitas el read name original (preservado en ENA, no en .sra).
Estudios europeos depositados primariamente aquí (PRJEB*, ERR*).

Cuándo NO usarla

Estás puramente en el ecosistema NCBI y sra-toolkit ya está configurado.
Necesitas integración con pysradb para batch de muchos estudios, pysradb está sesgado a la nomenclatura SRA.

Conceptos clave

Equivalencia INSDC: SRP123 == ERP123 == DRP123 (NCBI / EBI / DDBJ). Las accesiones tienen prefijo según el repositorio donde se depositó, pero el contenido es el mismo.
Portal API: REST endpoint para consultar runs por accesión, organismo, library strategy, etc. Devuelve TSV/JSON directamente: muy útil para construir samplesheets sin clicar.
FASTQ.gz directos: las URLs siguen el patrón ftp.sra.ebi.ac.uk/vol1/fastq/<SRR_prefix>/<SRR>/<SRR>_{1,2}.fastq.gz.

Cómo se accede

Web: https://www.ebi.ac.uk/ena/browser/home
Portal API: https://www.ebi.ac.uk/ena/portal/api/, endpoint REST flexible.
CLI: enaBrowserTools (enaDataGet, enaGroupGet).
Programático (R / Python): una GET a la API y a parsear. No necesita librería específica.

Limitaciones / cobertura

Para datos depositados originalmente en SRA, la metadata puede ser ligeramente menos rica que la del NCBI.
La consulta vía Portal API requiere construir bien el fields y los result, la documentación es densa.

Enlaces

Relacionadas en esta página

SRA, equivalente NCBI.
ArrayExpress / BioStudies, repositorio EBI hermano para los metadatos del estudio.

Recount3

Recount3 es el reanálisis a escala masiva de ~700.000 muestras de RNA-seq humano y de ratón procedentes de SRA, GTEx y TCGA, todas alineadas y cuantificadas con el mismo pipeline (alineamiento con Monorail/STAR, cuantificación con Megadepth). Producto del laboratorio de Leek y Langmead en Johns Hopkins.

Qué incluye

Counts a nivel de gen, exón, junction y base (cobertura por nucleótido).
Metadatos curados y predicciones automáticas (tipo de tejido, sexo, etc.) a partir de MetaSRA.
Objetos RangedSummarizedExperiment listos para R, accesibles vía el paquete recount3.

Cuándo usarla

Meta-análisis de muchos estudios comparables.
Estudios donde el reprocesamiento del autor original es opaco o de baja calidad.
Entrenamiento de modelos (deep learning, transfer learning) que requiere homogeneidad de pipeline.

Cuándo NO usarla

El estudio que te interesa es nuevo y no ha sido todavía reprocesado.
Necesitas cuantificación a nivel de transcrito, Recount3 trabaja a nivel de gen/exón/junction, no transcrito (para eso, ver recount3 + salmon o reanalizar desde FASTQ).
Single-cell, Recount3 es bulk.

Conceptos clave

Pipeline Monorail: STAR alignment + Megadepth para cuantificación. Mismo genoma (hg38) y misma anotación (Gencode v26 al cierre del último release) para todas las muestras.
Niveles de cuantificación:
- Gene: matriz gene × sample clásica.
- Exon: útil para detección de eventos de splicing.
- Junction: lecturas que cruzan empalmes.
- BigWig: cobertura nucleótidica por muestra.
Metadata enriquecida: MetaSRA predice automáticamente cell type, tissue, disease a partir del texto libre de SRA. Útil pero no auditable sin verificación manual.

Cómo se accede

Web: https://rna.recount.bio/
R (canónico): recount3::available_projects() + create_rse(). Descarga lazy: solo se baja el SE del estudio pedido.
BigWig directos: vía URLs en https://rna.recount.bio/data/.

library(recount3)
projects <- available_projects()
rse <- create_rse(subset(projects, project == "SRP012345"))

Limitaciones / cobertura

Solo humano y ratón.
Anotación congelada en la versión del pipeline, para genes/transcripts recientes, conviene reanalizar.
Las predicciones de MetaSRA son ruidosas. Valida siempre contra los metadatos originales del estudio antes de usar como factor.

Enlaces

Relacionadas en esta página

SRA, fuente principal de los datos reprocesados.
GTEx, incluido como subconjunto curado.
ARCHS4, alternativa con filosofía similar y cobertura comparable.

ARCHS4

ARCHS4 (All RNA-seq and ChIP-seq Sample and Signature Search) es el reanálisis masivo de >1.000.000 muestras de RNA-seq humano y de ratón procedentes de SRA, mantenido por el Ma’ayan Lab. Filosofía similar a Recount3 pero con un frontend más orientado a consulta interactiva: búsqueda por gen, signature search, predicción de funciones.

Qué incluye

Matrices de expresión a nivel de gen para humano y ratón.
Embeddings precomputados (UMAP) de todas las muestras.
Anotación automática de tipo celular y tejido vía clasificadores entrenados sobre los embeddings.
Datasets descargables en formato HDF5 (.h5), una matriz única por especie.

Cuándo usarla

Búsquedas rápidas: “¿en qué tejidos/condiciones se expresa este gen?”.
Comparación de un dataset propio contra el background global (decenas de miles de muestras).
Generación de signatures sin pasar por el ciclo completo de descarga + alineamiento.

Cuándo NO usarla

Necesitas raw counts exactos y trazabilidad del pipeline, Recount3 documenta mejor su Monorail. ARCHS4 ha cambiado de aligner a lo largo del proyecto.
Single-cell, ARCHS4 es bulk.
Single-junction o single-exon analysis, solo gen.

Conceptos clave

HDF5 monolítico: todas las muestras en un único .h5 (human_gene_v2.X.h5, ~50-100 GB). Ideal para acceso aleatorio rápido a cualquier muestra. Mal para entornos sin disco.
Signature search: dado un set de genes, recupera muestras donde están coordinadamente expresados, útil para MoA discovery.
Predicciones de tejido y línea celular: clasificadores entrenados sobre el embedding global. Precisión razonable pero no perfecta.

Cómo se accede

Web: https://maayanlab.cloud/archs4/
HDF5 directo: descarga del fichero principal, manipulable con rhdf5 (R) o h5py (Python).
API: endpoints REST para queries por gen o muestra.

Limitaciones / cobertura

Versionado del pipeline irregular entre releases, para reproducibilidad estricta, fija la versión del HDF5.
Anotación automática: las predicciones de tejido/línea celular pueden engañar si las tomas como ground truth.

Enlaces

Relacionadas en esta página

Recount3, alternativa con mejor trazabilidad del pipeline.
SRA, fuente común.

GTEx

GTEx (Genotype-Tissue Expression) es el atlas de referencia de expresión génica en tejidos humanos sanos: ~17.000 muestras de RNA-seq cubriendo ~54 tejidos de ~1.000 donantes, todos genotipados. Producto consorcial del NIH. V8 (Gencode v26) es el release de referencia, v9 está en transición.

Qué incluye

Conteos y TPM por gen y por transcrito, todos los tejidos / donantes.
Genotipos (WGS) emparejados, base para análisis de eQTL: cuantitative trait loci sobre expresión.
Datos de splicing alternativo (LeafCutter), expresión específica de isoforma.
Histología de las muestras (imágenes de la biopsia).

Cuándo usarla

Referencia de expresión en tejido sano para contrastar contra una cohorte patológica.
Análisis de eQTL (tensorQTL, MatrixEQTL).
Tissue specificity scores: distinguir genes housekeeping vs. tissue-specific.
Validación de marcadores celulares en bulk.

Cuándo NO usarla

Necesitas tejido tumoral, usa TCGA, ICGC o equivalente.
Single-cell, GTEx es bulk. Para single-cell de tejido sano usa Tabula Sapiens o HCA.
Cohortes pediátricas, la muestra es predominantemente adulta.

Conceptos clave

Tipo de tejido como factor categórico: ~54 niveles, algunos con submuestreo desigual (cerebro: muchas regiones. Otros tejidos: una sola muestra).
Acceso a genotipos protegido: la matrix de expresión es pública y descargable libremente. Los genotipos requieren dbGaP authorized access (revisión por comité).
Versiones: v8 (datos congelados en 2017, anotación Gencode v26) sigue siendo el estándar de referencia para eQTL.

Cómo se accede

Portal web: https://gtexportal.org/home/, exploración por gen y tejido.
Descarga pública: archivos gtex_v8_*.gct.gz, gtex_v8_*.txt en el portal o vía AnVIL.
dbGaP (acceso restringido): genotipos y datos a nivel de individuo.
R: recount3 incluye GTEx como subconjunto, con la misma API.

Limitaciones / cobertura

Predominio caucásico, sesgo de ancestralidad relevante para eQTL.
Post-mortem: RIN heterogéneo entre muestras, especialmente en cerebro.
v8 está congelado. Updates de anotación posteriores no se aplican retroactivamente.

Enlaces

Relacionadas en esta página

Recount3, incluye GTEx reprocesado con el mismo pipeline que el resto de SRA.
Tabula Sapiens, equivalente single-cell para tejido humano sano.

Single Cell Expression Atlas

Single Cell Expression Atlas, mantenido por el EBI, es el repositorio curado de datos single-cell RNA-seq reanalizados de forma uniforme. Cada estudio se reprocesa con un pipeline común (scxa-workflows, basado en kallisto bustools o Alevin), se anota con tipos celulares y se publica con visualización web.

Qué incluye

~300+ estudios de scRNA-seq humano, ratón, planta y otros.
Matrices counts (10x Cell Ranger output o equivalente) + metadatos de muestra.
Predicciones de tipo celular curadas (mezcla de ontologías y curación manual).
Visualizaciones web integradas (gene-level expression plots, t-SNE/UMAP precomputado).

Cuándo usarla

Búsquedas rápidas tipo “¿qué tipos celulares expresan este gen en este tejido?”.
Reanálisis de estudios donde el autor solo publicó la matrix procesada sin metadata limpia.
Comparación entre especies, buena cobertura cross-species.

Cuándo NO usarla

Quieres el dataset más reciente, el reanálisis tarda meses en publicarse desde la deposición original.
Necesitas el objeto en formato h5ad con anotaciones del autor, descarga del estudio original (GEO/CellxGene/HCA).

Conceptos clave

scxa-workflows: pipeline de Nextflow del EBI, abierto y reproducible.
Formato de descarga: counts en MatrixMarket (.mtx.gz) + barcodes + features. Muy similar a la salida de Cell Ranger pero sin el .h5 consolidado.
Etiquetas de tipo celular: combinan autor original + ontologías (Cell Ontology, Uberon).

Cómo se accede

Web: https://www.ebi.ac.uk/gxa/sc/home
REST API: queries por gen, estudio, tejido.
R: paquete atlasapprox (CLI + R) para consultas rápidas.

Limitaciones / cobertura

Tamaño relativamente modesto frente a HCA o CellxGene (más estudios pero menos curados profundamente).
Las anotaciones celulares son automáticas + curación manual ligera, para anotación de referencia clínica, usa HCA o Tabula Sapiens.

Enlaces

Relacionadas en esta página

Human Cell Atlas, referencia más exhaustiva en humano.
Tabula Sapiens, atlas multi-tejido de referencia.

Human Cell Atlas (HCA)

Human Cell Atlas es la iniciativa internacional para construir el mapa de referencia de todos los tipos celulares del cuerpo humano, con datasets a escala de millones de células. Coordina más de 2.000 laboratorios en docenas de países. El portal de datos (DCP, Data Coordination Platform) y CellxGene son las dos puertas de entrada principales.

Qué incluye

Cientos de estudios scRNA-seq, multiome (RNA+ATAC), CITE-seq, spatial.
Datasets de referencia por tejido (cerebro, pulmón, intestino, riñón, sangre, etc.).
Objetos en formato moderno: h5ad (anndata), mudata, loom.
Anotaciones celulares revisadas por consortia de expertos.

Cuándo usarla

Referencia para mapeo de datasets propios (scvi-tools, Symphony, scArches).
Búsquedas por tipo celular validadas por consorcio (no anotación automática solitaria).
Acceso al estado del arte en single-cell humano.

Cuándo NO usarla

Modelo no humano, HCA es exclusivamente humano. Para ratón hay equivalentes (Tabula Muris, Mouse Cell Atlas).
Necesitas el dato crudo (FASTQ), está enlazado pero la fuerza del HCA está en los objetos procesados.

Conceptos clave

DCP vs CellxGene: dos portales complementarios. DCP (data.humancellatlas.org) gestiona ingesta y procesado canónico. CellxGene (cellxgene.cziscience.com) es la interfaz curada de exploración interactiva del CZI.
Formato h5ad: serialización de objetos AnnData. Cargable directo con scanpy.read_h5ad() o anndataR en R.
HCAData (Bioconductor): paquete R para acceso programático.
Tipos celulares con ontología: anotación con Cell Ontology y EFO, lo que permite cruzar con otros recursos.

Cómo se accede

DCP: https://data.humancellatlas.org/
CellxGene: https://cellxgene.cziscience.com/
R: HCAData (Bioconductor), cellxgenedp (Bioconductor) para CellxGene.
Python: cellxgene-census para descargar muestras agregadas en SOMA / h5ad.

Limitaciones / cobertura

Cobertura tisular desigual, algunos órganos extremadamente bien cubiertos, otros (gónadas, sistema linfático periférico) menos.
Adultos predominantemente sanos, para enfermedad, ver datasets específicos en CellxGene o GEO.

Enlaces

Relacionadas en esta página

Tabula Sapiens, flagship dataset dentro de HCA / CZI.
Single Cell Expression Atlas, alternativa EBI.

Tabula Sapiens

Tabula Sapiens es un atlas multi-tejido de ~500.000 células individuales de ~25 tejidos de 15 donantes humanos, todos secuenciados con el mismo protocolo (10x Genomics + Smart-seq2). Producto de la red Chan Zuckerberg Biohub. Sucesor humano del Tabula Muris (ratón).

Qué incluye

~500.000 células anotadas por experto en ~400 tipos celulares.
Muestreo controlado por donante, diseño que permite separar variación biológica de inter-individual.
Combinación de 10x Genomics (alto throughput, menor profundidad) y Smart-seq2 (menor throughput, mayor profundidad).

Cuándo usarla

Referencia para mapeo de datasets propios de tejido humano.
Comparación inter-tejidos con diseño controlado.
Validación de marcadores celulares en condiciones de referencia.

Cuándo NO usarla

Tu interés es exclusivamente un tejido, busca el atlas tisular específico (Heart Cell Atlas, Lung Cell Atlas, etc.).
Necesitas tejido enfermo, Tabula Sapiens es sano.

Conceptos clave

Diseño multi-tejido por donante: cada órgano se muestreó del mismo individuo cuando posible. Esto permite controlar la variación genética y de historia clínica.
Doble protocolo: 10x (drop-seq based, células más superficiales del transcriptoma) + Smart-seq2 (plate-based, transcriptoma más profundo, pocas células). Pensado para complementarse.
Anotación celular: revisada por especialista de cada tejido, muy fiable para uso como reference.

Cómo se accede

Web: https://tabula-sapiens-portal.ds.czbiohub.org/
Descarga directa: h5ad y Seurat/rds desde FigShare.
Vía cellxgene: https://cellxgene.cziscience.com/collections/e5f58829-1a66-40b5-a624-9046778e74f5

Limitaciones / cobertura

N de donantes pequeño (15), variabilidad inter-individual modesta.
Tejidos post-mortem y biopsias quirúrgicas, calidad heterogénea entre órganos.

Enlaces

Relacionadas en esta página

Human Cell Atlas, atlas paraguas que incluye Tabula Sapiens.
GTEx, equivalente bulk RNA-seq multi-tejido.

CCLE / DepMap

CCLE (Cancer Cell Line Encyclopedia) y DepMap son el recurso de referencia para ~1.000 líneas celulares tumorales caracterizadas a múltiples niveles: WES/WGS, RNA-seq, metilación, proteómica (CCLE/proteomics, RPPA), respuesta a fármacos (GDSC, PRISM) y, en DepMap, dependencias génicas (CRISPR-Cas9 y shRNA loss-of-function).

CCLE comenzó como iniciativa de Broad Institute y Novartis. DepMap es la continuación y expansión actual del Broad. En la práctica, suelen consultarse juntos: DepMap aloja también los datos históricos de CCLE.

Qué incluye

RNA-seq: counts y TPM para todas las líneas (~1.000).
WES/WGS: mutaciones somáticas, copy number, fusiones.
CRISPR-Cas9 screen: scores de dependencia génica por línea (Avana, Sanger, Achilles).
Respuesta a fármacos: IC50 de cientos a miles de compuestos (GDSC1/GDSC2, PRISM, CTRP).
Proteómica: cuantificación TMT en ~375 líneas (Gygi et al.).
Metadatos: tipo de cáncer, tejido de origen, edad/sexo del donante, mutaciones diagnósticas.

Cuándo usarla

Target discovery y validación preclínica.
Identificación de synthetic lethality y dependencias específicas de contexto genético.
Drug repositioning y predicción de respuesta a fármaco.
Modelos de prediction basados en multi-omics + perturbación.

Cuándo NO usarla

Necesitas modelos in vivo, DepMap es exclusivamente líneas celulares.
Tipo de cáncer raro infrarrepresentado en el panel.
Tejido sano, usa GTEx o HPA.

Conceptos clave

Achilles: nombre histórico de los screens CRISPR-Cas9 a gran escala en el Broad.
CERES / Chronos: algoritmos para inferir el efecto de dependencia “puro” descontando copy number y otros confundidores. Chronos es el actual.
Lineage de la línea celular: campo categórico bien curado en DepMap (primary_disease, lineage_sub_subtype). Diferente al OncoTree que usa MSK.
Releases: DepMap libera por trimestre (23Q4, 24Q1, etc.). Fija siempre el release que usaste para reproducibilidad.

Cómo se accede

Portal: https://depmap.org/portal/
Descargas: https://depmap.org/portal/download/, CSV grandes por release.
R (Bioconductor): depmap permite cargar los datos por release.
Python: depmapdata o descarga directa + pandas.
API: REST endpoint para queries por gen / línea / fármaco.

Limitaciones / cobertura

Las líneas celulares divergen del tumor primario, sesgo de cultivo, deriva genética. Confirma siempre las conclusiones en modelos más cercanos (organoides, PDX).
El panel está sesgado a tumores epiteliales y a líneas establecidas hace décadas. Cobertura desigual de cánceres pediátricos y hematológicos.
Los screens CRISPR tienen falsos positivos por copy number alto, usa Chronos, no los scores crudos.

Enlaces

Relacionadas en esta página

GTEx, referencia de tejido sano para contrastar.
Recount3, incluye CCLE / DepMap RNA-seq reprocesado con pipeline común.