Bases de datos de transcriptómica
Repositorios primarios, reanálisis harmonizado y atlas single-cell
Sobre bases de datos de transcriptómica
El ecosistema público de transcriptómica se ha estratificado en cuatro capas que conviene distinguir antes de elegir recurso:
- Repositorios primarios. Albergan el dato tal como lo deposita el laboratorio: lecturas crudas (FASTQ) en SRA y ENA. Matrices de expresión a nivel de estudio en GEO. Objetos heterogéneos en ArrayExpress / BioStudies. Garantizan trazabilidad y permanencia (DOI, accesiones estables), pero exigen reprocesar para comparar entre estudios. Son los obligatorios para publicar.
- Reanálisis harmonizado. Toman miles de estudios de SRA/GEO y los reprocesan con el mismo pipeline (alineamiento, cuantificación, anotación). Recount3, ARCHS4 y GTEx, este último también productor primario, permiten comparar entre estudios sin tener que reprocesar manualmente. Son la entrada natural para meta-análisis y entrenamiento de modelos.
- Atlas single-cell. Recursos curados específicos para datos de célula única: Human Cell Atlas, Tabula Sapiens y EBI Single Cell Expression Atlas. Reanálisis y anotación celular consistentes. Objetos en formatos modernos (
h5ad,loom,MuData). - Líneas celulares. CCLE / DepMap concentran transcriptómica, dependencias génicas y respuesta a fármacos sobre ~1.000 líneas tumorales. Imprescindible para drug discovery y target identification preclínicos.
La frontera entre repositorio primario y reanálisis es la decisión más importante: el primero conserva la resolución de muestra y diseño experimental del autor original. El segundo gana comparabilidad a costa de homogeneizar (mismo genoma, misma anotación, misma cuantificación). Para análisis nuevos de un estudio concreto, usa el primario. Para integrar muchos estudios, parte del harmonizado.
Dos estándares de metadatos que conviene tener interiorizados:
- MIAME (Minimum Information About a Microarray Experiment), referencia histórica de metadatos para arrays.
- MINSEQE (Minimum Information about a high-throughput SEQuencing Experiment), equivalente para secuenciación. Define los campos mínimos (diseño experimental, protocolos, plataformas, identificadores de muestra) que un repositorio debe exigir al depositante.
En la práctica, GEO y ArrayExpress aplican MIAME/MINSEQE de forma desigual: el campo source_name_ch1, characteristics_ch1 y description se rellenan con texto libre en una mayoría de estudios. Esto convierte el parsing de metadatos en el verdadero cuello de botella del reanálisis, no la descarga de los FASTQ.
Esta página cataloga once recursos, ordenados por capa: primero los repositorios primarios (GEO, ArrayExpress/BioStudies, SRA, ENA), después el reanálisis harmonizado (Recount3, ARCHS4, GTEx), después los atlas single-cell (Single Cell Expression Atlas, HCA, Tabula Sapiens) y finalmente las líneas celulares (CCLE/DepMap).
GEO (Gene Expression Omnibus)
GEO es el repositorio público de expresión génica del NCBI. Aloja microarrays, RNA-seq, ChIP-seq, ATAC-seq y, cada vez más, single-cell. Su modelo de datos (Series GSE, Samples GSM, Platforms GPL, Datasets GDS) es el lingua franca para citar transcriptómica pública: prácticamente todo paper biomédico con datos ómicos referencia un GSExxxx.
Qué incluye
- Microarrays (Affymetrix, Agilent, Illumina BeadArray) y RNA-seq bulk.
- ChIP-seq, ATAC-seq, CUT&RUN, métiloma (Illumina 450K/EPIC).
- Single-cell RNA-seq (10x, Smart-seq2, Drop-seq), con datos crudos depositados en paralelo en SRA.
- Matrices procesadas por el autor (
series_matrix.txt.gz, archivos suplementarios) y raw data (CEL, IDAT, FASTQ via SRA).
Cuándo usarla
- Búsqueda de estudios por enfermedad, tejido o tratamiento concretos.
- Acceso a matrices ya procesadas para inspección rápida.
- Citas y reproducción de figuras de un paper específico.
Cuándo NO usarla
- Comparar muchos estudios entre sí. Procesados heterogéneos. Usa Recount3 o ARCHS4.
- Trabajar a partir de FASTQ. GEO redirige a SRA. Trabaja desde SRA/ENA directamente y vincula los
SRRcon la metadata deGSM.
Conceptos clave
- Niveles de accesión:
GSE(serie completa),GSM(muestra),GPL(plataforma),GDS(dataset curado por NCBI, casi descontinuado). - Series matrix (
*_series_matrix.txt.gz): metadata + expresión procesada por el autor, formato heredado pero útil. Cargable conGEOquery::getGEO(). - Supplementary files: cuando el autor sube un
.tarcon counts o.h5con single-cell, la riqueza real del estudio suele estar ahí, no en la series matrix. - Metadata como texto libre: los campos
characteristics_ch1,source_name_ch1,titlerara vez están normalizados. Espera trabajo manual de parsing.
Cómo se accede
- Web: https://www.ncbi.nlm.nih.gov/geo/
- FTP:
ftp://ftp.ncbi.nlm.nih.gov/geo/series/ - Programático (R):
GEOquery::getGEO("GSE12345")devuelve unExpressionSetcon la matrix.getGEOSuppFiles("GSE12345")descarga los archivos suplementarios. - Programático (Python):
pysradb,GEOparse, o directamenteEntrezvíaBiopython.
Limitaciones / cobertura
- Metadatos sin controlar,
parseareltitleycharacteristics_ch1es habitualmente la parte más lenta del reanálisis. - Para acceder a FASTQ hay que saltar a SRA (vínculo
SRP -> GSE). - Curaduría dispar: algunos estudios depositan solo matrices normalizadas sin posibilidad de volver al raw.
Enlaces
Relacionadas en esta página
SRA, destino de los FASTQ enlazados desde GEO.ArrayExpress / BioStudies, equivalente europeo, sincronización parcial.Recount3yARCHS4, reanálisis harmonizado de gran parte del contenido de GEO.
ArrayExpress / BioStudies
ArrayExpress, mantenido por el EBI, fue durante años el equivalente europeo a GEO para datos de microarray y RNA-seq. Desde 2022, su contenido se ha integrado en la plataforma BioStudies, que actúa como repositorio paraguas para estudios biomédicos (no solo transcriptómicos). Las accesiones históricas E-MTAB-*, E-GEOD-*, E-PROT-* siguen siendo válidas y consultables.
Qué incluye
- Microarrays y RNA-seq con metadatos en formato MAGE-TAB (IDF + SDRF), considerablemente más estructurados que los de GEO.
- Estudios espejo de GEO bajo el prefijo
E-GEOD-*(sincronización parcial e intermitente). - Datos de proteómica y otros tipos en BioStudies como contenedor general.
Cuándo usarla
- Estudios europeos depositados originalmente en EBI (
E-MTAB-*). - Cuando necesitas metadatos estructurados (SDRF facilita el parsing) en lugar del texto libre típico de GEO.
- Búsquedas integradas con otros recursos EBI (Ensembl, Expression Atlas, ENA).
Cuándo NO usarla
- Necesitas estudios depositados primariamente en NCBI/GEO, el espejo no siempre está actualizado.
- Quieres workflows en R: la integración programática es menos pulida que la de
GEOquerypara GEO.
Conceptos clave
- MAGE-TAB: par de archivos
IDF(investigación, descripción de alto nivel) +SDRF(mapping muestra ↔︎ archivo ↔︎ protocolo). Permite reconstruir el diseño experimental sin parsear texto libre. - BioStudies como paraguas: ArrayExpress es ahora una vista sobre BioStudies. Las URLs nuevas tienen forma
https://www.ebi.ac.uk/biostudies/arrayexpress/studies/E-MTAB-XXXX. - Vínculo con ENA: los archivos raw (FASTQ) viven en ENA. El estudio en ArrayExpress mantiene los identificadores
ERR/ERS.
Cómo se accede
- Web: https://www.ebi.ac.uk/biostudies/arrayexpress
- FTP:
ftp://ftp.ebi.ac.uk/biostudies/ - Programático (R):
ArrayExpress(Bioconductor, mantenimiento intermitente), o descarga directa del SDRF. - REST API de BioStudies: https://www.ebi.ac.uk/biostudies/help#programmatic-access
Limitaciones / cobertura
- Sincronización parcial con GEO, no todo lo de GEO está en ArrayExpress y viceversa.
- El paquete
ArrayExpressde Bioconductor se ha quedado por detrás de la evolución de BioStudies. Descargar el SDRF y construir elSummarizedExperimenta mano suele ser más fiable.
Enlaces
Relacionadas en esta página
GEO, contraparte NCBI.ENA, repositorio para los FASTQ asociados.Single Cell Expression Atlas, recurso hermano del EBI para datos single-cell reanalizados.
SRA (Sequence Read Archive)
SRA es el repositorio del NCBI para lecturas de secuenciación crudas: el destino canónico de los FASTQ asociados a cualquier publicación con NGS. No es transcriptómica-específico, alberga también genómica, metagenómica, ChIP-seq, etc., pero es donde acaba el ~80% del RNA-seq publicado.
Qué incluye
- Lecturas crudas en formato propio
.sra(convertible a FASTQ). - Metadata vinculada a estudios (
SRP), experimentos (SRX), muestras (SRS) y runs (SRR). - Sincronización con ENA y DDBJ vía el INSDC (consorcio internacional): todo dato depositado en SRA es accesible también desde ENA, frecuentemente con menos fricción técnica.
Cuándo usarla
- Quieres los FASTQ originales para reanalizar.
- Estás trabajando con cualquier estudio depositado primariamente en NCBI (GEO redirige aquí).
- Necesitas la metadata mínima estructurada (BioProject, BioSample, library strategy).
Cuándo NO usarla
- Necesitas matrices procesadas, usa GEO, Recount3 o ARCHS4.
- Tu conexión es limitada y los runs son grandes, considera ENA (ofrece FASTQ comprimidos directos vía HTTPS sin necesidad de
sra-toolkit).
Conceptos clave
- Jerarquía de accesiones:
SRP(estudio) →SRX(experimento, una library) →SRR(run, un fichero FASTQ). - Formato
.sra: contenedor binario. Hay que convertir a FASTQ confasterq-dump(desra-toolkit). - Library strategy: campo crítico para filtrar (
RNA-Seq,ChIP-Seq,WGS, etc.) en consultas masivas. - Cloud mirrors: SRA tiene espejos en AWS Open Data y GCP. Descargar desde el bucket regional puede ser orden de magnitud más rápido.
Cómo se accede
- Web (Entrez): https://www.ncbi.nlm.nih.gov/sra
- Run Selector: https://www.ncbi.nlm.nih.gov/Traces/study/, filtra y exporta CSV de runs.
- CLI:
prefetch SRR123456+fasterq-dump SRR123456(paquetesra-toolkit). - Programático (Python):
pysradbofrece consultas estructuradas y dumps en TSV. Convierte deGSEaSRRautomáticamente. - Programático (R):
SRAdb(cargando el dump SQLite, voluminoso) o lo más directo, llamar apysradbdesde R.
Limitaciones / cobertura
- Convertir
.sra → FASTQes lento y consume espacio (~3× el.sra). - Los metadatos depositados son mínimos y a menudo discordantes con los de GEO/ENA para el mismo run.
- El
.sraoriginal no preserva los nombres de read originales: si tu workflow depende de ellos, descarga desde ENA.
Enlaces
Relacionadas en esta página
ENA, espejo europeo, FASTQ directos.GEO, origen habitual de los estudios depositados aquí.Recount3, reprocesamiento masivo de SRA.
ENA (European Nucleotide Archive)
ENA, mantenido por el EBI, es el equivalente europeo a SRA. Comparte contenido vía INSDC: cualquier run de SRA está también disponible aquí. En la práctica, ENA es preferible para descargar FASTQ: ofrece los archivos en .fastq.gz directamente vía HTTP/FTP, sin la fricción del formato .sra y sra-toolkit.
Qué incluye
- Lecturas crudas (FASTQ.gz) y ensamblajes.
- Metadatos en formato estructurado (XML / TSV) más limpios que los de SRA en muchos casos.
- Datos embargados y privados (con autorización), gestión de proyectos europeos.
Cuándo usarla
- Descargar FASTQ sin pasar por
sra-toolkit. - Necesitas el read name original (preservado en ENA, no en
.sra). - Estudios europeos depositados primariamente aquí (
PRJEB*,ERR*).
Cuándo NO usarla
- Estás puramente en el ecosistema NCBI y
sra-toolkitya está configurado. - Necesitas integración con
pysradbpara batch de muchos estudios,pysradbestá sesgado a la nomenclatura SRA.
Conceptos clave
- Equivalencia INSDC:
SRP123 == ERP123 == DRP123(NCBI / EBI / DDBJ). Las accesiones tienen prefijo según el repositorio donde se depositó, pero el contenido es el mismo. - Portal API: REST endpoint para consultar runs por accesión, organismo, library strategy, etc. Devuelve TSV/JSON directamente: muy útil para construir samplesheets sin clicar.
- FASTQ.gz directos: las URLs siguen el patrón
ftp.sra.ebi.ac.uk/vol1/fastq/<SRR_prefix>/<SRR>/<SRR>_{1,2}.fastq.gz.
Cómo se accede
- Web: https://www.ebi.ac.uk/ena/browser/home
- Portal API: https://www.ebi.ac.uk/ena/portal/api/, endpoint REST flexible.
- CLI:
enaBrowserTools(enaDataGet,enaGroupGet). - Programático (R / Python): una
GETa la API y a parsear. No necesita librería específica.
Limitaciones / cobertura
- Para datos depositados originalmente en SRA, la metadata puede ser ligeramente menos rica que la del NCBI.
- La consulta vía Portal API requiere construir bien el
fieldsy losresult, la documentación es densa.
Enlaces
Relacionadas en esta página
SRA, equivalente NCBI.ArrayExpress / BioStudies, repositorio EBI hermano para los metadatos del estudio.
Recount3
Recount3 es el reanálisis a escala masiva de ~700.000 muestras de RNA-seq humano y de ratón procedentes de SRA, GTEx y TCGA, todas alineadas y cuantificadas con el mismo pipeline (alineamiento con Monorail/STAR, cuantificación con Megadepth). Producto del laboratorio de Leek y Langmead en Johns Hopkins.
Qué incluye
- Counts a nivel de gen, exón, junction y base (cobertura por nucleótido).
- Metadatos curados y predicciones automáticas (tipo de tejido, sexo, etc.) a partir de
MetaSRA. - Objetos
RangedSummarizedExperimentlistos para R, accesibles vía el paqueterecount3.
Cuándo usarla
- Meta-análisis de muchos estudios comparables.
- Estudios donde el reprocesamiento del autor original es opaco o de baja calidad.
- Entrenamiento de modelos (deep learning, transfer learning) que requiere homogeneidad de pipeline.
Cuándo NO usarla
- El estudio que te interesa es nuevo y no ha sido todavía reprocesado.
- Necesitas cuantificación a nivel de transcrito, Recount3 trabaja a nivel de gen/exón/junction, no transcrito (para eso, ver
recount3+salmono reanalizar desde FASTQ). - Single-cell, Recount3 es bulk.
Conceptos clave
- Pipeline Monorail: STAR alignment + Megadepth para cuantificación. Mismo genoma (
hg38) y misma anotación (Gencode v26 al cierre del último release) para todas las muestras. - Niveles de cuantificación:
- Gene: matriz
gene × sampleclásica. - Exon: útil para detección de eventos de splicing.
- Junction: lecturas que cruzan empalmes.
- BigWig: cobertura nucleótidica por muestra.
- Gene: matriz
- Metadata enriquecida:
MetaSRApredice automáticamente cell type, tissue, disease a partir del texto libre de SRA. Útil pero no auditable sin verificación manual.
Cómo se accede
- Web: https://rna.recount.bio/
- R (canónico):
recount3::available_projects()+create_rse(). Descarga lazy: solo se baja el SE del estudio pedido. - BigWig directos: vía URLs en
https://rna.recount.bio/data/.
library(recount3)
projects <- available_projects()
rse <- create_rse(subset(projects, project == "SRP012345"))Limitaciones / cobertura
- Solo humano y ratón.
- Anotación congelada en la versión del pipeline, para genes/transcripts recientes, conviene reanalizar.
- Las predicciones de
MetaSRAson ruidosas. Valida siempre contra los metadatos originales del estudio antes de usar como factor.
Enlaces
Relacionadas en esta página
SRA, fuente principal de los datos reprocesados.GTEx, incluido como subconjunto curado.ARCHS4, alternativa con filosofía similar y cobertura comparable.
ARCHS4
ARCHS4 (All RNA-seq and ChIP-seq Sample and Signature Search) es el reanálisis masivo de >1.000.000 muestras de RNA-seq humano y de ratón procedentes de SRA, mantenido por el Ma’ayan Lab. Filosofía similar a Recount3 pero con un frontend más orientado a consulta interactiva: búsqueda por gen, signature search, predicción de funciones.
Qué incluye
- Matrices de expresión a nivel de gen para humano y ratón.
- Embeddings precomputados (UMAP) de todas las muestras.
- Anotación automática de tipo celular y tejido vía clasificadores entrenados sobre los embeddings.
- Datasets descargables en formato HDF5 (
.h5), una matriz única por especie.
Cuándo usarla
- Búsquedas rápidas: “¿en qué tejidos/condiciones se expresa este gen?”.
- Comparación de un dataset propio contra el background global (decenas de miles de muestras).
- Generación de signatures sin pasar por el ciclo completo de descarga + alineamiento.
Cuándo NO usarla
- Necesitas raw counts exactos y trazabilidad del pipeline, Recount3 documenta mejor su Monorail. ARCHS4 ha cambiado de aligner a lo largo del proyecto.
- Single-cell, ARCHS4 es bulk.
- Single-junction o single-exon analysis, solo gen.
Conceptos clave
- HDF5 monolítico: todas las muestras en un único
.h5(human_gene_v2.X.h5, ~50-100 GB). Ideal para acceso aleatorio rápido a cualquier muestra. Mal para entornos sin disco. - Signature search: dado un set de genes, recupera muestras donde están coordinadamente expresados, útil para MoA discovery.
- Predicciones de tejido y línea celular: clasificadores entrenados sobre el embedding global. Precisión razonable pero no perfecta.
Cómo se accede
- Web: https://maayanlab.cloud/archs4/
- HDF5 directo: descarga del fichero principal, manipulable con
rhdf5(R) oh5py(Python). - API: endpoints REST para queries por gen o muestra.
Limitaciones / cobertura
- Versionado del pipeline irregular entre releases, para reproducibilidad estricta, fija la versión del HDF5.
- Anotación automática: las predicciones de tejido/línea celular pueden engañar si las tomas como ground truth.
Enlaces
Relacionadas en esta página
GTEx
GTEx (Genotype-Tissue Expression) es el atlas de referencia de expresión génica en tejidos humanos sanos: ~17.000 muestras de RNA-seq cubriendo ~54 tejidos de ~1.000 donantes, todos genotipados. Producto consorcial del NIH. V8 (Gencode v26) es el release de referencia, v9 está en transición.
Qué incluye
- Conteos y TPM por gen y por transcrito, todos los tejidos / donantes.
- Genotipos (WGS) emparejados, base para análisis de eQTL: cuantitative trait loci sobre expresión.
- Datos de splicing alternativo (LeafCutter), expresión específica de isoforma.
- Histología de las muestras (imágenes de la biopsia).
Cuándo usarla
- Referencia de expresión en tejido sano para contrastar contra una cohorte patológica.
- Análisis de eQTL (
tensorQTL,MatrixEQTL). - Tissue specificity scores: distinguir genes housekeeping vs. tissue-specific.
- Validación de marcadores celulares en bulk.
Cuándo NO usarla
- Necesitas tejido tumoral, usa TCGA, ICGC o equivalente.
- Single-cell, GTEx es bulk. Para single-cell de tejido sano usa Tabula Sapiens o HCA.
- Cohortes pediátricas, la muestra es predominantemente adulta.
Conceptos clave
- Tipo de tejido como factor categórico: ~54 niveles, algunos con submuestreo desigual (cerebro: muchas regiones. Otros tejidos: una sola muestra).
- Acceso a genotipos protegido: la matrix de expresión es pública y descargable libremente. Los genotipos requieren dbGaP authorized access (revisión por comité).
- Versiones: v8 (datos congelados en 2017, anotación Gencode v26) sigue siendo el estándar de referencia para eQTL.
Cómo se accede
- Portal web: https://gtexportal.org/home/, exploración por gen y tejido.
- Descarga pública: archivos
gtex_v8_*.gct.gz,gtex_v8_*.txten el portal o vía AnVIL. - dbGaP (acceso restringido): genotipos y datos a nivel de individuo.
- R:
recount3incluye GTEx como subconjunto, con la misma API.
Limitaciones / cobertura
- Predominio caucásico, sesgo de ancestralidad relevante para eQTL.
- Post-mortem: RIN heterogéneo entre muestras, especialmente en cerebro.
- v8 está congelado. Updates de anotación posteriores no se aplican retroactivamente.
Enlaces
Relacionadas en esta página
Recount3, incluye GTEx reprocesado con el mismo pipeline que el resto de SRA.Tabula Sapiens, equivalente single-cell para tejido humano sano.
Single Cell Expression Atlas
Single Cell Expression Atlas, mantenido por el EBI, es el repositorio curado de datos single-cell RNA-seq reanalizados de forma uniforme. Cada estudio se reprocesa con un pipeline común (scxa-workflows, basado en kallisto bustools o Alevin), se anota con tipos celulares y se publica con visualización web.
Qué incluye
- ~300+ estudios de scRNA-seq humano, ratón, planta y otros.
- Matrices counts (10x Cell Ranger output o equivalente) + metadatos de muestra.
- Predicciones de tipo celular curadas (mezcla de ontologías y curación manual).
- Visualizaciones web integradas (gene-level expression plots, t-SNE/UMAP precomputado).
Cuándo usarla
- Búsquedas rápidas tipo “¿qué tipos celulares expresan este gen en este tejido?”.
- Reanálisis de estudios donde el autor solo publicó la matrix procesada sin metadata limpia.
- Comparación entre especies, buena cobertura cross-species.
Cuándo NO usarla
- Quieres el dataset más reciente, el reanálisis tarda meses en publicarse desde la deposición original.
- Necesitas el objeto en formato
h5adcon anotaciones del autor, descarga del estudio original (GEO/CellxGene/HCA).
Conceptos clave
scxa-workflows: pipeline de Nextflow del EBI, abierto y reproducible.- Formato de descarga: counts en MatrixMarket (
.mtx.gz) + barcodes + features. Muy similar a la salida de Cell Ranger pero sin el.h5consolidado. - Etiquetas de tipo celular: combinan autor original + ontologías (Cell Ontology, Uberon).
Cómo se accede
- Web: https://www.ebi.ac.uk/gxa/sc/home
- REST API: queries por gen, estudio, tejido.
- R: paquete
atlasapprox(CLI + R) para consultas rápidas.
Limitaciones / cobertura
- Tamaño relativamente modesto frente a HCA o CellxGene (más estudios pero menos curados profundamente).
- Las anotaciones celulares son automáticas + curación manual ligera, para anotación de referencia clínica, usa HCA o Tabula Sapiens.
Enlaces
Relacionadas en esta página
Human Cell Atlas, referencia más exhaustiva en humano.Tabula Sapiens, atlas multi-tejido de referencia.
Human Cell Atlas (HCA)
Human Cell Atlas es la iniciativa internacional para construir el mapa de referencia de todos los tipos celulares del cuerpo humano, con datasets a escala de millones de células. Coordina más de 2.000 laboratorios en docenas de países. El portal de datos (DCP, Data Coordination Platform) y CellxGene son las dos puertas de entrada principales.
Qué incluye
- Cientos de estudios scRNA-seq, multiome (RNA+ATAC), CITE-seq, spatial.
- Datasets de referencia por tejido (cerebro, pulmón, intestino, riñón, sangre, etc.).
- Objetos en formato moderno:
h5ad(anndata),mudata,loom. - Anotaciones celulares revisadas por consortia de expertos.
Cuándo usarla
- Referencia para mapeo de datasets propios (
scvi-tools,Symphony,scArches). - Búsquedas por tipo celular validadas por consorcio (no anotación automática solitaria).
- Acceso al estado del arte en single-cell humano.
Cuándo NO usarla
- Modelo no humano, HCA es exclusivamente humano. Para ratón hay equivalentes (Tabula Muris, Mouse Cell Atlas).
- Necesitas el dato crudo (FASTQ), está enlazado pero la fuerza del HCA está en los objetos procesados.
Conceptos clave
DCPvsCellxGene: dos portales complementarios.DCP(data.humancellatlas.org) gestiona ingesta y procesado canónico.CellxGene(cellxgene.cziscience.com) es la interfaz curada de exploración interactiva del CZI.- Formato
h5ad: serialización de objetosAnnData. Cargable directo conscanpy.read_h5ad()oanndataRen R. HCAData(Bioconductor): paquete R para acceso programático.- Tipos celulares con ontología: anotación con Cell Ontology y EFO, lo que permite cruzar con otros recursos.
Cómo se accede
- DCP: https://data.humancellatlas.org/
- CellxGene: https://cellxgene.cziscience.com/
- R:
HCAData(Bioconductor),cellxgenedp(Bioconductor) paraCellxGene. - Python:
cellxgene-censuspara descargar muestras agregadas en SOMA /h5ad.
Limitaciones / cobertura
- Cobertura tisular desigual, algunos órganos extremadamente bien cubiertos, otros (gónadas, sistema linfático periférico) menos.
- Adultos predominantemente sanos, para enfermedad, ver datasets específicos en CellxGene o GEO.
Enlaces
Relacionadas en esta página
Tabula Sapiens, flagship dataset dentro de HCA / CZI.Single Cell Expression Atlas, alternativa EBI.
Tabula Sapiens
Tabula Sapiens es un atlas multi-tejido de ~500.000 células individuales de ~25 tejidos de 15 donantes humanos, todos secuenciados con el mismo protocolo (10x Genomics + Smart-seq2). Producto de la red Chan Zuckerberg Biohub. Sucesor humano del Tabula Muris (ratón).
Qué incluye
- ~500.000 células anotadas por experto en ~400 tipos celulares.
- Muestreo controlado por donante, diseño que permite separar variación biológica de inter-individual.
- Combinación de 10x Genomics (alto throughput, menor profundidad) y Smart-seq2 (menor throughput, mayor profundidad).
Cuándo usarla
- Referencia para mapeo de datasets propios de tejido humano.
- Comparación inter-tejidos con diseño controlado.
- Validación de marcadores celulares en condiciones de referencia.
Cuándo NO usarla
- Tu interés es exclusivamente un tejido, busca el atlas tisular específico (Heart Cell Atlas, Lung Cell Atlas, etc.).
- Necesitas tejido enfermo, Tabula Sapiens es sano.
Conceptos clave
- Diseño multi-tejido por donante: cada órgano se muestreó del mismo individuo cuando posible. Esto permite controlar la variación genética y de historia clínica.
- Doble protocolo: 10x (drop-seq based, células más superficiales del transcriptoma) + Smart-seq2 (plate-based, transcriptoma más profundo, pocas células). Pensado para complementarse.
- Anotación celular: revisada por especialista de cada tejido, muy fiable para uso como reference.
Cómo se accede
- Web: https://tabula-sapiens-portal.ds.czbiohub.org/
- Descarga directa:
h5adySeurat/rdsdesde FigShare. - Vía
cellxgene: https://cellxgene.cziscience.com/collections/e5f58829-1a66-40b5-a624-9046778e74f5
Limitaciones / cobertura
- N de donantes pequeño (15), variabilidad inter-individual modesta.
- Tejidos post-mortem y biopsias quirúrgicas, calidad heterogénea entre órganos.
Enlaces
Relacionadas en esta página
Human Cell Atlas, atlas paraguas que incluye Tabula Sapiens.GTEx, equivalente bulk RNA-seq multi-tejido.
CCLE / DepMap
CCLE (Cancer Cell Line Encyclopedia) y DepMap son el recurso de referencia para ~1.000 líneas celulares tumorales caracterizadas a múltiples niveles: WES/WGS, RNA-seq, metilación, proteómica (CCLE/proteomics, RPPA), respuesta a fármacos (GDSC, PRISM) y, en DepMap, dependencias génicas (CRISPR-Cas9 y shRNA loss-of-function).
CCLE comenzó como iniciativa de Broad Institute y Novartis. DepMap es la continuación y expansión actual del Broad. En la práctica, suelen consultarse juntos: DepMap aloja también los datos históricos de CCLE.
Qué incluye
- RNA-seq: counts y TPM para todas las líneas (~1.000).
- WES/WGS: mutaciones somáticas, copy number, fusiones.
- CRISPR-Cas9 screen: scores de dependencia génica por línea (Avana, Sanger, Achilles).
- Respuesta a fármacos: IC50 de cientos a miles de compuestos (GDSC1/GDSC2, PRISM, CTRP).
- Proteómica: cuantificación TMT en ~375 líneas (Gygi et al.).
- Metadatos: tipo de cáncer, tejido de origen, edad/sexo del donante, mutaciones diagnósticas.
Cuándo usarla
- Target discovery y validación preclínica.
- Identificación de synthetic lethality y dependencias específicas de contexto genético.
- Drug repositioning y predicción de respuesta a fármaco.
- Modelos de prediction basados en multi-omics + perturbación.
Cuándo NO usarla
- Necesitas modelos in vivo, DepMap es exclusivamente líneas celulares.
- Tipo de cáncer raro infrarrepresentado en el panel.
- Tejido sano, usa GTEx o HPA.
Conceptos clave
- Achilles: nombre histórico de los screens CRISPR-Cas9 a gran escala en el Broad.
- CERES / Chronos: algoritmos para inferir el efecto de dependencia “puro” descontando copy number y otros confundidores.
Chronoses el actual. - Lineage de la línea celular: campo categórico bien curado en DepMap (
primary_disease,lineage_sub_subtype). Diferente alOncoTreeque usa MSK. - Releases: DepMap libera por trimestre (
23Q4,24Q1, etc.). Fija siempre el release que usaste para reproducibilidad.
Cómo se accede
- Portal: https://depmap.org/portal/
- Descargas: https://depmap.org/portal/download/, CSV grandes por release.
- R (Bioconductor):
depmappermite cargar los datos por release. - Python:
depmapdatao descarga directa + pandas. - API: REST endpoint para queries por gen / línea / fármaco.
Limitaciones / cobertura
- Las líneas celulares divergen del tumor primario, sesgo de cultivo, deriva genética. Confirma siempre las conclusiones en modelos más cercanos (organoides, PDX).
- El panel está sesgado a tumores epiteliales y a líneas establecidas hace décadas. Cobertura desigual de cánceres pediátricos y hematológicos.
- Los screens CRISPR tienen falsos positivos por copy number alto, usa
Chronos, no los scores crudos.