Bases de datos de variantes, fenotipos y cáncer

Catálogos poblacionales, interpretación clínica, oncogenómica y farmacogenómica

databases

variants

clinical

cancer

pharmacogenomics

germline

somatic

phenotypes

Referencia comentada de las bases de datos que estructuran la interpretación de variantes humanas: frecuencias poblacionales, evidencia clínica germinal, perfiles somáticos en cáncer y accionabilidad farmacogenómica.

Sobre bases de datos de variantes, fenotipos y cáncer

La interpretación de una variante genética rara vez se resuelve en un único recurso. El flujo habitual consulta en cadena un catálogo poblacional para acotar frecuencia alélica, una base de evidencia clínica para conocer interpretaciones previas, y, si el contexto es oncológico o farmacogenómico, recursos específicos para datos somáticos o accionabilidad terapéutica. Cada base responde a una pregunta distinta. Mezclarlas sin entender su propósito es la fuente más habitual de errores de interpretación.

Esta página organiza los recursos en cuatro bloques con un orden conceptual deliberado:

Catálogos poblacionales (dbSNP, gnomAD), establecen la línea base de variación humana. Imprescindibles para filtrar variantes “comunes” y estimar penetrancia.
Interpretación clínica germinal (ClinVar, OMIM, ClinGen, OrphaNet, DECIPHER), agregan evidencia sobre patogenicidad y asociación gen-enfermedad, con curación y nivel de revisión muy heterogéneos.
Oncogenómica (COSMIC, TCGA/GDC, cBioPortal, ICGC), perfiles somáticos a gran escala. Lógica distinta a la germinal: foco en mutaciones recurrentes, driver vs passenger, y heterogeneidad tumoral.
Farmacogenómica y accionabilidad clínica (CIViC, OncoKB, PharmGKB), traducen evidencia genómica en recomendaciones terapéuticas, con niveles de evidencia formalizados.

Tres principios transversales:

Nomenclatura HGVS. Cualquier intercambio serio de variantes debe usar HGVS (NM_000546.6:c.215C>G, NP_000537.3:p.Pro72Arg). Las coordenadas crudas (chr17:7676154 C>G) requieren además ensamblado de referencia explícito (GRCh37 vs GRCh38), confundirlos invalida toda la interpretación downstream.
ACMG/AMP. El estándar de clasificación clínica de variantes germinales (Richards et al., 2015) define cinco categorías (Pathogenic, Likely pathogenic, VUS, Likely benign, Benign) a partir de criterios ponderados (PVS1, PS1-PS4, PM1-PM6, PP1-PP5, BA1, BS1-BS4, BP1-BP7). ClinGen mantiene refinamientos gen-específicos.
Germinal vs somática. Son dos universos disjuntos: nomenclatura distinta (c. vs notación somática), guías de interpretación distintas (ACMG/AMP germinal vs AMP/ASCO/CAP somática, Li et al. 2017), bases de datos distintas. No mezcles fuentes sin verificar el contexto.

dbSNP

dbSNP (Single Nucleotide Polymorphism Database, NCBI) es el catálogo de referencia histórico de variantes humanas de pequeña escala (SNVs, pequeñas indels, microsatélites). Asigna identificadores estables (rs<number>) que actúan como pivote en prácticamente toda la literatura y todos los demás recursos: ClinVar, gnomAD, GWAS Catalog, PharmGKB cruzan por rsID.

Funciona más como sistema de nomenclatura y registro que como fuente de evidencia: no clasifica patogenicidad ni cura frecuencias propias. Su valor está en la estabilidad del identificador y en su rol como nexo entre recursos.

Qué incluye

SNVs, indels cortas, MNVs y microsatélites en humano (y otras especies, aunque el foco está en Homo sapiens).
Identificadores rsID con histórico de fusiones (rsMerged), permitiendo seguir variantes a través de builds del genoma.
Anotaciones agregadas de otros recursos (frecuencias de 1000 Genomes, gnomAD, ALFA) y citas en la literatura.
Builds del ensamblado (GRCh37, GRCh38) con coordenadas para cada uno.

Cuándo usarla

Para obtener o canonicalizar un rsID que sirva de pivote entre bases.
Para resolver ambigüedades de coordenadas entre GRCh37 y GRCh38.
Como fuente histórica de variantes documentadas (la cobertura es muy superior a gnomAD en sentido cualitativo, aunque sin métricas poblacionales propias robustas).

Cuándo NO usarla

No la uses como fuente de frecuencia alélica primaria. Las frecuencias agregadas en dbSNP provienen de proyectos externos (1000G, gnomAD). Ve a la fuente directa.
No la uses como fuente de patogenicidad. dbSNP no cura clasificaciones clínicas. Para eso, ClinVar.

Conceptos clave

rsID identifica una posición + alelos alternativos, no un alelo concreto. Una variante triallélica comparte rsID entre sus alelos.
rsMerged fusiona rsIDs redundantes en el más antiguo. Verifica siempre el actual con dbSNP refSNP report.
HGVS oficial: dbSNP publica el HGVS recomendado por transcrito. Útil para alinear con ClinVar.

Cómo se accede

Web: ncbi.nlm.nih.gov/snp, búsqueda por rsID, gen o región.
E-utilities (REST): efetch -db snp -id rs429358 -format json.
Descargas: VCF por cromosoma desde el FTP de dbSNP.
Programático: myvariant.info ofrece consulta unificada por rsID o HGVS y devuelve anotaciones agregadas (dbSNP, ClinVar, gnomAD, CADD, etc.).

Limitaciones / cobertura

Calidad de submission muy heterogénea: convive variación somática enviada por error, artefactos de secuenciación antiguos y variantes mendelianas reales.
Frecuencias poblacionales menos representativas que gnomAD. Usar dbSNP solo como pivote.
Las versiones (build 156, build 157…) se publican con menos frecuencia que gnomAD. Verifica fecha de corte.

Enlaces

Relacionadas en esta página

gnomAD, fuente preferente para frecuencia alélica.
ClinVar, fuente preferente para interpretación clínica.

gnomAD

gnomAD (Genome Aggregation Database, Broad Institute) es el catálogo poblacional de referencia para frecuencia alélica en humano. Agrega exomas y genomas de cientos de miles de individuos no relacionados, en su mayoría sin enfermedad mendeliana severa conocida, , lo que permite estimar frecuencias por población con la mejor precisión disponible hoy.

Sucesor de ExAC. Versión actual (v4) combina ~730k exomas y ~76k genomas alineados a GRCh38, con submuestras estratificadas por ancestralidad genética. Es la herramienta canónica para descartar variantes “demasiado frecuentes para ser patogénicas” en enfermedades raras (criterios BA1/BS1 de ACMG/AMP).

Qué incluye

Frecuencias alélicas globales y por población (NFE, AFR, EAS, SAS, AMR, ASJ, FIN, OTH).
Métricas de constraint a nivel gen: pLI, LOEUF, o/e ratio (observado vs esperado) para LoF y missense.
Variantes estructurales (gnomAD-SV) en un subset de muestras.
Métricas de calidad por variante (AF, AC, AN, filtros PASS).
Subsets clínicamente relevantes (excluyendo cohortes con enfermedad neuropsiquiátrica grave o cáncer, para evitar enriquecimiento).

Cuándo usarla

Filtrado de variantes candidatas en estudios mendelianos: lo “común” (típicamente AF > 0.5% o > 1%, según gen y modo de herencia) raramente es causal.
Estimación de penetrancia y de constraint para priorizar genes (LOEUF < 0.35 → gen altamente intolerante a LoF).
Cálculo de frecuencias en población control para estudios de asociación.

Cuándo NO usarla

No la uses como cohorte clínica. gnomAD excluye explícitamente fenotipos: no busques en gnomAD “pacientes con X”. Para eso, biobancos clínicos (UK Biobank, All of Us).
No asumas representatividad universal. Sesgo poblacional fuerte hacia ancestralidad europea (~57% NFE en v4). Las frecuencias en poblaciones infrarrepresentadas tienen mayor varianza.
No mezcles versiones (v2 vs v4) sin ajuste de ensamblado. v2 usa GRCh37. v4 usa GRCh38.

Conceptos clave

pLI: probabilidad de intolerancia a LoF. Obsoleto, sustituido por LOEUF.
LOEUF (loss-of-function observed/expected upper bound fraction): cuartil más bajo (~<0.35) indica genes altamente intolerantes a LoF. Métrica preferida en interpretación moderna.
o/e missense: análogo a LOEUF para missense. Útil para priorización de variantes missense en genes restringidos.
popmax: frecuencia máxima entre poblaciones (excluyendo OTH y, en versiones recientes, ciertas subpoblaciones inestables). Es el valor que típicamente se usa para criterios ACMG.

Cómo se accede

Web: gnomad.broadinstitute.org, búsqueda por gen, región, variante o rsID.
API GraphQL: endpoint público para consultas estructuradas.
Descargas: VCFs por cromosoma y sumarios por gen vía el portal de descargas (Google Cloud Storage o Azure).
Programático: Hail (cuando se necesita procesar el dataset entero), myvariant.info o VariantAnnotation en R para consultas puntuales.

Limitaciones / cobertura

Sesgo poblacional: la representación de poblaciones africanas, latinas y del sur/este de Asia es muy inferior a NFE en términos absolutos. Las frecuencias en poblaciones minoritarias tienen intervalos de confianza más amplios.
Filtrado de individuos con enfermedad: gnomAD excluye severe pediatric disease cohorts, pero no excluye todos los fenotipos. Sigue siendo posible encontrar variantes patogénicas a baja frecuencia.
Variantes estructurales: cobertura significativamente menor que SNV/indel. gnomAD-SV aún es un recurso secundario frente a alternativas como 1000G-SV o HGSVC.
Constraint no aplica a haploinsuficiencia parcial: LOEUF resume LoF completo. No captura dominante-negativo ni gain of function.

Enlaces

Relacionadas en esta página

dbSNP, pivote por rsID.
ClinVar, interpretación clínica complementaria.

ClinVar

ClinVar (NCBI) es el repositorio público de referencia de interpretaciones clínicas de variantes humanas. Agrega submissions de laboratorios clínicos, consorcios (ClinGen) y curaciones de literatura, asignando a cada variante una clasificación ACMG/AMP (Pathogenic, Likely pathogenic, VUS, Likely benign, Benign) y un nivel de revisión (review status) que refleja la solidez de la evidencia.

Es la fuente canónica para preguntar “¿qué se sabe clínicamente de esta variante?”, pero es un agregador, no un curador único. Distintas submissions sobre la misma variante pueden discrepar. Entender el review status y resolver conflictos forma parte del workflow estándar.

Qué incluye

Variantes con interpretación clínica (germinal mayoritariamente. Somática creciente pero secundaria).
Submission por laboratorio con fecha, método de evidencia, condición asociada (vía MedGen/MONDO/OMIM) y modo de herencia.
Review status (estrellas): desde no assertion criteria (cero estrellas) hasta practice guideline (cuatro estrellas), define el peso de la entrada.
Cross-references a dbSNP, OMIM, Orphanet, Gene, MedGen, y a la literatura (PubMed).

Cuándo usarla

Primer paso en interpretación de cualquier variante germinal candidata.
Identificación de conflictos de interpretación (Conflicting interpretations of pathogenicity) que justifican revisión adicional.
Filtrado en pipelines clínicos: variantes Pathogenic/Likely pathogenic con revisión ≥ 2 estrellas suelen tratarse como hallazgos confirmados.

Cuándo NO usarla

No la uses como única fuente. Variantes ausentes en ClinVar son frecuentes en enfermedades raras, la ausencia no es evidencia.
No interpretes una sola submission de 1 estrella como verdad clínica. El nivel de revisión importa tanto como la clasificación.
No la uses para variantes somáticas como recurso principal. Para somática, OncoKB, CIViC y COSMIC tienen mejor cobertura y curación.

Conceptos clave

Review status (estrellas):
- 0★ no assertion criteria provided o no classification provided.
- 1★ criteria provided, single submitter.
- 2★ criteria provided, multiple submitters, no conflicts.
- 3★ reviewed by expert panel (típicamente ClinGen VCEPs).
- 4★ practice guideline.
Conflictos: cuando submissions discrepan, ClinVar marca Conflicting interpretations. Resolver el conflicto requiere ir a las submissions individuales y evaluar evidencia.
ClinGen Variant Curation Expert Panels (VCEPs) producen reclasificaciones autoritativas gen-específicas, a menudo siguiendo guías ACMG/AMP refinadas para el gen en cuestión.
Reclasificación: tasa estimada del 5-10% de reclasificaciones anuales en variantes previamente clasificadas. Revisar periódicamente las clasificaciones de variantes reportadas a paciente es estándar de cuidado.

Cómo se accede

Web: ncbi.nlm.nih.gov/clinvar, búsqueda por gen, condición, variante o rsID.
E-utilities (REST): efetch -db clinvar -id <VCV> -format vcv.
Descargas: VCF y XML completos vía el FTP de ClinVar (actualizaciones semanales).
Programático: myvariant.info, cBioPortal (para somática cruzada), o el paquete R rentrez / VariantAnnotation.

Limitaciones / cobertura

Tasa de reclasificación elevada: ~5-10% anual. Siempre verificar fecha de última revisión.
Sesgo de submission: laboratorios grandes (Invitae, GeneDx, etc.) dominan el volumen. Condiciones poco testadas pueden estar infrarrepresentadas.
Discrepancias de criterios: no todos los submitters aplican ACMG/AMP de manera homogénea, los VCEPs de ClinGen mitigan esto en genes específicos.
Variantes ausentes: ausencia ≠ benignidad. Verifica la cobertura del gen y considera literatura primaria.

Enlaces

Relacionadas en esta página

OMIM, gen-enfermedad mendeliana.
ClinGen, curación experta de ClinVar.
gnomAD, filtro de frecuencia complementario.

OMIM

OMIM (Online Mendelian Inheritance in Man, Johns Hopkins) es el catálogo de referencia histórico de genes humanos y trastornos mendelianos. Cada entrada de gen y cada fenotipo tiene un identificador estable (MIM number, p. ej. *191170 para TP53, #151623 para Li-Fraumeni), y cada relación gen-fenotipo está curada manualmente con citas a la literatura primaria.

Es el recurso clásico de genética médica. Donde ClinVar agrega clasificaciones de variantes, OMIM agrega evidencia de asociación gen-enfermedad: si un gen está vinculado a una condición mendeliana, cómo, con qué modo de herencia y con qué evidencia.

Qué incluye

Entradas de gen (* o + para genes con secuencia conocida y fenotipo asociado, respectivamente).
Entradas de fenotipo (# para fenotipos con base molecular conocida, % para los descritos sin gen identificado).
Modo de herencia (AD, AR, XLD, XLR, mitocondrial, multifactorial).
Variantes alélicas representativas (selección curada, no exhaustiva, para todas las variantes, ClinVar).
Referencias a la literatura primaria, incluidas históricas (la BD existe desde 1966).

Cuándo usarla

Pregunta “¿este gen está asociado a alguna enfermedad mendeliana y cómo?”.
Establecer modo de herencia esperado antes de filtrar variantes.
Acceso a la historia clínica/genética del gen (descripciones detalladas, clinical synopsis).
Lookup de identificadores MIM para cross-reference con otras BD.

Cuándo NO usarla

No la uses como catálogo exhaustivo de variantes: la lista de variantes alélicas en OMIM es ilustrativa, no completa. Para inventario completo, ClinVar.
No para enfermedades complejas: OMIM cubre principalmente mendelianas. Para multifactoriales (cardiopatía isquémica, diabetes tipo 2), GWAS Catalog.
El acceso es parcialmente restringido: desde 2022, el bulk download está limitado y requiere licencia institucional. Para uso académico individual, la web sigue siendo libre.

Conceptos clave

Prefijos del MIM number:
- * gen, secuencia conocida.
- + gen y fenotipo en la misma entrada.
- # fenotipo con base molecular conocida.
- % fenotipo descrito, gen no identificado.
- ^ entrada eliminada o movida.
Phenotypic Series agrupa fenotipos heterogéneos por gen y por presentación (p. ej. PS613060 para Charcot-Marie-Tooth).
Clinical synopsis: descripción estructurada del fenotipo, útil para deep phenotyping y cruce con HPO.

Cómo se accede

Web: omim.org, búsqueda por gen, fenotipo, MIM number.
API REST: registrada gratuita para uso académico (api.omim.org).
Descargas: archivos mim2gene.txt, morbidmap.txt vía el portal de descargas. Licencia restringida para uso comercial.
Programático: paquete R omim (no oficial), o consultar vía la API con httr/requests.

Limitaciones / cobertura

Cobertura desigual entre genes: genes muy estudiados tienen entradas exhaustivas. Genes recientemente descritos pueden tardar en aparecer.
Modo de herencia simplificado: OMIM categoriza el modo, pero penetrancia incompleta, expresividad variable y modificadores quedan resumidos en texto.
Acceso restringido: barrera para pipelines automatizados sin licencia institucional.

Enlaces

Relacionadas en esta página

ClinVar, inventario exhaustivo de variantes.
ClinGen, curación moderna de validez gen-enfermedad.
OrphaNet, equivalente europeo para enfermedades raras.

ClinGen

ClinGen (Clinical Genome Resource, NIH) es la iniciativa de curación experta que estandariza la interpretación clínica de variantes y de relaciones gen-enfermedad. Donde OMIM cataloga y ClinVar agrega, ClinGen evalúa formalmente con paneles de expertos (VCEPs para variantes, GCEPs para genes-enfermedad) y publica conclusiones autoritativas.

ClinGen es el origen de la versión moderna, refinada gen-específicamente, de las guías ACMG/AMP, y de la nomenclatura formal de validez clínica gen-enfermedad (Definitive, Strong, Moderate, Limited, Disputed, Refuted).

Qué incluye

Gene-Disease Validity: clasificación formal de la fuerza de la evidencia entre un gen y un fenotipo (siete niveles).
Dosage Sensitivity: evaluación de haploinsuficiencia y triplosensibilidad por gen.
Variant Pathogenicity (VCEPs): reclasificaciones de variantes con criterios ACMG/AMP refinados al gen, publicadas en ClinVar a 3 estrellas.
Actionability: evaluación de si la información genética sobre un gen es accionable clínicamente (relevante para guías de incidental findings).
Allele Registry: identificador canónico para alelos a través de versiones de transcrito.

Cuándo usarla

Antes de aceptar una asociación gen-enfermedad: comprueba el Gene-Disease Validity ClinGen (Definitive vs Limited cambia drásticamente la interpretación de un VUS).
Para variantes en genes con VCEP activo, usa los criterios ACMG/AMP refinados gen-específicos en lugar de los genéricos.
Para evaluar dosage sensitivity en CNVs y SVs.

Cuándo NO usarla

Cobertura parcial. Los VCEPs cubren genes específicos (BRCA1/2, RYR1, MYH7, PAH…). Muchos genes carecen de panel dedicado. Para esos, la curación queda en ClinVar genérico.
Lentitud del proceso. Las curaciones VCEP son rigurosas pero lentas. Pueden estar desactualizadas respecto a literatura muy reciente.

Conceptos clave

VCEP (Variant Curation Expert Panel), paneles que reclasifican variantes con criterios refinados.
GCEP (Gene Curation Expert Panel), paneles que clasifican validez gen-enfermedad.
Gene-Disease Validity niveles: Definitive > Strong > Moderate > Limited > No Known Disease Relationship > Disputed > Refuted.
ClinGen Allele Registry (CAR): CA<ID> como identificador estable a nivel de alelo, útil para evitar dependencias de transcrito.

Cómo se accede

Web: clinicalgenome.org, explorar por gen, VCEP, GCEP.
API: Gene-Disease Validity API y Allele Registry API.
Descargas: TSV/CSV de Gene-Disease Validity y Dosage Sensitivity desde la web.
Programático: consultas REST directas o cross-reference vía ClinVar (review status 3★ ≈ curación VCEP).

Limitaciones / cobertura

Cobertura parcial: no todos los genes tienen VCEP/GCEP. Sin panel, la curación se delega a ClinVar genérico.
Latencia: el proceso de panel es deliberadamente conservador.
Centrado en germinal: la cobertura somática es marginal.

Enlaces

Relacionadas en esta página

ClinVar, destino de las clasificaciones VCEP.
OMIM, catálogo histórico de gen-enfermedad.

OrphaNet

OrphaNet es el portal de referencia europeo para enfermedades raras. Asigna identificadores estables (ORPHA codes) a entidades clínicas, mantiene mapas de epidemiología (prevalencia, edad de inicio, herencia), cataloga genes asociados y enlaza a registros de pacientes, centros de referencia y ensayos clínicos.

Donde OMIM cubre primariamente mendelianas con base molecular y enfoque norteamericano, OrphaNet cubre el espacio europeo y va más allá de lo mendeliano: incluye enfermedades raras infecciosas, autoinmunes y oncológicas raras, con foco clínico-asistencial.

Qué incluye

Nomenclatura estandarizada para enfermedades raras (ORPHA:<n>).
Prevalencia y epidemiología por entidad y región.
Genes asociados (con cross-references a HGNC y OMIM).
Modo de herencia, edad de inicio, signos clínicos codificados (HPO).
Listado de centros de referencia europeos y registros.

Cuándo usarla

Cualquier proyecto en el espacio de enfermedades raras europeas: la nomenclatura ORPHA es estándar en HTAs, ensayos clínicos y guías ESHG.
Cruce con HPO para deep phenotyping.
Búsqueda de centros de referencia o registros de pacientes.

Cuándo NO usarla

No es exhaustiva en biología molecular: para detalle de gen y variantes, OMIM/ClinVar/ClinGen.
Cobertura desigual fuera de Europa: la red ERN da estructura sólida en Europa. En otras regiones, complementar con GARD (US).

Conceptos clave

ORPHA code: identificador estable de entidad clínica.
Linearisation: ORPHA propone una jerarquía propia que difiere de ICD-10/11 en casos donde el agrupamiento clínico no coincide con el codificado.
HOOM (HPO-ORPHA Ontological Module): mapea fenotipos HPO a ORPHA codes.

Cómo se accede

Web: orpha.net, búsqueda por nombre, código, gen.
API REST: gratuita para uso académico, registro requerido.
Descargas: XML estructurado, integrable con ontologías (ORDO, Orphanet Rare Disease Ontology).
Programático: paquete R ontologyIndex (genérico) o pyontology. ORDO está en BioPortal y OLS.

Limitaciones / cobertura

Codificación clínica más que molecular. Para profundidad genética, complementar.
Latencia en incorporación de entidades muy recientes.
Recursos clínicos centrados en Europa.

Enlaces

Relacionadas en esta página

OMIM, catálogo molecular complementario.
DECIPHER, fenotipos de pacientes con CNVs.

DECIPHER

DECIPHER (DatabasE of genomiC varIation and Phenotype in Humans using Ensembl Resources) es el repositorio de pacientes con variantes raras, especialmente CNVs y SVs, con fenotipo asociado, alojado en el Wellcome Sanger Institute. Su característica distintiva es que centra el dato en el paciente, no en la variante: cada entrada es un caso anonimizado con genotipo y fenotipo HPO, lo que habilita búsquedas de “pacientes parecidos”.

Especialmente potente para microdeleciones, microduplicaciones, ROHs y variantes en regiones poco estudiadas, donde la población clínica relevante es pequeña y dispersa.

Qué incluye

Casos clínicos con variantes raras (CNVs predominantemente, también SNVs en genes mendelianos) y fenotipo HPO.
Mapas de patogenicidad de regiones genómicas basados en agregado de casos.
Browser de Ensembl integrado con anotaciones funcionales.
Sistema de consentimiento por niveles (datos públicos vs restringidos por solicitud).

Cuándo usarla

Interpretación de CNVs raras: cruzar el intervalo con casos DECIPHER para evaluar patogenicidad regional.
Búsqueda de “pacientes parecidos” para reforzar evidencia de asociación gen-fenotipo.
Estudios de microdeleciones recurrentes y síndromes contiguos.

Cuándo NO usarla

No para variantes somáticas: DECIPHER es estrictamente germinal pediátrica.
No como fuente primaria de frecuencia: los individuos en DECIPHER tienen fenotipo, no son control poblacional. Para frecuencias, gnomAD.

Conceptos clave

HPO (Human Phenotype Ontology) es el sistema de codificación fenotípica estándar. DECIPHER se publica con HPO desde sus inicios.
Patient-centric vs variant-centric: distinto modelo de datos que ClinVar.
DECIPHER ID: identificador del paciente, no de la variante.

Cómo se accede

Web: decipher.sanger.ac.uk, búsqueda por gen, región, HPO term.
API REST: cobertura limitada. Mayor potencia vía la interfaz web.
Descargas: VCF y CSV agregados públicos. Datos no agregados requieren solicitud.

Limitaciones / cobertura

Sesgo hacia pediatría y enfermedades del desarrollo.
Dependencia de consentimiento: parte de los datos requiere solicitud formal.
Variabilidad en la profundidad fenotípica de los casos depositados.

Enlaces

Relacionadas en esta página

OrphaNet, nomenclatura clínica europea.
ClinVar, interpretación de variantes complementaria.

COSMIC

COSMIC (Catalogue Of Somatic Mutations In Cancer, Sanger) es el catálogo de referencia de variantes somáticas en cáncer. Agrega mutaciones, CNVs, fusiones y firmas mutacionales (COSMIC Mutational Signatures) extraídas de literatura primaria y de grandes proyectos (TCGA, ICGC, COSMIC Cell Lines), con curación manual de los hallazgos más relevantes.

Es el equivalente somático aproximado de ClinVar+OMIM, pero con un modelo de acceso peculiar: el contenido es público para consulta web, pero las descargas requieren licencia (académica gratuita, comercial de pago) desde 2016. Esto limita su uso en pipelines automáticos sin licencia institucional.

Qué incluye

Mutaciones puntuales (SNVs, indels) anotadas con HGVS y consecuencia funcional.
CNVs y fusiones génicas recurrentes en cáncer.
Mutational Signatures (SBS, DBS, ID, CN, SV), los patrones de mutagénesis canónicos (firma 1 reloj de envejecimiento, firma 7 UV, firma 4 tabaco, etc.).
Cancer Gene Census: lista curada de genes con evidencia de driver en cáncer (clasificados en Tier 1 / Tier 2).
COSMIC-CGC: anotación funcional de variantes (driver vs passenger, mecanismo).

Cuándo usarla

Verificar recurrencia de una variante somática (FATHMM-MKL, número de samples reportados).
Identificar firmas mutacionales en un tumor.
Validar si un gen es driver conocido (Cancer Gene Census).
Cross-reference con cBioPortal para análisis multi-cohorte.

Cuándo NO usarla

No para variantes germinales: es somática por definición. Mezclar contextos invalida la interpretación.
No para accionabilidad terapéutica: COSMIC cataloga mutaciones, no recomendaciones. Usa OncoKB o CIViC.
Sin licencia, las descargas masivas no son viables: para pipelines, considera fuentes complementarias (ClinVar-somatic, OncoKB) o gestiona la licencia.

Conceptos clave

Cancer Gene Census Tier 1: evidencia robusta de driver oncogénico/supresor.
Tier 2: evidencia más débil pero plausible.
Mutational Signatures (SBS): SBS1 reloj de envejecimiento, SBS4 tabaco, SBS7a/b UV, SBS3 HRD/BRCA1-2, SBS10a/b POLE, útiles para inferir etiología tumoral.
FATHMM-MKL: score de patogenicidad propio de COSMIC para variantes somáticas.

Cómo se accede

Web: cancer.sanger.ac.uk/cosmic, búsqueda por gen, variante, firma.
Descargas: VCF, TSV, JSON desde el portal de downloads, licencia requerida.
API: limitada. El grueso del acceso programático va por descarga.
Cell Lines Project: subset gratuito con datos de líneas celulares.

Limitaciones / cobertura

Licencia: barrera para pipelines sin acuerdo institucional.
Sesgo de submission: variantes muy reportadas en literatura están sobre-representadas. Passengers raros pueden no aparecer.
Solapamiento con TCGA/ICGC: cuenta de samples puede duplicar muestras presentes en varias fuentes. Lee la documentación para no contar doble.

Enlaces

Relacionadas en esta página

TCGA / GDC, fuente primaria de muchos de los datos de COSMIC.
OncoKB, interpretación clínica accionable.
CIViC, evidencia clínica curada por consenso.

TCGA / GDC

TCGA (The Cancer Genome Atlas) fue el proyecto NIH/NCI que generó perfiles multi-ómicos (WES, WGS, RNA-seq, metilación, miRNA, proteómica, datos clínicos) de ~11.000 tumores primarios en ~33 tipos de cáncer entre 2006 y 2018. Sus datos viven hoy en el GDC (Genomic Data Commons), el portal NCI que aloja también CPTAC, TARGET, HCMI, FM-AD y otros proyectos relacionados.

Es la columna vertebral del análisis multi-cohorte en oncogenómica: prácticamente cualquier estudio pan-cáncer serio cita TCGA en algún punto.

Qué incluye

WES y WGS (mutaciones somáticas en formato MAF y VCF), RNA-seq (counts), metilación, miRNA, proteómica (RPPA y CPTAC para mass spec).
Datos clínicos: estadio, supervivencia, tratamiento, respuesta.
Anotaciones de patólogo y revisión de imagen (subset con WSIs).
Pipelines de procesado documentados y versionados (GDC harmonization pipeline).

Cuándo usarla

Análisis pan-cáncer o por tipo tumoral con muestras razonablemente bien anotadas.
Validación de hallazgos de un dataset propio sobre cohortes externas.
Estudios de supervivencia con suficiente n (cohortes BRCA, LUAD, COAD entre las más grandes).

Cuándo NO usarla

Tumores raros: TCGA cubre tipos comunes. Para sarcomas raros, neoplasias pediátricas o linfomas específicos, considera TARGET, MMRF, GENIE o estudios dedicados.
Generalización clínica: el sesgo de la cohorte (mayoría de estadios resecables, casi exclusivamente tratamientos disponibles 2010s) limita extrapolación a la práctica actual.
Single-cell: TCGA es bulk. Para single-cell en cáncer, atlas dedicados (GBM/HNSC/PDAC single-cell atlases, HTAN).

Conceptos clave

GDC Data Tiers:
- Open access: datos derivados (MAF, RNA-seq counts, clinical), descargables libremente.
- Controlled access: datos crudos (FASTQ, BAM) y variantes germinales, requieren acceso vía dbGaP/eRA Commons con justificación.
MAF (Mutation Annotation Format): formato tabular con una mutación somática por fila, anotada con HGVS, consecuencia, sample ID y métricas. Es el formato canónico de mutaciones somáticas en TCGA/cBioPortal.
Sample barcodes: estructura TCGA-XX-XXXX-01A-... codifica proyecto, paciente, alícuota. Aprender a parsear el barcode evita errores de aggregación.
Harmonization: el GDC re-procesó todos los datos primarios con pipelines unificados (GRCh38, Mutect2 + MuSE + VarScan2 + SomaticSniper), usa siempre los datos harmonized, no las versiones legacy.

Cómo se accede

Web: portal.gdc.cancer.gov, exploración interactiva, descarga vía gdc-client.
API REST: completa y documentada (api.gdc.cancer.gov).
Descargas: gdc-client download <UUID> o vía manifests.
Programático: paquetes R TCGAbiolinks, GenomicDataCommons. En Python, gdc-pandas y consumo directo de la API.
dbGaP: para controlled access, autorización vía PI institucional.

Limitaciones / cobertura

Sesgo demográfico: predominio de ancestralidad europea y estadios resecables.
Heterogeneidad clínica: tratamientos y seguimientos no estandarizados entre centros.
Acceso controlado: VCF germinal y BAM son controlled, esto frena análisis de germline en cáncer si no hay aprobación dbGaP.
Datos congelados: TCGA terminó en 2018. Para cohortes más recientes, GENIE, ORIEN, HTAN.

Enlaces

Relacionadas en esta página

cBioPortal, front-end analítico sobre TCGA y otras cohortes.
COSMIC, agrega muchas mutaciones somáticas de TCGA.
ICGC, equivalente internacional / pan-cancer.

cBioPortal

cBioPortal (Memorial Sloan Kettering / Dana-Farber) es el front-end analítico de referencia sobre cohortes de cáncer: TCGA, GENIE, MSK-IMPACT, CPTAC y centenares de estudios adicionales, accesibles desde una interfaz web uniforme y una API REST estable.

Donde GDC es el almacén de datos crudos y derivados, cBioPortal es donde se hacen las preguntas: “¿qué frecuencia tiene esta mutación en gliomas? ¿se correlaciona con supervivencia? ¿cuál es su patrón de co-mutación?”. Reduce horas de scripting a clics. Para análisis reproducibles, la API y el paquete R cBioPortalData ofrecen el mismo acceso programáticamente.

Qué incluye

Cientos de estudios curados (TCGA, GENIE, MSK-IMPACT, CPTAC, dbGaP-cleared, estudios publicados).
Mutaciones (MAF), CNAs, expresión, fusiones, datos clínicos.
Herramientas integradas: OncoPrint, supervivencia por subgrupo, mutual exclusivity, lollipop plots, coexpression, enrichment.
Integración con OncoKB para anotación accionable.

Cuándo usarla

Exploración rápida de cohortes: frecuencia de mutación, patrones de co-ocurrencia, supervivencia por marcador.
Generación de figuras estándar para publicación (OncoPrint, lollipop) con datos públicos.
Combinación de varias cohortes en meta-analysis ligero.
Acceso programático vía API + cBioPortalData (Bioconductor) para pipelines reproducibles.

Cuándo NO usarla

Análisis estadístico complejo: cBioPortal hace análisis estándar. Modelos personalizados (Cox multivariable, mediation, multinivel) requieren bajar los datos y trabajar en R/Python.
Datos crudos: para FASTQ/BAM, GDC o dbGaP. CBioPortal expone datos derivados.

Conceptos clave

Study ID (brca_tcga, msk_impact_2017, genie_public_v15.0) identifica cada cohorte.
OncoPrint: visualización canónica de alteraciones por muestra y gen, formato esperado en publicaciones oncogenómicas.
Public vs private instances: la instancia pública aloja datos abiertos. Algunas instituciones mantienen instancias privadas con datos controlled-access.
OncoKB annotation: cBioPortal puede mostrar el tier de OncoKB para cada variante si la institución dispone de licencia OncoKB.

Cómo se accede

Web: cbioportal.org, exploración por estudio o por gen.
API REST: documentada y estable.
Programático: cBioPortalData (Bioconductor R) o cbio-py / consumo HTTP directo en Python.
Descargas: TSV y MAF por estudio desde la web o la API.

Limitaciones / cobertura

Dependencia de la calidad del estudio fuente: cBioPortal no reanaliza, solo curaliza y expone.
Anotación funcional homogeneizada pero no exhaustiva. Para profundidad, ir a la fuente.
La instancia pública no aloja datos controlled-access.

Enlaces

Relacionadas en esta página

TCGA / GDC, fuente de muchos estudios alojados.
OncoKB, anotación accionable integrada.
COSMIC, catálogo somático complementario.

ICGC / ARGO

ICGC (International Cancer Genome Consortium) fue el complemento internacional a TCGA: ~25.000 tumores en ~50 tipos tumorales, con foco en cánceres infrarrepresentados por TCGA y en jurisdicciones fuera de EE.UU. Su sucesor actual es ICGC-ARGO (Accelerating Research in Genomic Oncology), en marcha desde 2019, que añade datos clínicos longitudinales y secuenciación de ~100.000 muestras adicionales.

Es la fuente preferente cuando TCGA queda corto en un tipo tumoral concreto (p. ej. cánceres de hígado en Asia oriental, cáncer gástrico, sarcomas pediátricos) o cuando se requiere validación cross-cohorte internacional.

Qué incluye

Genomas y exomas tumorales con variantes somáticas, CNVs, SVs.
Transcriptómica y metilómica en subsets.
Datos clínicos con seguimiento longitudinal (especialmente en ARGO).
Proyectos por país/grupo (PACA-AU, BRCA-EU, LIRI-JP, etc.), útiles para análisis de cohortes étnicamente específicas.

Cuándo usarla

Tipos tumorales infra-cubiertos en TCGA.
Validación pan-internacional de hallazgos.
Estudios de heterogeneidad por ancestralidad genética.

Cuándo NO usarla

Variabilidad de protocolos: cada proyecto ICGC usó pipelines distintos. Comparar entre proyectos requiere precaución.
Acceso controlado para datos crudos: igual que TCGA, sin DACO/dbGaP la cobertura queda limitada al open tier.

Conceptos clave

DACO (Data Access Compliance Office) de ICGC autoriza acceso a controlled tier.
ARGO introduce datos clínicos longitudinales, objetivo: ligar genoma a outcome a 5/10 años de seguimiento.
Project codes (BRCA-EU, LIRI-JP…), primer prefijo es tipo tumoral, sufijo es país/región.

Cómo se accede

Portal ARGO: platform.icgc-argo.org.
Legacy DCC: dcc.icgc.org, datos pre-ARGO.
API REST: ambos portales exponen API. ARGO ofrece GraphQL.
Descargas: VCF, MAF, TSV en open tier. FASTQ/BAM en controlled tier vía DACO.

Limitaciones / cobertura

Heterogeneidad de protocolos entre proyectos.
Acceso controlled requiere autorización separada de dbGaP.
Migración legacy → ARGO en curso. Algunos datos antiguos están solo en el DCC clásico.

Enlaces

Relacionadas en esta página

TCGA / GDC, proyecto hermano norteamericano.
COSMIC, agrega datos derivados de ICGC.

CIViC

CIViC (Clinical Interpretation of Variants in Cancer, Washington University) es la base de evidencia clínica somática curada por consenso comunitario abierto. Cada evidence item enlaza una variante (con HGVS) a una enfermedad y a un tipo de evidencia (predictive, prognostic, diagnostic, predisposing, functional, oncogenic), con un nivel de evidencia (A-E) y rating (1-5) revisados por curadores externos.

Diferenciador frente a OncoKB: CIViC es abierto, libre y CC0. Su modelo es similar a Wikipedia con revisión por pares formalizada. Cobertura algo menor que OncoKB en biomarcadores aprobados, pero más amplia y participativa.

Qué incluye

Variantes con interpretación oncológica curada (HGVS + consecuencia + asignación a gen y enfermedad).
Niveles de evidencia (A: validado, B: clínico, C: case study, D: preclínico, E: inferencia).
Tipos de evidencia (predictive de respuesta a terapia, prognostic, diagnostic, predisposing germinal, functional, oncogenic).
Assertions consolidadas por la comunidad cuando hay suficiente evidencia (AMP/ASCO/CAP tier).

Cuándo usarla

Anotación accionable en pipelines abiertos sin licencia comercial.
Cuando OncoKB no está disponible o el coste de licencia es prohibitivo.
Para variantes en genes emergentes con evidencia preclínica/clínica temprana.

Cuándo NO usarla

Cobertura desigual: no todos los biomarcadores oncológicos aprobados FDA están en CIViC con el mismo grado de detalle que en OncoKB. Verifica el gen de interés.

Conceptos clave

Evidence types: predictive, prognostic, diagnostic, predisposing, functional, oncogenic.
Evidence levels A-E: A=validado clínicamente, B=evidencia clínica, C=case study, D=preclínico, E=inferencia/computational.
Assertions combinan múltiples evidence items en una conclusión consolidada con AMP/ASCO/CAP tier (Tier I-IV).

Cómo se accede

Web: civicdb.org, exploración por gen, variante, enfermedad.
API REST: pública y libre.
Descargas: TSV nightly desde la web.
Programático: civicpy (Python).

Limitaciones / cobertura

Cobertura más estrecha que OncoKB en biomarcadores aprobados.
Calidad heterogénea: el modelo abierto requiere revisión continua.

Enlaces

Relacionadas en esta página

OncoKB, alternativa comercial con niveles regulatorios.
COSMIC, catálogo somático.

OncoKB

OncoKB (Memorial Sloan Kettering) es la base de conocimiento de oncología de precisión con niveles de evidencia regulatorios formalizados. A diferencia de CIViC, OncoKB asigna a cada par variante-tumor un nivel 1-4/R1/R2 (Level 1 = FDA-approved biomarker para tumor específico. Level 2 = standard care en otro tumor. Level 3A/3B = clinical evidence. Level 4 = preclinical. R1/R2 = resistance) y mantiene actualización continua revisada por oncólogos.

Es FDA-recognized desde 2023, lo que la convierte en una referencia regulatoriamente válida en EE.UU. Acceso libre para uso académico no comercial. Uso comercial o integración en pipelines clínicos requiere licencia.

Qué incluye

Anotación variante-tumor con Level of Evidence (1, 2, 3A, 3B, 4, R1, R2).
Recomendaciones terapéuticas vinculadas a evidencia (drug links).
Anotación de Oncogenic/Likely Oncogenic/Likely Neutral/Inconclusive para cada variante.
Mecanismo: Gain-of-function, Loss-of-function, Switch-of-function, Unknown.

Cuándo usarla

Tumor board / interpretación clínica formal: el nivel FDA-recognized es a menudo requisito normativo.
Reporte de paciente individual con biomarcadores accionables.
Integración con cBioPortal (anotación nativa).

Cuándo NO usarla

Variantes germinales puras: OncoKB cubre algunos genes germinales con relevancia oncológica (BRCA1/2, MMR), pero no es su fuerte.
Sin licencia comercial, los flujos clínicos productivos no son legales.

Conceptos clave

Level 1: FDA-approved biomarker para indicación específica.
Level 2: Standard care en otra indicación.
Level 3A: Compelling clinical evidence en el tumor del paciente.
Level 3B: Standard care o investigational en otro tumor con evidencia clínica.
Level 4: Compelling preclinical evidence.
R1: Standard care biomarker de resistencia.
R2: Compelling clinical evidence de resistencia.

Cómo se accede

Web: oncokb.org.
API REST: requiere token (académico gratuito tras registro).
Descargas: con licencia.
Programático: consumo de API con httr/requests. Integración nativa en cBioPortal.

Limitaciones / cobertura

Modelo de licencia: limita despliegue productivo libre.
Curación centrada en oncología de precisión: cobertura fuera de ese ámbito (oncología pediátrica rara, sarcomas) más débil.

Enlaces

Relacionadas en esta página

CIViC, alternativa abierta.
cBioPortal, integración nativa.

PharmGKB

PharmGKB (Stanford) es la base de conocimiento de farmacogenómica de referencia: relaciones gen-fármaco con evidencia clínica curada y guías clínicas accionables (CPIC, DPWG) integradas. Cubre tanto la farmacocinética (cómo el genotipo afecta el metabolismo de un fármaco) como la farmacodinámica y los efectos adversos.

Sus dos productos centrales son: (1) Clinical Annotations (relaciones gen-fármaco con nivel de evidencia 1A-4) y (2) CPIC Guidelines (recomendaciones de dosificación o selección por genotipo, redactadas por el Clinical Pharmacogenetics Implementation Consortium).

Qué incluye

Variantes farmacogenómicas y haplotipos (star alleles para CYPs: CYP2D6*1, *4, etc.).
Niveles de evidencia 1A (validado, CPIC guideline) hasta 4 (case study).
Guías clínicas CPIC y DPWG con recomendaciones de dosificación por genotipo.
VIP (Very Important Pharmacogene): páginas curadas para genes farmacogenéticos clave.

Cuándo usarla

Implementación de pruebas farmacogenómicas clínicas (CYP2C19-clopidogrel, CYP2D6-tamoxifeno, TPMT-tiopurinas, DPYD-fluoropirimidinas, HLA-B*57:01-abacavir).
Anotación de variantes en reports clínicos para personalización terapéutica.
Investigación de farmacogenómica de poblaciones.

Cuándo NO usarla

Para variantes oncológicas somáticas: PharmGKB cubre principalmente germinales en metabolismo. Para somáticas oncológicas accionables, OncoKB/CIViC.
Para novel drug discovery, PharmGKB cura asociaciones gen-fármaco conocidas. No es base de target discovery.

Conceptos clave

Star alleles (*<n>), nomenclatura PharmVar para haplotipos farmacogenéticos, especialmente CYPs.
Niveles de evidencia 1A-4: 1A es nivel CPIC. 1B clínica reproducida. 2A/2B asociación con efecto significativo. 3 evidencia limitada. 4 case reports.
CPIC vs DPWG: dos consorcios paralelos (US y Holanda) que publican guías. Suelen coincidir, divergen en detalles.
Diplotipos: genotipo combinado de los dos alelos *<n> que define el fenotipo metabolizador (poor/intermediate/normal/rapid/ultrarapid).

Cómo se accede

Web: pharmgkb.org, búsqueda por gen, fármaco, variante.
API REST: pública.
Descargas: TSV completas vía downloads.
Programático: paquete R PharmGKB, o consumo directo de API.

Limitaciones / cobertura

Centrado en farmacogenética con evidencia clínica. Novel pharmacogenomics emergente puede no estar incluida.
Star alleles dependen del laboratorio de tipado. Mapeo entre tipado y SNVs/CNVs no es trivial (gen como CYP2D6 con CNVs y pseudogén CYP2D7).

Enlaces

Relacionadas en esta página

CIViC y OncoKB, accionabilidad somática complementaria.
ClinVar, algunas variantes farmacogenómicas están también ahí.

Notas prácticas de integración

Algunas reglas operativas que ahorran problemas a lo largo de cualquier proyecto serio sobre variantes humanas:

Fija el ensamblado de referencia explícitamente. GRCh37 y GRCh38 conviven en literatura, ClinVar publica ambos, gnomAD v2 está en GRCh37 y v4 en GRCh38. Cualquier pipeline serio fija el ensamblado en la primera etapa y propaga la metadata.
Identifica variantes por rsID o por HGVS, no por coordenadas crudas. Las coordenadas dependen de versión de transcrito y ensamblado. HGVS con RefSeq específico (NM_<n>.<version>) es la forma estable.
myvariant.info y VariantAnnotation (Bioconductor) consolidan acceso programático a dbSNP, ClinVar, gnomAD, CADD, COSMIC y otros con una sola consulta, útiles para anotación masiva sin escribir un cliente por base.
Diferencia tier de acceso desde el inicio: para datos controlled-access (TCGA controlled, ICGC controlled), planifica autorización dbGaP/DACO con meses de antelación. Para pipelines abiertos, restringe a open tier.
Documenta la versión de cada base consultada en tu análisis. Reproducibilidad real exige indicar gnomAD v4.1.0, ClinVar 2026-04-21, COSMIC v100, no solo el nombre.

Lecturas y referencias

Richards S, Aziz N, Bale S et al. (2015). Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genetics in Medicine 17:405-423.
Li MM, Datto M, Duncavage EJ et al. (2017). Standards and guidelines for the interpretation and reporting of sequence variants in cancer. J Mol Diagn 19:4-23.
Karczewski KJ, Francioli LC, Tiao G et al. (2020). The mutational constraint spectrum quantified from variation in 141,456 humans. Nature 581:434-443.
Landrum MJ, Lee JM, Benson M et al. (2018). ClinVar: improving access to variant interpretations and supporting evidence. Nucleic Acids Res 46:D1062-D1067.
Alexandrov LB, Kim J, Haradhvala NJ et al. (2020). The repertoire of mutational signatures in human cancer. Nature 578:94-101.