Bases de datos de genómica

Repositorios primarios y portales integrativos de secuencias, anotación y estructura

databases
genomics
ncbi
ensembl
ucsc
embl-ebi
refseq
alphafold
Catálogo razonado de las bases de datos genómicas de referencia: consorcio INSDC (NCBI, ENA, DDBJ), portales integrativos (Ensembl, UCSC) y recursos especializados (RefSeq, AlphaFold DB, AlphaMissense). Cuándo usar cada una, cómo se accede y dónde están sus límites.

Sobre bases de datos de genómica

El ecosistema mundial de bases de datos genómicas se organiza alrededor de tres ejes que conviene tener claros antes de empezar a buscar un dato concreto.

1. El consorcio INSDC (International Nucleotide Sequence Database Collaboration). Es el acuerdo que sostiene desde 1987 el archivo público de secuencias de nucleótidos. Tres instituciones espejean sus contenidos diariamente:

  • GenBank (NCBI, EE. UU.)
  • ENA: European Nucleotide Archive (EMBL-EBI, Reino Unido)
  • DDBJ: DNA Data Bank of Japan (NIG, Japón)

Una secuencia depositada en cualquiera de los tres aparece en los otros dos en menos de 24 h. Esto importa: a efectos prácticos, los tres son interfaces distintos sobre el mismo archivo subyacente. La elección entre ellos depende del tooling (BLAST web del NCBI, ENA Browser para programación reproducible, DDBJ si trabajas con socios en Asia-Pacífico), no de la cobertura.

2. Ensembl vs UCSC, dos paradigmas de portal integrativo. Ambos consumen las secuencias del INSDC, las anotan y las exponen con un genome browser, pero su filosofía es distinta:

  • Ensembl (EMBL-EBI + Sanger): anotación automática reproducible a partir de un pipeline propio, API REST estable, BioMart como sistema de consulta tabular, identificadores estables versionados (ENSG, ENST, ENSP). Pensado para queries programáticas.
  • UCSC Genome Browser (UC Santa Cruz): énfasis en el browser visual y en agregar tracks de terceros (ENCODE, GTEx, clinvar, conservación filogenética). Su sistema de tablas (Table Browser) y el chain/net para liftover entre ensamblados son la referencia de facto.

En general: si vas a programar contra una API, Ensembl. Si vas a explorar visualmente regiones genómicas con tracks heterogéneos, UCSC.

3. RefSeq vs GenBank, curado vs no curado. GenBank acepta cualquier depósito que pase validaciones técnicas (es archivo, no curación). RefSeq (NCBI) es el subconjunto curado: una secuencia de referencia única por gen/transcrito/proteína, con identificadores prefijo (NM_, NP_, NR_, NC_) y revisión editorial. Para análisis clínicos, anotación canónica o cualquier pipeline donde la reproducibilidad importe, trabaja siempre sobre RefSeq, no sobre GenBank.

Esta página cataloga las bases de datos que estructuran el día a día del trabajo en genómica. El orden refleja jerarquía conceptual: primero los miembros del consorcio INSDC (NCBI, EMBL-EBI, DDBJ), después los portales integrativos (Ensembl, UCSC), y finalmente los recursos especializados que se apoyan en los anteriores (RefSeq como subset curado, AlphaFold DB y AlphaMissense para estructura y patogenicidad).


NCBI

El NCBI (National Center for Biotechnology Information) es la división del NIH/NLM que mantiene el archivo de secuencias estadounidense (GenBank) y, alrededor de él, el catálogo más amplio de bases de datos biomédicas operativas: PubMed, dbSNP, ClinVar, Gene, Assembly, SRA y BLAST entre otras. Cuando alguien dice “buscar una secuencia” sin más contexto, normalmente se refiere a nucleotide o protein del NCBI accedido vía Entrez.

Es uno de los tres nodos del consorcio INSDC. Su valor diferencial frente a ENA/DDBJ no está en la cobertura de secuencias (que es idéntica) sino en la integración con PubMed y con el sistema Entrez de búsqueda cruzada entre bases de datos.

Qué incluye

  • GenBank: archivo INSDC de secuencias de nucleótidos.
  • RefSeq: subconjunto curado de secuencias de referencia (ver entrada propia).
  • Assembly: ensamblados de genoma completos con metadatos (GCA_/GCF_).
  • Gene: registros consolidados por gen, con vínculos a secuencia, ontología y literatura.
  • dbSNP: variantes de un solo nucleótido y pequeñas indels (rs IDs).
  • ClinVar: interpretación clínica de variantes germinales y somáticas.
  • dbVar: variantes estructurales (>50 bp).
  • SRA (Sequence Read Archive), reads crudos de NGS.
  • GEO (Gene Expression Omnibus), datos de expresión (microarray y RNA-seq procesado).
  • PubMed y PMC, literatura biomédica.
  • BLAST: servicio de búsqueda por similitud contra cualquier base de datos del NCBI.
  • Taxonomy: taxonomía oficial usada por todo el INSDC.

Cuándo usarla

  • Búsqueda inicial de una secuencia, gen o variante humana sin tener todavía claro qué flavor (Ensembl, UCSC) usarás para downstream.
  • Acceso a literatura (PubMed) cruzado con la propia secuencia.
  • Descarga masiva de reads crudos desde SRA.
  • Cualquier pipeline clínico que necesite ClinVar como fuente canónica de interpretación de variantes.

Cuándo NO usarla

  • Para queries programáticas a escala sobre anotación de genes humanos/vertebrados, Ensembl REST + BioMart es notablemente más limpio.
  • Para liftover entre ensamblados, las herramientas y chain files de UCSC son el estándar.
  • Si trabajas exclusivamente con datos europeos y necesitas latencia baja desde Europa, el espejo de ENA rinde mejor.

Conceptos clave

  • Accession y versión. Todo registro tiene un accession (NM_001301717) y una versión (NM_001301717.2). Fija siempre la versión en cualquier análisis reproducible, los registros se actualizan silenciosamente.
  • Identificadores Assembly. GCA_ = GenBank (cualquier ensamblado depositado). GCF_ = RefSeq (subset curado). Para humano, el ensamblado canónico actual es GRCh38 (GCA_000001405.15 / GCF_000001405.40). GRCh37/hg19 sigue siendo común en datos clínicos legacy.
  • Taxonomy ID. Cada organismo tiene un taxid numérico (humano = 9606). Es el identificador interoperable con ENA, DDBJ, Ensembl y el resto del ecosistema.
  • Entrez es el sistema de búsqueda cruzada: una consulta puede saltar de PubMed → Gene → Nucleotide → Protein → Structure sin romper el contexto.

Cómo se accede

  • Web UI. https://www.ncbi.nlm.nih.gov con buscador unificado.

  • E-utilities (Entrez API). Servicio REST con esearch, efetch, elink, esummary. La pieza más usada en pipelines.

    # Descargar una secuencia FASTA por accession
    curl "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001301717.2&rettype=fasta&retmode=text"
  • Datasets CLI (datasets/dataformat). Herramienta moderna para descargar genomas, genes y assemblies en bloque.

    datasets download genome accession GCF_000001405.40 --include genome,gff3
  • BioPython (Bio.Entrez) para envolver E-utilities desde Python.

  • rentrez en R para lo equivalente.

  • FTP: https://ftp.ncbi.nlm.nih.gov, la fuente para descargas masivas reproducibles.

Limitaciones / cobertura

  • E-utilities limita a 3 peticiones/segundo sin API key y 10/s con ella. No batchear por encima rompe el servicio.
  • Algunas bases de datos (GEO, SRA) son archivo crudo: el procesamiento queda al usuario. Para análisis reanalizado integrado, GEO no es comparable a portales como Expression Atlas del EBI.
  • ClinVar refleja interpretaciones depositadas. Conflictos entre laboratorios son explícitos y deben revisarse.

Enlaces

Relacionadas en esta página

  • RefSeq, subset curado del propio NCBI.
  • EMBL-EBI y DDBJ, espejos INSDC con el mismo contenido base.
  • Ensembl, alternativa preferida para anotación programática.

EMBL-EBI

El EMBL-EBI (European Bioinformatics Institute, Hinxton, UK) es el nodo europeo del consorcio INSDC y, más allá de eso, el operador del catálogo más amplio de recursos bioinformáticos en Europa. Forma parte de EMBL (European Molecular Biology Laboratory) y mantiene en paralelo Ensembl, UniProt (con SIB y PIR), PDBe, ChEMBL, AlphaFold DB y un largo etcétera.

A diferencia del NCBI, el EBI es deliberadamente más modular: en lugar de un portal único, cada base de datos opera con su dominio, su API REST propia y su equipo. Esto facilita la integración programática pero exige saber qué recurso atacar en cada caso.

Qué incluye

  • ENA: European Nucleotide Archive (espejo INSDC, equivalente europeo de GenBank/SRA).
  • Ensembl: anotación genómica de vertebrados (entrada propia).
  • UniProt: secuencias y anotación funcional de proteínas (con SIB y PIR).
  • InterPro: clasificación de dominios y familias proteicas. Integra Pfam, SMART, PROSITE, CDD.
  • PDBe: Protein Data Bank europeo (estructuras 3D experimentales).
  • AlphaFold DB: estructuras predichas (entrada propia).
  • ChEMBL: bioactividades químicas y drug discovery.
  • Expression Atlas: datos de expresión reanalizados de RNA-seq y microarray.
  • BioStudies y BioSamples, archivo de estudios y muestras.
  • Europe PMC: espejo europeo de PubMed con full text y anotación de menciones biomédicas.
  • Reactome: vías de señalización y rutas metabólicas curadas.

Cuándo usarla

  • Acceso programático reproducible a secuencias INSDC: la ENA API es más limpia que las E-utilities del NCBI para descargas masivas.
  • Anotación funcional de proteínas, UniProt es el estándar.
  • Clasificación de dominios proteicos, InterPro consolida varios recursos en una sola consulta.
  • Análisis de vías y rutas metabólicas, Reactome.
  • Cualquier análisis con foco en expression reanalizado y comparable entre estudios, Expression Atlas.

Cuándo NO usarla

  • Para PubMed con todas sus integraciones internas (Gene, Nucleotide, Structure), el NCBI/Entrez sigue siendo más cómodo.
  • Para variantes clínicas (ClinVar, dbSNP), NCBI es la referencia.
  • Para anotación de genoma humano con énfasis en tracks visuales heterogéneos, UCSC rinde mejor.

Conceptos clave

  • No es un portal único. Cada base de datos tiene su URL, su API y su modelo. https://www.ebi.ac.uk es solo el directorio.
  • UniProt distingue Swiss-Prot (curado) de TrEMBL (automático). Filtra siempre por reviewed:true cuando quieras anotación fiable.
  • Identificadores UniProt tienen forma P04637 (humano, primary accession) y TP53_HUMAN (entry name, más legible). Ambos son estables, pero el primary accession es el canónico.
  • InterPro unifica varios subrecursos (Pfam, SMART, PROSITE…) bajo IDs IPR000001. Útil para no depender de un solo método.

Cómo se accede

  • Web UI. Cada recurso tiene su portal independiente.

  • APIs REST. Cada base tiene la suya, todas siguen patrones razonables. Ejemplos:

    # UniProt - buscar TP53 humano (reviewed)
    curl "https://rest.uniprot.org/uniprotkb/search?query=gene:TP53+AND+organism_id:9606+AND+reviewed:true&format=json"
    
    # ENA - descargar secuencia FASTA por accession
    curl "https://www.ebi.ac.uk/ena/browser/api/fasta/AB000263.1"
  • Globus / FTP. https://ftp.ebi.ac.uk y servicios Globus para descargas masivas.

  • Clientes específicos: UniProt.ws en Bioconductor, bioservices en Python para acceder a múltiples APIs del EBI con una sintaxis común.

Limitaciones / cobertura

  • La fragmentación entre recursos exige aprender varias APIs si tu trabajo cruza dominios.
  • TrEMBL contiene anotación automática masiva pero no curada, adecuada para coverage, no para conclusiones biológicas.
  • Algunos recursos (Expression Atlas, BioStudies) tienen ritmo de actualización menor que GEO/SRA: la cobertura es menor pero la calidad de reanálisis es superior.

Enlaces

Relacionadas en esta página

  • NCBI y DDBJ, nodos hermanos del INSDC.
  • Ensembl, operado por el propio EBI, con entrada separada por relevancia.
  • AlphaFold DB, alojada en el EBI.

DDBJ

El DDBJ (DNA Data Bank of Japan), operado por el National Institute of Genetics (NIG) en Mishima, es el tercer nodo del consorcio INSDC. Su contenido está espejado con GenBank (NCBI) y ENA (EBI) en menos de 24 horas, por lo que la elección es esencialmente operativa, no de cobertura.

Mantiene su propio archivo de secuencias (DDBJ), de reads (DRA, equivalente a SRA), de assemblies (DDBJ Genome) y de envíos relacionados con el JGA (Japanese Genotype-phenotype Archive) para datos sensibles bajo consentimiento.

Qué incluye

  • DDBJ: archivo de secuencias INSDC (espejo).
  • DRA (DDBJ Sequence Read Archive), reads crudos NGS, espejo de SRA del NCBI y ENA Read Archive.
  • DDBJ Genome: assemblies completos.
  • JGA (Japanese Genotype-phenotype Archive), datos humanos sensibles bajo acceso controlado, equivalente regional al dbGaP (NCBI) y EGA (EBI).
  • GEA (Genomic Expression Archive), datos de expresión.

Cuándo usarla

  • Latencia y throughput mejores desde Asia-Pacífico para descargas grandes.
  • Depósito de datos generados en Japón o por colaboradores locales, política institucional habitual.
  • Acceso a JGA cuando los datos están bajo ese paraguas regulatorio específico.

Cuándo NO usarla

  • Si trabajas desde Europa o América con conexión estándar, ENA o NCBI rinden igual o mejor.
  • Para integración con literatura, taxonomía o BLAST en flujo único, NCBI está más integrado.

Conceptos clave

  • Los accessions DDBJ comparten espacio con INSDC: una secuencia depositada en DDBJ recibe un accession (AB, AP, BA…) que es válido y resoluble en NCBI y ENA.
  • DRA submissions usan prefijos DRA/DRR/DRS/DRX análogos a SRA/SRR del NCBI.

Cómo se accede

  • Web UI. https://www.ddbj.nig.ac.jp

  • getentry / ARSA. Servicios de descarga por accession.

  • FTP. https://ftp.ddbj.nig.ac.jp

    # Mismo accession resoluble en los tres nodos INSDC
    curl "https://getentry.ddbj.nig.ac.jp/getentry/na/AB000263/?format=fasta"

Limitaciones / cobertura

  • Mismo archivo INSDC subyacente, no hay ventaja de cobertura sobre NCBI/ENA.
  • Documentación principal a menudo bilingüe inglés/japonés. Algunas partes específicas solo en japonés.

Enlaces

Relacionadas en esta página

  • NCBI y EMBL-EBI, nodos hermanos del INSDC, mismo contenido base.

Ensembl

Ensembl es el portal de anotación genómica de vertebrados y otros eucariotas operado conjuntamente por EMBL-EBI y el Wellcome Sanger Institute. Más allá del browser clásico, es la pieza programáticamente más limpia del ecosistema: API REST estable, BioMart como sistema de consulta tabular, identificadores versionados y un release cycle trimestral predecible.

Para genomas no vertebrados, los proyectos hermanos Ensembl Plants, Fungi, Metazoa, Protists, Bacteria (agrupados bajo Ensembl Genomes) replican la infraestructura sobre clados específicos.

Qué incluye

  • Anotación de genes y transcritos para humano, ratón y >300 vertebrados, con identificadores estables ENSG, ENST, ENSP, ENSE (exón) versionados.
  • Variation: variantes (SNPs, estructurales) consolidadas desde dbSNP, ClinVar, COSMIC, gnomAD y otros.
  • Regulation: elementos regulatorios (promotores, enhancers, sitios de unión TF), basados principalmente en datos ENCODE/Roadmap.
  • Comparative genomics: alineamientos multiespecie, árboles de genes, ortología y paralogía.
  • VEP (Variant Effect Predictor), herramienta canónica para anotar el impacto funcional de variantes.
  • BioMart: consulta tabular cruzada de cualquier dimensión (gen ↔︎ transcrito ↔︎ variante ↔︎ ortólogo).

Cuándo usarla

  • Anotación canónica de genes humanos/vertebrados con identificadores estables.
  • Queries programáticas sobre coordenadas, transcritos o variantes, la API REST es de las más limpias del sector.
  • Anotación de variantes con VEP (Web, CLI o como módulo Python/Perl).
  • Análisis comparativo entre especies usando árboles de genes y ortólogos.
  • Conversión masiva de identificadores con BioMart o biomaRt (Bioconductor).

Cuándo NO usarla

  • Para exploración visual con tracks heterogéneos de terceros (ENCODE, GTEx, conservación filogenética), UCSC es más rico.
  • Si tu pipeline depende de anotación RefSeq (clínico, guidelines HGVS), tendrás que mapear ENST ↔︎ NM_, usable, pero introduce fricción. Considera trabajar directamente sobre RefSeq.
  • Para invertebrados no cubiertos por Ensembl Metazoa, las bases especializadas (FlyBase, WormBase, ZFIN) tienen anotación más rica.

Conceptos clave

  • Identificadores estables y versionados. ENSG00000141510 (TP53 humano) y ENSG00000141510.18 indican gen y versión. La versión cambia si la anotación se actualiza. El ID base persiste.
  • Release cycle trimestral. Los releases siguen un número correlativo (110, 111…). En reproducibilidad fija el release, no solo la especie y el ensamblado.
  • Assembly vs annotation. GRCh38 es el ensamblado (común con NCBI). La anotación Ensembl sobre GRCh38 se actualiza release a release y no coincide gen a gen con RefSeq, esperar coincidencia exacta es un error común.
  • Canonical transcript. Desde 2022, Ensembl publica un MANE Select consensuado con NCBI/RefSeq como transcrito canónico, un puente real entre ambos mundos para clínica.

Cómo se accede

  • Web UI. https://www.ensembl.org con genome browser y buscador.

  • REST API. https://rest.ensembl.org, la pieza más usada en pipelines.

    # Información de gen por símbolo HGNC
    curl "https://rest.ensembl.org/lookup/symbol/homo_sapiens/TP53?expand=1" -H "Accept:application/json"
    
    # Convertir coordenadas entre ensamblados (GRCh37 → GRCh38)
    curl "https://rest.ensembl.org/map/human/GRCh37/X:1000000..1000100:1/GRCh38?" -H "Accept:application/json"
  • BioMart. Interfaz tabular vía web o vía el paquete biomaRt de Bioconductor.

    library(biomaRt)
    mart <- useMart("ensembl", dataset = "hsapiens_gene_ensembl")
    getBM(attributes = c("ensembl_gene_id", "hgnc_symbol", "entrezgene_id"),
          filters    = "hgnc_symbol",
          values     = c("TP53", "BRCA1"),
          mart       = mart)
  • VEP CLI y módulo Perl/Python para anotar VCFs.

  • FTP. https://ftp.ensembl.org, GTF, FASTA, VCF y archivos comparativos por release.

  • MySQL público. Servidor ensembldb.ensembl.org accesible para queries SQL directas (uso avanzado).

Limitaciones / cobertura

  • Anotación discrepante con RefSeq. El conjunto de transcritos no es idéntico, para clínica formal, MANE Select salva el problema en genes consensuados, pero no en todos.
  • Cobertura no humana desigual. Vertebrados modelo (ratón, pez cebra, etc.) están muy anotados. Otros vertebrados secundarios tienen anotación más fina solo en releases recientes.
  • API REST tiene rate limit de 15 req/s por cliente. Respétalo o serás bloqueado temporalmente.

Enlaces

Relacionadas en esta página

  • UCSC Genome Browser, paradigma alternativo, orientado a exploración visual.
  • RefSeq, anotación canónica del NCBI. MANE Select las concilia parcialmente.
  • EMBL-EBI, coopera en operar Ensembl.

UCSC Genome Browser

El UCSC Genome Browser (University of California, Santa Cruz) es el genome browser de referencia histórica, el primero en publicar el borrador del genoma humano en julio de 2000, y sigue siendo el portal preferido para exploración visual con tracks heterogéneos. Su filosofía es opuesta a la de Ensembl: integra tracks de terceros (ENCODE, GTEx, conservación filogenética PhyloP/PhastCons, ClinVar, dbSNP, GENCODE) sobre un browser extremadamente flexible.

Qué incluye

  • Genome browser con tracks nativos y custom tracks / track hubs aportados por la comunidad.
  • Table Browser: interfaz para extraer cualquier track como tabla.
  • BLAT: alineamiento rápido de secuencias contra ensamblados (alternativa a BLAST cuando buscas el lugar exacto en el genoma).
  • liftOver: conversión de coordenadas entre ensamblados (hg19 ↔︎ hg38 ↔︎ mm10 ↔︎ mm39…). Los chain files de UCSC son el estándar de facto.
  • GENCODE: anotación de transcritos humana y de ratón (proyecto compartido con Ensembl, distribuida vía UCSC).
  • ENCODE tracks: todos los datos ENCODE de regulación.
  • PhyloP / PhastCons: scores de conservación filogenética.
  • UCSC Genes / Known Genes: anotación propia (alternativa a GENCODE/RefSeq).
  • Cell Browser: equivalente para single-cell.

Cuándo usarla

  • Exploración visual de una región genómica con múltiples tracks simultáneos.
  • Liftover entre ensamblados, el flujo canónico es liftOver con chain files de UCSC, ya sea por web, CLI o vía rtracklayer::liftOver en Bioconductor.
  • BLAT cuando necesitas localizar una secuencia corta en el genoma (más rápido que BLAST para este caso).
  • Acceso a tracks ENCODE, GTEx, PhyloP/PhastCons cuando los necesitas alineados sobre tu región de interés.

Cuándo NO usarla

  • Para queries programáticas masivas de anotación de genes/transcritos, Ensembl REST + BioMart es más limpio.
  • Para anotación funcional de proteínas, UniProt (EBI).
  • Para variantes clínicas, ClinVar (NCBI) directamente.

Conceptos clave

  • Nomenclatura de ensamblados. UCSC usa hg19, hg38 (humano), mm10, mm39 (ratón). El mapeo a INSDC es: hg19 = GRCh37, hg38 = GRCh38, mm10 = GRCm38, mm39 = GRCm39. No son intercambiables formalmente, UCSC añade ajustes propios (nombres de cromosomas con prefijo chr, contigs alternativos manejados de forma distinta).
  • chr-prefixed vs sin prefijo. UCSC usa chr1, chrX, chrM. Ensembl y NCBI suelen usar 1, X, MT. Es la fuente número uno de errores en pipelines, mapea siempre antes de operar.
  • Chain files. Archivos .chain describen el alineamiento entre dos ensamblados. Son la base de liftOver. Disponibles públicamente para todos los pares relevantes.
  • Track hubs. Sistema para servir tracks propios desde tu servidor y visualizarlos en UCSC sin subir los datos.

Cómo se accede

  • Web UI. https://genome.ucsc.edu, el browser clásico.

  • Table Browser. https://genome.ucsc.edu/cgi-bin/hgTables para extraer cualquier track como BED, GTF, FASTA, etc.

  • REST API (/api/).

    # Obtener anotación GENCODE en una región
    curl "https://api.genome.ucsc.edu/getData/track?genome=hg38;track=wgEncodeGencodeBasicV44;chrom=chr17;start=7660000;end=7690000"
  • MySQL público. Servidor genome-mysql.soe.ucsc.edu con todas las tablas accesibles.

  • liftOver CLI + chain files desde https://hgdownload.soe.ucsc.edu/downloads.html.

    liftOver input.bed hg19ToHg38.over.chain.gz output.bed unmapped.bed
  • rtracklayer en R para interactuar con tracks programáticamente.

Limitaciones / cobertura

  • Para genomas no humanos/no ratón, la cobertura de tracks es menor que la de Ensembl en clados equivalentes.
  • La nomenclatura chr/sin-chr y los nombres hg19/hg38 exigen mapeos cuidadosos al cruzar con datos Ensembl o NCBI.
  • El Table Browser impone límites de tamaño en queries interactivas. Para descargas masivas, usa el FTP o el MySQL público.

Enlaces

Relacionadas en esta página

  • Ensembl, paradigma alternativo, orientado a programación.
  • NCBI, fuente original de las secuencias indexadas en UCSC.

RefSeq

RefSeq (Reference Sequence) es el subconjunto curado del NCBI: una secuencia de referencia única, no redundante, por gen / transcrito / proteína / ensamblado, con revisión editorial activa. A diferencia de GenBank (que es archivo), RefSeq es catálogo: cada entrada tiene un equipo responsable y un estado de curación explícito.

Es la base sobre la que se construye la anotación clínica formal: HGVS recommendations la asumen como referencia, y la nomenclatura de variantes (NM_001301717.2:c.524G>A) se interpreta sobre RefSeq.

Qué incluye

  • NM_: transcritos mRNA curados.
  • NR_: transcritos no codificantes curados.
  • NP_: proteínas curadas.
  • NC_: secuencias completas de cromosomas / ensamblados de referencia.
  • NG_: regiones genómicas anotadas (típicamente locus génico extendido para uso clínico).
  • XM_, XR_, XP_: predicciones automáticas (no curadas manualmente, pero validadas por pipeline).
  • MANE Select / MANE Plus Clinical: transcrito canónico consensuado con Ensembl/GENCODE.

Cuándo usarla

  • Cualquier análisis clínico o reportable según guidelines HGVS / ACMG.
  • Cuando necesitas una secuencia de referencia única por gen, no la familia de variantes del archivo GenBank.
  • Como referencia para anotar VCFs en pipelines de diagnóstico, herramientas como VEP y snpEff soportan RefSeq como alternativa a Ensembl/GENCODE.
  • Como anotación del ensamblado humano de referencia (GCF_000001405.40 = GRCh38 RefSeq).

Cuándo NO usarla

  • Para queries programáticas masivas sobre coordenadas, transcritos y ortólogos, la API de Ensembl es más cómoda. Usa RefSeq como referencia, pero accede vía Ensembl si necesitas BioMart o REST estables.
  • Si tu pipeline está construido sobre identificadores Ensembl/GENCODE, mantén la coherencia interna y solo cruza a RefSeq para reporting final.

Conceptos clave

  • Prefijo dice todo. NM_ codifica el tipo de entrada y si está curada (N*) o predicha (X*). Internalizar esa convención evita malentendidos.
  • MANE Select (Matched Annotation from NCBI and EMBL-EBI) define un transcrito canónico por gen humano consensuado entre RefSeq y Ensembl/GENCODE. Es el puente formal entre ambos mundos: si trabajas con MANE Select, tus análisis son comparables sin ambigüedad.
  • MANE Plus Clinical añade transcritos adicionales relevantes en clínica que MANE Select no cubre.
  • Status codes explícitos: REVIEWED, VALIDATED, PROVISIONAL, MODEL, INFERRED. Indican el grado de curación.
  • Versión. NM_001301717.2, la versión cambia con cada actualización. Fija siempre la versión completa en análisis reproducibles.

Cómo se accede

  • Como parte del NCBI vía E-utilities, datasets CLI o web. No tiene API separada, es un flavor del NCBI.

    # Descargar el transcrito MANE Select de TP53
    curl "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001126112.3&rettype=fasta&retmode=text"
  • FTP: https://ftp.ncbi.nlm.nih.gov/refseq/ con releases periódicos.

  • MANE Select / Plus Clinical: distribuido por separado en https://ftp.ncbi.nlm.nih.gov/refseq/MANE/.

  • En Bioconductor: paquetes TxDb.Hsapiens.UCSC.hg38.knownGene y similares incluyen anotación RefSeq. org.Hs.eg.db mapea entre identificadores.

Limitaciones / cobertura

  • No coincide gen a gen con Ensembl/GENCODE fuera de MANE Select, esperar coincidencia exacta es un error común.
  • La curación es continua pero no exhaustiva en todas las especies. En humano la cobertura es completa, en organismos modelo secundarios el ritmo es menor.
  • Los identificadores X* (predichos) no son adecuados para reporting clínico, úsalos solo en exploración.

Enlaces

Relacionadas en esta página

  • NCBI, RefSeq es un subconjunto curado del propio NCBI.
  • Ensembl, anotación paralela. MANE Select concilia los transcritos canónicos.

AlphaFold DB

AlphaFold Protein Structure Database es el repositorio público de estructuras 3D predichas por AlphaFold2/3, alojado y mantenido por EMBL-EBI en colaboración con DeepMind. Desde su lanzamiento en 2021 (y la gran expansión de 2022 con >200 millones de estructuras), ha redefinido el acceso a estructura proteica: cobertura casi total del proteoma de referencia de cualquier organismo con UniProt, sin necesidad de cristalografía.

No sustituye al PDB (estructuras experimentales). Lo complementa. Para proteínas sin estructura experimental, AlphaFold DB suele ser la única opción razonable.

Qué incluye

  • >214 millones de estructuras predichas cubriendo prácticamente todo UniProt (a fecha de 2024).
  • Para cada predicción: archivo PDB/mmCIF, score pLDDT por residuo (confianza local), PAE (Predicted Aligned Error, confianza relacional), y metadatos UniProt.
  • Cobertura de >1 millón de especies vía el proteoma de referencia de cada una.
  • Indexación cruzada con UniProt (cada entrada AlphaFold corresponde a una entrada UniProt).
  • Visualizador 3D web (basado en Mol*).

Cuándo usarla

  • Cuando necesitas la estructura de una proteína sin estructura experimental en PDB.
  • Para análisis a escala proteómica donde el coste de obtener estructuras experimentales es prohibitivo.
  • Como punto de partida para docking, mutagénesis in silico, predicción de bolsillos, etc. (con criterio sobre confianza local).
  • Como complemento al PDB en pipelines estructurales, primero PDB si existe, AlphaFold DB en caso contrario.

Cuándo NO usarla

  • Para regiones intrínsecamente desordenadas (IDR) o muy flexibles, AlphaFold tiende a predecir conformaciones plausibles pero arbitrarias en regiones de bajo pLDDT.
  • Para complejos proteína-proteína: AlphaFold DB cataloga monómeros. Para complejos usa AlphaFold-Multimer localmente, AlphaFold3 (vía AlphaFold Server) o complejos experimentales del PDB.
  • Para confiar ciegamente en interpretación funcional sin examinar el pLDDT por residuo. Un pLDDT < 70 indica predicción de baja confianza.
  • Si necesitas estructura experimental para un paper o un drug-design pipeline formal, no sustituye al PDB.

Conceptos clave

  • pLDDT (predicted Local Distance Difference Test). Score por residuo de 0 a 100:
    • 90, alta confianza, geometría comparable a estructura experimental.

    • 70-90, moderada, backbone probablemente correcto.
    • 50-70, baja, interpretar con cautela.
    • < 50, muy baja, frecuentemente regiones desordenadas.
  • PAE (Predicted Aligned Error). Matriz de error esperado entre cada par de residuos, útil para evaluar la confianza en la orientación relativa entre dominios, no solo en la conformación local.
  • Identificación. Cada estructura se identifica por su UniProt accession (AF-P04637-F1-model_v4). El sufijo v4 indica la versión del modelo (subir de versión es habitual con cada release).
  • Cobertura proteómica se calcula sobre UniProt reference proteomes, isoforms alternativos y predicciones de fragmentos no están todos cubiertos.

Cómo se accede

  • Web UI. https://alphafold.ebi.ac.uk con visualizador integrado.

  • API REST.

    # Metadatos de la estructura predicha para TP53 humano
    curl "https://alphafold.ebi.ac.uk/api/prediction/P04637"
    
    # Descargar el PDB
    curl -O "https://alphafold.ebi.ac.uk/files/AF-P04637-F1-model_v4.pdb"
  • Bulk download. Por proteoma desde la sección Download del sitio o vía Google Cloud Storage (gs://public-datasets-deepmind-alphafold-v4).

  • AlphaFold Server: servicio para predicciones de complejos con AlphaFold3 (cuota limitada por cuenta).

Limitaciones / cobertura

  • Solo monómeros. Para complejos, requiere AlphaFold-Multimer local o AlphaFold Server.
  • Regiones de bajo pLDDT son frecuentemente sobreinterpretadas, examina siempre el score antes de derivar conclusiones biológicas.
  • No captura conformaciones alternativas. AlphaFold devuelve la conformación más probable según su modelo. Estados conformacionales múltiples (apo/holo, abierto/cerrado) requieren métodos específicos o estructura experimental.
  • Mutaciones puntuales: AlphaFold DB cataloga la proteína wild-type. Para evaluar el efecto estructural de una variante, considera AlphaMissense o predicciones ad-hoc.

Enlaces

Relacionadas en esta página

  • EMBL-EBI, alberga AlphaFold DB.
  • AlphaMissense, evaluación de patogenicidad de variantes basada en AlphaFold.

AlphaMissense

AlphaMissense es una base de datos de predicciones de patogenicidad para todas las variantes missense posibles del proteoma humano (~71 millones de variantes), publicada por DeepMind/Google en 2023. Combina la representación estructural derivada de AlphaFold con un modelo entrenado supervisadamente para predecir la probabilidad de que una variante missense sea benigna o patogénica.

Es relevante porque sustituye, en muchos casos prácticos, a herramientas previas de predicción de patogenicidad (SIFT, PolyPhen-2, CADD, REVEL…) con un rendimiento sustancialmente mejor en benchmarks publicados. No reemplaza la evidencia experimental ni la clínica formal, es un prior informativo.

Qué incluye

  • Score AlphaMissense (am_pathogenicity) entre 0 y 1 para cada combinación posible (gen × posición × aminoácido alternativo) en el proteoma humano canónico.
  • Clasificación discreta (likely_benign, ambiguous, likely_pathogenic) basada en umbrales calibrados.
  • Cobertura: ~89% de las posibles missense humanas clasificadas con confianza (benignas o patogénicas), ~11% como ambiguas.

Cuándo usarla

  • Como anotación adicional en VCFs de variantes raras germinales o somáticas.
  • Como prior en pipelines de interpretación clínica (ACMG criterion PP3 / BP4, evidencia computacional).
  • Para priorización de candidatos en estudios de gen-disease cuando no hay evidencia experimental disponible.

Cuándo NO usarla

  • Como evidencia única para clasificar una variante como patogénica o benigna en clínica formal. Los guidelines ACMG la admiten solo como evidencia supporting.
  • Para variantes no missense, no cubre indels, frameshifts, splice, sinónimas ni reguladoras.
  • Para transcritos no canónicos, opera sobre el transcrito MANE Select / canónico por gen.

Conceptos clave

  • El score es calibrado: el umbral por defecto (0.564) está fijado para que la clasificación binaria iguale la proporción de patogénicas/benignas conocidas en ClinVar.
  • La predicción se realiza sobre el fondo estructural de AlphaFold, lo que la hace coherente con la conformación 3D de la proteína wild-type.
  • No es un test de novo. AlphaMissense ha visto algunas variantes durante el entrenamiento (las depositadas en ClinVar y similares pre-2022). Para variantes nuevas el modelo extrapola, no recupera.

Cómo se accede

  • Datos completos. Distribuidos como TSV gzipped desde el repositorio de DeepMind en Zenodo / Google Storage.

    # Descarga del fichero de scores por transcrito (~5 GB)
    wget https://storage.googleapis.com/dm_alphamissense/AlphaMissense_hg38.tsv.gz
  • Web UI / lookup puntual. Servicio del Ensembl VEP plugin y disponible vía el portal AlphaFold DB (en la página de cada proteína).

  • VEP plugin oficial. vep --plugin AlphaMissense,file=AlphaMissense_hg38.tsv.gz integra los scores en la anotación de VCFs.

Limitaciones / cobertura

  • Solo missense humanas en el transcrito canónico.
  • Sesgos heredados del conjunto de entrenamiento, variantes en genes históricamente bien estudiados están sobre-representadas.
  • No distingue ganancia vs pérdida de función: produce un score único agregado de “patogenicidad”.
  • Licencia CC BY-NC-SA 4.0 (no comercial), relevante para uso en productos comerciales.

Enlaces

Relacionadas en esta página

  • AlphaFold DB, base estructural sobre la que opera AlphaMissense.
  • Ensembl, VEP integra AlphaMissense como plugin oficial.
  • RefSeq, la noción de transcrito canónico se concilia vía MANE Select.