Bases de datos de proteómica
Catálogo razonado de recursos de secuencia, estructura, función y evidencia MS
Sobre bases de datos de proteómica
El panorama de recursos proteómicos está estratificado por capa de evidencia, y entender esa estratificación es lo que separa un análisis serio de uno que arrastra ruido sistemático. Conviene tener cuatro capas mentalmente separadas:
- Secuencia y anotación funcional integrada. La referencia única es UniProt (Swiss-Prot curado + TrEMBL automático). Casi cualquier flujo proteómico empieza o termina aquí: identifiers, nomenclatura canónica, isoformas, cross-references a todo lo demás.
- Estructura tridimensional. Dos recursos complementarios: PDB (estructuras experimentales por X-ray, cryo-EM, NMR) y AlphaFold DB (predicciones de DeepMind/EMBL-EBI con confianza por residuo). No son intercambiables: el PDB es ground truth experimental, AlphaFold es cobertura masiva con incertidumbre cuantificada.
- Función, dominios y familias. InterPro integra una decena de bases miembro (Pfam, SMART, PROSITE, CDD, PANTHER, etc.) en firmas consensuadas. Pfam sigue siendo el catálogo de referencia de dominios basados en HMM y se accede tanto directamente como vía InterPro.
- Evidencia experimental por espectrometría de masas. PRIDE (EBI) es el repositorio primario del consorcio ProteomeXchange. PeptideAtlas y ProteomicsDB son atlas reanalizados que ofrecen vistas integradas por péptido, proteína y tejido. Recursos especializados (PhosphoSitePlus, neXtProt, Human Protein Atlas) cubren PTMs curadas, proteoma humano de referencia y expresión tisular.
Tres principios operativos que conviene interiorizar antes de tocar cualquiera de estos recursos:
- El UniProt accession (p. ej.
P04637) es la moneda de cambio. Es estable, único y resolvible por todos los demás recursos. Los entry names (P53_HUMAN) son legibles pero pueden cambiar. Los nombres de gen (TP53) son ambiguos entre especies. En cualquier export que vaya a integrarse downstream, fija el accession. - Los niveles de evidencia importan. UniProt anota cada feature con un evidence code (ECO). Swiss-Prot es revisado manualmente, TrEMBL no lo es. Mezclar ambos sin filtrar arrastra anotaciones automáticas de baja calidad. PeptideAtlas estratifica por canonical / uncertain / redundant. El HPP (Human Proteome Project) define niveles PE1-PE5 para la existencia de proteínas. Reportar el nivel de evidencia es parte del análisis, no opcional.
- DDA vs DIA cambia qué buscar. Los repositorios MS reciben datos Data-Dependent Acquisition (DDA, identificación clásica por MS/MS) y Data-Independent Acquisition (DIA, ventanas amplias reanalizables con librerías espectrales). PRIDE acepta ambos. Las consultas y reanálisis difieren sustancialmente. No asumas que todo dataset en PRIDE es DDA.
Esta página cataloga once recursos siguiendo una jerarquía conceptual: primero la referencia de secuencia (UniProt), después estructura (PDB, AlphaFold DB), función y dominios (InterPro, Pfam), repositorios de evidencia MS (PRIDE, PeptideAtlas, ProteomicsDB) y finalmente recursos especializados por dominio biológico (PhosphoSitePlus, neXtProt, Human Protein Atlas).
UniProt
UniProt (Universal Protein Resource) es la base de datos de referencia de secuencias proteicas y anotación funcional integrada, mantenida por el consorcio formado por EMBL-EBI, SIB (Swiss Institute of Bioinformatics) y PIR. Se organiza en dos secciones: Swiss-Prot (curado manual, ~570k entradas) y TrEMBL (anotación automática por pipelines a partir de traducciones de EMBL/GenBank, >250M entradas). En la práctica, casi cualquier flujo proteómico serio empieza filtrando a Swiss-Prot reviewed + proteoma de referencia de la especie de interés.
Es la pieza más transversal del ecosistema: prácticamente todos los demás recursos (PDB, InterPro, PRIDE, neXtProt, HPA) usan accessions de UniProt como identifier primario o cross-reference.
Qué incluye
- Secuencia canónica + isoformas (alternative splicing, productos proteolíticos).
- Anotación funcional: actividad enzimática (EC), ontologías GO (función, proceso, componente), keywords UniProt.
- Estructura secundaria/topología (cuando disponible): péptido señal, dominios transmembrana, regiones desordenadas.
- PTMs anotadas (glicosilación, fosforilación, acetilación, ubiquitinación) con evidencia.
- Variantes naturales (polimorfismos, mutaciones patogénicas con cross-ref a ClinVar/dbSNP).
- Cross-references masivas: PDB, AlphaFold, InterPro, Pfam, Reactome, STRING, IntAct, Ensembl, RefSeq, OMIM, etc.
- Evidence codes (ECO) por feature: distingue experimental, por similitud, predicción automática y curación.
Cuándo usarla
- Como fuente canónica de secuencia para búsquedas de identificación MS (FASTA Swiss-Prot + proteoma de referencia es el estándar de facto).
- Para resolver cualquier identifier proteico a un accession estable.
- Para mapear funciones, dominios y PTMs sobre un conjunto de proteínas identificadas.
- Para construir el FASTA target de búsquedas de espectros (combinado con TrEMBL solo si la cobertura de Swiss-Prot es insuficiente, p. ej. organismos no modelo).
Cuándo NO usarla
- Como única fuente de PTMs experimentales modernas: la cobertura de fosfo-sitios es buena pero PhosphoSitePlus está más actualizado para PTMs cuantificables.
- Para estructura 3D propiamente dicha: UniProt linka a PDB y AlphaFold, pero las coordenadas se descargan de allí.
- Para datos crudos de MS: UniProt es anotación curada. Los espectros viven en PRIDE / PeptideAtlas / ProteomicsDB.
Conceptos clave
- Accession vs entry name. El accession (
P04637) es estable, alfanumérico y resolvible permanentemente. El entry name (P53_HUMAN) es legible pero puede cambiar (especialmente en TrEMBL al promoverse a Swiss-Prot). Para cualquier export reproducible: fija el accession. - Canonical vs isoforma. El accession por defecto apunta a la isoforma canónica. Las isoformas se sufijan con guión (
P04637-2). Las búsquedas MS típicamente usan solo canónicas salvo que el diseño exija detectar splicing. - Reviewed (Swiss-Prot) vs unreviewed (TrEMBL). El filtro
reviewed:truees probablemente la opción más usada en la página. Mezclar reviewed y unreviewed en una búsqueda FASTA suele inflar la base de datos sin ganancia real en identificaciones. Aplicadecoy:falsey considera picked target-decoy para FDR. - Proteoma de referencia. UniProt designa un reference proteome por especie (un proteoma representativo por organismo). Para humano: UP000005640. Usa estos para análisis comparativos cross-species coherentes.
- Evidence codes (ECO). Cada feature anotada lleva un código que indica si proviene de experimento publicado, similitud de secuencia, predicción computacional o curación. Filtrar por evidencia experimental al hacer análisis funcional es buena práctica.
Cómo se accede
# UniProt.ws (Bioconductor) — interfaz R idiomática
library(UniProt.ws)
up <- UniProt.ws(taxId = 9606) # humano
sel <- select(up,
keys = c("P04637", "P38398"),
columns = c("UNIPROTKB", "GENES", "PROTEIN-NAMES", "ORGANISM"),
keytype = "UNIPROTKB")# UniProt REST API — programático multiplataforma
import requests
r = requests.get(
"https://rest.uniprot.org/uniprotkb/search",
params={"query": "gene:TP53 AND organism_id:9606 AND reviewed:true",
"format": "tsv",
"fields": "accession,id,gene_names,protein_name,length,sequence"}
)
print(r.text)- Descargas FTP: ficheros
uniprot_sprot.fasta.gz(Swiss-Prot) yuniprot_trembl.fasta.gz(TrEMBL) versionados por release. - SPARQL endpoint:
https://sparql.uniprot.org/para consultas semánticas complejas (cross-references, jerarquías GO, redes de interacción). - Bulk retrieval: ID mapping tool (
/idmapping) para conversiones masivas entre identifier types.
Limitaciones / cobertura
- TrEMBL contiene una fracción importante de anotaciones automáticas con errores propagados. Tratar como hipótesis, no como hecho.
- La asignación de gen-name no es siempre única (especialmente en organismos no modelo).
- La velocidad de curación es finita: descubrimientos muy recientes (últimos 6-12 meses) pueden no estar anotados aún en Swiss-Prot.
Enlaces
Relacionadas en esta página
PDByAlphaFold DB, estructura 3D linkada por accession.InterProyPfam, anotación de dominios y familias.neXtProt, extensión enriquecida específica del proteoma humano.
PDB (Protein Data Bank)
El PDB es el repositorio mundial de estructuras tridimensionales determinadas experimentalmente de proteínas, ácidos nucleicos y complejos. Operado por el consorcio wwPDB (worldwide PDB), con tres mirrors funcionalmente equivalentes pero con interfaces distintos: RCSB PDB (EE. UU.), PDBe (EMBL-EBI, Europa) y PDBj (Japón). Para análisis programáticos, RCSB y PDBe son los más usados.
Existe desde 1971. Es probablemente la base de datos estructural más madura de la biología. Las estructuras se identifican por un código de 4 caracteres (p. ej. 1TUP para p53). Hoy contiene >200k estructuras experimentales.
Qué incluye
- Coordenadas atómicas (formato
.pdb,.cif/ mmCIF, este último es el actual estándar). - Método experimental: cristalografía de rayos X, cryo-EM, RMN, neutrones, micro-ED.
- Métricas de calidad: resolución (Å), R-factor / R-free, completitud, validación geométrica.
- Datos primarios: ligandos, iones, aguas, símiles cofactores. Biological assemblies (estado oligomérico funcional).
- Cross-references: UniProt, GO, Pfam, CATH, SCOP, EC, Reactome.
- Mapas de densidad electrónica / cryo-EM cuando aplicable.
Cuándo usarla
- Como referencia experimental de estructura para análisis estructurales rigurosos.
- Para identificar sitios de unión, conformaciones, estados de oligomerización y complejos proteína-ligando o proteína-proteína.
- Para docking, diseño racional de fármacos y mutagénesis dirigida.
- Como input de homology modeling cuando AlphaFold no tiene suficiente confianza local.
Cuándo NO usarla
- Cuando necesitas cobertura masiva de proteoma: el PDB cubre una fracción minoritaria de las secuencias conocidas. Para esa cobertura, AlphaFold DB.
- Para conformaciones dinámicas/desordenadas: el PDB captura snapshots cristalográficos o promedios (cryo-EM). No sustituye a MD o NMR-derived ensembles.
- Para predicciones de novo: el PDB es experimental, no predictivo.
Conceptos clave
- Resolución (Å): por debajo de 2.0 Å es alta calidad. 2.0-3.0 Å es estándar. >3.5 Å limita la confianza en cadenas laterales. En cryo-EM la métrica es comparable pero con interpretación distinta.
- R-factor / R-free: medidas de ajuste modelo↔︎datos en X-ray. R-free es la métrica honesta (validación cruzada). Diferencia R - R-free > 0.07 suele indicar sobreajuste.
- Asymmetric unit vs biological assembly: la asymmetric unit es lo que se cristalizó. El biological assembly es el estado funcional (puede ser un multímero ensamblado por simetría cristalográfica). Usa
pdb-bundleo el biological assembly directamente. - mmCIF > PDB legacy format: el formato
.pdbclásico tiene límites de campos (p. ej. >99k átomos, >9999 residuos). Para estructuras grandes (ribosomas, cápsides víricas) usa mmCIF. - Validación: el wwPDB validation report acompaña a cada estructura desde 2014. Léelo antes de basar conclusiones críticas en una estructura concreta.
Cómo se accede
# Biopython — parsing canónico
from Bio.PDB import PDBList, MMCIFParser
pdbl = PDBList()
pdbl.retrieve_pdb_file("1TUP", pdir=".", file_format="mmCif")
parser = MMCIFParser(QUIET=True)
structure = parser.get_structure("p53", "1tup.cif")# bio3d en R
library(bio3d)
pdb <- read.pdb("1TUP")
summary(pdb)- REST API (RCSB):
https://data.rcsb.org/para metadatos.https://files.rcsb.org/para coordenadas. - GraphQL endpoint (RCSB): queries complejas sobre cross-references y metadatos.
- PDBe REST API:
https://www.ebi.ac.uk/pdbe/api/con anotaciones extra (SIFTS para mapeo PDB↔︎UniProt residue-level). - SIFTS (
/pdb/entry/molecules/...): mapeo curado entre numeración PDB y UniProt. crítico para integrar estructura con datos de secuencia.
Limitaciones / cobertura
- Sesgo a proteínas cristalizables/solubles: muchas proteínas de membrana, IDPs y complejos transitorios están subrepresentadas.
- Cobertura de proteoma humano: PDB cubre experimentalmente una fracción (<40% de proteínas con al menos un fragmento estructural).
- Heterogeneidad de calidad: no todas las estructuras son utilizables. Consulta el validation report.
Enlaces
Relacionadas en esta página
AlphaFold DB, complemento predictivo con cobertura masiva.UniProt, accession primario. SIFTS mapea numeración entre ambos.InterPro, dominios anotados sobre estructura.
AlphaFold DB
AlphaFold Protein Structure Database es el repositorio público de predicciones estructurales generadas por AlphaFold2 (DeepMind, posteriormente AlphaFold-Multimer y derivados), distribuido por EMBL-EBI. Lanzada en julio de 2021 con ~360k modelos. Ampliada en 2022 hasta cubrir >200 millones de proteínas (esencialmente UniProt entero, incluido TrEMBL).
Es complementaria al PDB, no sustitutiva. La distinción clave es que AlphaFold entrega una predicción con confianza estimada por residuo (pLDDT), no una estructura experimental. En zonas con pLDDT alto (>90) la predicción es comparable a una cristalografía mediana. En zonas bajas (<50) tratar como desordenado o no fiable.
Qué incluye
- Coordenadas atómicas (formato
.pdby.cif). - pLDDT por residuo (0-100): confianza local del modelo. Codificado en el campo B-factor.
- PAE (Predicted Aligned Error): matriz de error esperado entre pares de residuos. Esencial para evaluar arreglos relativos entre dominios.
- Identificador por accession de UniProt (
AF-<accession>-F1-model_v4.pdb), link directo a UniProt. - Versiones del modelo: v1 → v4 a la fecha actual. Documenta la versión en cualquier análisis reproducible.
Cuándo usarla
- Para cobertura de proteoma completo cuando el PDB no tiene la proteína de interés.
- Para análisis estructurales preliminares en organismos no modelo (la cobertura de TrEMBL incluye millones de especies).
- Para análisis de dominios y desorden intrínseco (pLDDT bajo correlaciona razonablemente con IDR).
- Como punto de partida para docking o diseño, siempre con interpretación crítica del pLDDT/PAE.
Cuándo NO usarla
- Para mecanismo catalítico o sitios activos finos sin verificación experimental: AlphaFold predice estructura, no química.
- Para complejos multi-proteína específicos sin AlphaFold-Multimer (la DB principal son monómeros. AlphaFold-Multimer / AlphaFold3 son sistemas distintos).
- Para conformaciones inducidas por ligando o estados alternativos: AlphaFold tiende a predecir una única conformación representativa.
- Para zonas con pLDDT <70: la predicción es poco fiable. Trata como hipótesis o descártalo.
Conceptos clave
- pLDDT (predicted Local Distance Difference Test): confianza por residuo. Bandas convencionales:
90: muy alta, comparable a estructura experimental.
- 70-90: alta, modelado fiable de la backbone.
- 50-70: baja, backbone probablemente correcta pero side-chains poco fiables.
- <50: muy baja, posiblemente desordenada o incorrecta.
- PAE (Predicted Aligned Error): matriz n×n con el error esperado en Å si alineas residuo i y miras la posición de j. Baja PAE entre dominios = arreglo relativo fiable. Alta PAE = dominios pueden moverse independientemente. No la ignores: una pLDDT alta dentro de cada dominio con PAE alta entre dominios significa que los dominios están bien predichos pero su orientación relativa no.
- Versión del modelo: AlphaFold DB se ha republicado con versiones sucesivas (v1, v2, v3, v4). Fija la versión en cualquier análisis publicable.
- No es PDB: no envíes coordenadas AlphaFold a una pipeline de validación cristalográfica esperando interpretaciones similares.
Cómo se accede
# Descarga directa por accession UniProt
curl -O "https://alphafold.ebi.ac.uk/files/AF-P04637-F1-model_v4.pdb"
curl -O "https://alphafold.ebi.ac.uk/files/AF-P04637-F1-predicted_aligned_error_v4.json"# API JSON
import requests
meta = requests.get("https://alphafold.ebi.ac.uk/api/prediction/P04637").json()
print(meta[0]["pdbUrl"], meta[0]["paeImageUrl"])- Bulk download: ficheros tar por proteoma en
https://ftp.ebi.ac.uk/pub/databases/alphafold/. - Integración nativa con Biopython, PyMOL, ChimeraX (cargan pLDDT como B-factor automáticamente).
- Cross-reference desde UniProt: la sección “Structure” linka al modelo AlphaFold.
Limitaciones / cobertura
- Monómero por defecto: la DB principal predice cadenas individuales. Complejos requieren AlphaFold-Multimer o AlphaFold3 (no en esta DB).
- No captura conformacional: una predicción ≠ ensemble.
- PTMs y ligandos no modelados en AlphaFold2 estándar.
- Sesgo de entrenamiento PDB: lo que está mal o subrepresentado en PDB (regiones de membrana, IDPs complejas, ensamblajes grandes) se hereda como limitación.
Enlaces
Relacionadas en esta página
InterPro
InterPro (EMBL-EBI) es el recurso integrador de firmas de proteínas: combina las predicciones de una docena de bases miembro (Pfam, SMART, PROSITE patterns/profiles, PRINTS, ProDom, CDD, PANTHER, PIRSF, SUPERFAMILY, CATH-Gene3D, HAMAP, SFLD, NCBIfam) en entradas consensuadas con anotación funcional, GO terms y referencias estructurales.
La utilidad clave: en lugar de consultar diez bases por separado y reconciliar resultados, InterPro entrega un análisis unificado con un solo scan (InterProScan).
Qué incluye
- Entradas InterPro que agrupan firmas equivalentes de las bases miembro en cuatro tipos: Family, Domain, Repeat, Site (active site, binding site, PTM).
- Anotación GO automática derivada de la entrada.
- Cross-references a estructura (PDB), reacción (Reactome), enzimología (EC).
- Para cada proteína UniProt, un match record con todas las firmas presentes.
- Modelos HMM y patrones descargables (para uso offline).
Cuándo usarla
- Para anotar dominios y familias de un conjunto de proteínas identificadas.
- Para comparar perfiles de dominios entre proteínas relacionadas.
- Como entrada para enriquecimiento funcional (GO terms derivados de InterPro son ampliamente usados).
- Cuando no quieres elegir entre Pfam, SMART, PROSITE, etc., y prefieres la unión consensuada.
Cuándo NO usarla
- Cuando necesitas profundidad evolutiva fina en una familia específica: ahí Pfam directamente, con su alineamiento HMM, suele ser preferible.
- Para análisis estructurales: InterPro anota, no entrega coordenadas.
Conceptos clave
- Entry types: Family (toda la proteína comparte ascendencia), Domain (módulo independiente), Repeat (motivo corto repetido), Site (residuos concretos: activo, unión, PTM).
- Hierarchy: InterPro mantiene una jerarquía padre-hijo entre entries (p. ej. familia → subfamilia). Útil para análisis a distintas resoluciones.
- Member databases: cada base tiene su fortaleza, Pfam para HMMs generalistas, SMART para dominios de señalización, PROSITE para motivos cortos, CATH/SUPERFAMILY para clasificación estructural. InterPro indica qué firma de qué base genera el match.
- InterProScan: herramienta local que corre todas las bases miembro en un FASTA. Su output es el formato canónico para anotación masiva de proteomas.
Cómo se accede
# InterProScan local (Linux, requiere Java 11+)
interproscan.sh -i proteins.fasta -f tsv,xml -dp -goterms -iprlookup# InterPro REST API
import requests
r = requests.get(
"https://www.ebi.ac.uk/interpro/api/entry/InterPro/protein/UniProt/P04637/",
headers={"Accept": "application/json"}
)
print(r.json())- Web search:
https://www.ebi.ac.uk/interpro/con búsqueda por accession, secuencia (BLAST + scan) o entry ID. - Bulk download FTP:
https://ftp.ebi.ac.uk/pub/databases/interpro/. - InterProScan vía Bioconductor: el paquete
interpro(cuando disponible) o llamada externa desde R consystem().
Limitaciones / cobertura
- Cobertura desigual entre familias: lo que está bien estudiado tiene firmas refinadas. Familias huérfanas o de organismos exóticos quedan sin clasificar.
- InterProScan es pesado: instalación local requiere espacio (~30 GB) y Java. Alternativa: usar la API EBI o ejecutar en clúster.
- Actualizaciones desfasadas: cuando una base miembro publica una versión, InterPro la integra en su siguiente release (cadencia trimestral aproximada).
Enlaces
Relacionadas en esta página
Pfam, base miembro central, accesible también de forma directa.UniProt, cada entrada UniProt incluye sus matches InterPro en cross-references.
Pfam
Pfam es la colección de referencia de familias de dominios proteicos basada en alineamientos múltiples y modelos HMM (Hidden Markov Models). Originalmente independiente (Wellcome Sanger Institute, después EMBL-EBI), desde la versión 36 (2023) Pfam se mantiene exclusivamente como base miembro de InterPro: el sitio web propio se ha retirado y los recursos viven en interpro.ebi.ac.uk con sufijo /pfam/.
Sigue siendo el catálogo HMM más usado en proteómica y genómica comparativa. Identifica cada familia con un accession PF##### (p. ej. PF00069 para Protein kinase domain).
Qué incluye
- Familias Pfam (~21k en versiones recientes), cada una definida por un seed alignment de secuencias representativas y un HMM derivado de él.
- Full alignment: todas las secuencias UniProt que matchean el HMM por encima del umbral.
- Anotación textual: descripción, referencias, función conocida.
- Cross-references: InterPro entry asociada, estructuras PDB con el dominio, clanes Pfam (agrupaciones de familias evolutivamente relacionadas).
- Clans Pfam (
CL####): familias agrupadas por evidencia estructural/secuencial de ancestro común.
Cuándo usarla
- Como catálogo principal de dominios en anotación de proteomas (vía InterProScan o
hmmscancontraPfam-A.hmm). - Para definir dominios “estándar” en publicaciones (Pfam IDs son ampliamente reconocidos y estables).
- Para análisis filogenéticos por dominio: los full alignments y HMMs son inputs canónicos.
- Para clasificar proteínas hipotéticas o sin función asignada (presencia de dominio Pfam suele ser la primera pista funcional).
Cuándo NO usarla
- Cuando necesitas motivos cortos (<20 aa): Pfam HMMs tienen longitud mínima. Usa PROSITE patterns o motifs específicos.
- Para dominios estructurales clasificados por topología (β-barrels, TIM-barrels, etc.): CATH o SCOP son los recursos apropiados.
Conceptos clave
- Gathering threshold (GA): cada familia Pfam tiene un umbral curado manualmente (bit-score) por encima del cual un match se considera significativo. Respeta el GA, los E-values de HMMER por sí solos pueden ser engañosos.
- Seed vs full alignment: el seed es manual y pequeño (≤100 secuencias típicamente), el full es automático y exhaustivo. Para análisis filogenéticos, el seed es más limpio.
- Pfam-A vs Pfam-B: solo Pfam-A está mantenida activamente (familias curadas). Pfam-B (clusters automáticos) se descontinuó.
- Clans: agrupaciones de familias evolutivamente relacionadas pero suficientemente divergentes como para tener HMMs distintos. Ejemplo: clan AAA+ ATPases.
Cómo se accede
# hmmscan contra Pfam-A.hmm local (HMMER)
hmmscan --cut_ga --domtblout out.tbl Pfam-A.hmm proteins.fasta# Vía InterPro REST (Pfam ya no tiene API propia)
import requests
r = requests.get(
"https://www.ebi.ac.uk/interpro/api/entry/pfam/PF00069/",
headers={"Accept": "application/json"}
)
print(r.json())- Acceso web:
https://www.ebi.ac.uk/interpro/entry/pfam/(redirige desde el antiguo pfam.xfam.org). - FTP:
https://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/,Pfam-A.hmm.gz,Pfam-A.seed,Pfam-A.full.uniprot. - HMMER:
hmmscan,hmmsearch,hmmalignson las herramientas canónicas para usar los HMMs Pfam.
Limitaciones / cobertura
- Familias de baja cobertura evolutiva: si una familia está pobremente representada en UniProt, su HMM puede no detectar homólogos divergentes.
- Solapamiento entre familias relacionadas: una proteína puede dar matches significativos a varias familias del mismo clan. Usar
--cut_gay resolver overlaps explícitamente. - No diseñado para motivos cortos ni para regiones desordenadas (que carecen de señal HMM clara).
Enlaces
Relacionadas en esta página
PRIDE (PRoteomics IDEntifications Database)
PRIDE (EMBL-EBI) es el repositorio público primario de datos de espectrometría de masas y el nodo central del consorcio ProteomeXchange (PX), que coordina la deposición de datos entre PRIDE, MassIVE (UCSD), jPOST (Japón), iProX (China) y Panorama Public (Skyline). Lanzado en 2004, contiene >35k datasets a la fecha actual.
PRIDE acepta cualquier tipo de experimento MS proteómico (DDA, DIA, top-down, MRM/PRM, crosslinking, immunopeptidómica) y todos los workflows downstream (identificación, cuantificación label-free, TMT, iTRAQ, SILAC). El requisito mínimo: raw files + result files + metadata SDRF-compliant.
Qué incluye
- Raw spectra (formatos vendor-specific:
.rawThermo,.wiffSciex,.dBruker, etc.) y/o mzML estándar abierto. - Result files: outputs de motores de búsqueda (MaxQuant, FragPipe, Proteome Discoverer, Mascot, SEQUEST) en formatos como
.mzid,.msf,evidence.txt,psm.tsv. - Metadata estructurada: SDRF-Proteomics (Sample-Data Relationship Format) que describe muestras, instrumentación, parámetros de búsqueda, modificaciones.
- Project descriptor PXD (
PXD######): identifier estable del dataset. - Cross-references a publicaciones, ontologías (PSI-MS, MS-CV).
Cuándo usarla
- Para depositar datos asociados a una publicación (requerimiento de casi todas las revistas serias de proteómica).
- Para descargar datasets públicos y reanalizarlos con pipelines actuales.
- Como fuente de espectros para construir librerías DIA o entrenar modelos de RT/intensidad predicha.
- Para metaestudios y re-mining de datos públicos.
Cuándo NO usarla
- Como fuente de proteoma cuantificado y normalizado: PRIDE almacena datos crudos y resultados parciales. Las vistas integradas a nivel de proteína o tejido son competencia de PeptideAtlas y ProteomicsDB.
- Para análisis listo-para-usar sin reprocesamiento: cada dataset usó su pipeline y sus criterios. Comparar entre datasets requiere re-search consistente.
Conceptos clave
- PXD identifier: cada dataset tiene un accession
PXD######(no confundir con UniProt accessions). Es la unidad mínima citable. - SDRF-Proteomics: estándar moderno (PSI/HUPO) para describir el diseño experimental de manera procesable. Aceptado y crecientemente requerido en deposits a PRIDE.
- DDA vs DIA: PRIDE acepta ambos. El reanálisis difiere significativamente (DDA requiere identificación PSM-by-PSM, DIA requiere librería espectral o motor library-free como DIA-NN).
- Re-search: pipelines como
quantms(NF-core),OpenMS, FragPipe permiten reprocesar datasets PRIDE de manera reproducible. - Submission types: complete (raw + results + SDRF), partial (subset), raw (sin resultados procesados). En descarga, comprueba qué nivel está disponible.
Cómo se accede
# pridepy (cliente Python oficial)
from pridepy import Project, Files
p = Project()
metadata = p.get_by_accession("PXD000001")
files = Files().get_all_paged_files_by_project_accession("PXD000001", page_size=100)# rpx (Bioconductor) — descarga y exploración de proyectos PX
library(rpx)
px <- PXDataset("PXD000001")
pxfiles(px)- REST API:
https://www.ebi.ac.uk/pride/ws/archive/v3/, endpoints para projects, files, peptides. - FTP:
ftp://ftp.pride.ebi.ac.uk/pride/data/archive/<year>/<month>/<PXD>/. - Web search:
https://www.ebi.ac.uk/pride/archive/con filtros por instrumento, organismo, modificación, técnica.
Limitaciones / cobertura
- Heterogeneidad de calidad de metadata: deposits antiguos (pre-SDRF) tienen anotación pobre. Reanálisis sistemáticos suelen requerir curado manual.
- Tamaño: descargar y reanalizar datasets grandes (cientos de raw files) requiere infraestructura no trivial.
- No es un atlas: PRIDE es un repositorio crudo. La integración cross-dataset queda al usuario o se delega a PeptideAtlas/ProteomicsDB.
Enlaces
Relacionadas en esta página
PeptideAtlas, atlas reanalizado sobre datos PRIDE/PX.ProteomicsDB, vista cuantitativa integrada.
PeptideAtlas
PeptideAtlas (Institute for Systems Biology, Seattle. Consorcio con SRM Atlas, MRMAtlas) es un atlas reanalizado de péptidos identificados por MS que integra datasets públicos (PRIDE, MassIVE, GPMDB) bajo un pipeline uniforme (Trans-Proteomic Pipeline, TPP) con criterios estrictos de FDR.
A diferencia de PRIDE, PeptideAtlas no almacena raw data: parte de raw data público y entrega listas de péptidos con métricas de confianza estandarizadas por construcción (build). Las builds se publican periódicamente por especie/tejido.
Qué incluye
- Peptide-spectrum matches (PSMs) reanalizados con TPP/PeptideProphet/iProphet.
- Listas de péptidos canónicos por proteína (definición rigurosa: identificados con alto FDR + unicidad de mapeo).
- Frecuencia observacional por péptido: cuántos experimentos lo han visto.
- Atlas tisulares para humano, ratón, levadura, etc. y atlas por modificación (fosfo, glico).
- Tracks integrables con UCSC Genome Browser y cross-references UniProt.
- SRM Atlas / MRM Atlas: transiciones validadas para experimentos targeted.
Cuándo usarla
- Para verificar evidencia experimental de una proteína/péptido: ¿se ha observado por MS en algún experimento serio? PeptideAtlas es la primera parada.
- Para diseñar experimentos targeted (SRM/PRM/PRM): elegir péptidos proteotípicos con transiciones validadas.
- Para filtrar proteomas hipotéticos: distinguir entre lo experimentalmente observado y lo solo predicho.
- Para el Human Proteome Project (HPP): PeptideAtlas es uno de los recursos canónicos de evidencia PE1.
Cuándo NO usarla
- Para datos cuantitativos: PeptideAtlas registra identificación y observación, no abundancia cuantificada cross-experimento. Para cuantitativo, ProteomicsDB o reanalizar PRIDE directamente.
- Para datasets recientes: el ciclo de incorporación a builds tiene latencia (meses a un año).
Conceptos clave
- Build: una versión consolidada del atlas para una especie/tejido con un cutoff FDR. Cada build es citable y reproducible. Ejemplo: Human All 2023-01.
- Canonical peptide: péptido que pasa criterios estrictos (FDR <1%, mapping único o gestionado por reglas) y se considera evidencia primaria.
- Uncertain / redundant: niveles de confianza inferiores, listados pero no canónicos.
- Proteotypic peptide: péptido que identifica unívocamente a una proteína (proteoforma), clave para targeted MS.
- PE level (Protein Existence): clasificación HPP 1-5. PeptideAtlas es input central para asignar PE1 (evidencia proteica) vs PE2 (transcrita) vs PE3 (inferida) etc.
Cómo se accede
# Descarga de un build (TSV/JSON)
curl -O "https://db.systemsbiology.net/sbeams/cgi/PeptideAtlas/GetPeptides?atlas_build_id=488&action=download"- Web interface:
https://peptideatlas.org/, búsqueda por UniProt accession, secuencia peptídica, gen. - REST endpoints (parciales): exportación de listas por proteína. Algunas funciones requieren parámetros vía CGI.
- Bulk downloads: TSVs por build descargables tras autenticación gratuita.
Limitaciones / cobertura
- Latencia: las builds son periódicas, no en tiempo real.
- Sesgo a humano y modelos clásicos: cobertura desigual fuera de humano, ratón, levadura.
- No es cuantitativo cross-experiment: ojo cuando se cita como “abundancia”, es frecuencia de detección, no cantidad.
Enlaces
Relacionadas en esta página
PRIDE, fuente primaria de raw data reanalizado.ProteomicsDB, atlas con vista cuantitativa complementaria.neXtProt, incorpora niveles PE basados en PeptideAtlas y otros.
ProteomicsDB
ProteomicsDB (TUM Munich, originalmente proyecto de Bernhard Küster. Ahora consorcio con SAP) es un atlas cuantitativo de proteomas humanos centrado en expresión proteica cuantificada cross-tejido y cross-línea celular, complementado con datos de fosfoproteoma, predicción de espectros y herramientas de visualización.
Difiere de PeptideAtlas en que ProteomicsDB se enfoca en cuantificación y comparación entre muestras, no solo en identificación. Cubre tejidos sanos, líneas celulares (NCI-60, CCLE), perturbaciones por fármacos y proteomas de organismos modelo.
Qué incluye
- Quantitative proteome maps por tejido humano (>30 tejidos), líneas celulares y fluidos.
- Phosphoproteome maps con identificación de sitios fosforilados.
- Predicted spectra (modelo Prosit): RT, intensidades MS/MS predichas para construcción de librerías DIA y validación.
- Drug-protein interaction data (Kinobeads, decryptM): perfiles de afinidad de inhibidores de kinasas.
- API y herramientas interactivas (heatmaps, comparadores tejido vs tejido).
Cuándo usarla
- Para consultar expresión proteica cuantitativa cross-tejido (e.g. ¿en qué tejido se expresa más mi proteína?).
- Para acceder a datos de drug-protein a escala proteoma (Kinobeads).
- Para predecir espectros y RTs con Prosit (integrado en la web y como API).
- Como referencia complementaria a HPA cuando necesitas datos MS-based (HPA es predominantemente IHC + RNA).
Cuándo NO usarla
- Para identificación cruda y FDR estricto: ahí PeptideAtlas/PRIDE.
- Para anotación funcional o estructural: usar UniProt/PDB/InterPro.
- Como repositorio de raw data: ProteomicsDB integra resultados procesados. Los raws siguen en PRIDE/PX.
Conceptos clave
- iBAQ / LFQ / TMT como métricas cuantitativas integradas: ProteomicsDB armoniza distintas escalas en una vista comparable, pero lee la documentación: la armonización tiene supuestos y la comparabilidad cross-tejido entre datasets distintos no es trivial.
- Prosit: modelo deep-learning de predicción de espectros (RT + intensidades MS/MS) entrenado en datos sintéticos + experimentales. Clave para DIA library-free workflows.
- decryptM: dataset propio de TUM con perfiles de respuesta a fármacos en >100 inhibidores.
- Tissue Atlas integrado con ProteomeTools (péptidos sintéticos de referencia).
Cómo se accede
# API REST
import requests
r = requests.get(
"https://www.proteomicsdb.org/proteomicsdb/logic/api/proteinexpression.xsodata/InputParams(PROTEINFILTER='P04637')/Results?$format=json"
)
print(r.json())- Web:
https://www.proteomicsdb.org/, interfaz interactiva con heatmaps por proteína, comparador tejido vs tejido, búsqueda por gene/UniProt. - API SAP/OData: endpoints
*.xsodatapara queries programáticas. - Prosit:
https://www.proteomicsdb.org/prosit/y servicio standalone para predicción de espectros/RT.
Limitaciones / cobertura
- Centrado en humano: cobertura fuera de humano es limitada.
- Heterogeneidad de fuentes: la armonización cuantitativa cross-dataset tiene supuestos. Para análisis estadísticos rigurosos, considera reanalizar PRIDE con un pipeline unificado.
- API y nomenclatura SAP/OData puede ser menos amigable que REST estándar.
Enlaces
Relacionadas en esta página
PRIDE, fuente de raw data.PeptideAtlas, atlas reanalizado complementario (identificación vs cuantificación).Human Protein Atlas, expresión tisular con énfasis IHC/RNA.
PhosphoSitePlus
PhosphoSitePlus (Cell Signaling Technology) es la base de datos de referencia de modificaciones postraduccionales (PTMs) curadas manualmente, con énfasis particular en fosforilación pero cobertura amplia de acetilación, metilación, ubiquitinación, sumoilación, O-GlcNAcilación y otras. Combina datos extraídos de literatura con datasets MS de gran escala (Olsen et al., Kim et al., Mertins et al., etc.).
Es el recurso de elección cuando la pregunta es: ¿qué se sabe sobre un sitio PTM concreto en una proteína concreta?
Qué incluye
- Sitios PTM por proteína con coordenada de residuo y tipo de modificación.
- Evidencia: número de referencias, número de datasets de alta resolución (HTP-LTP scoring), evidencia funcional cuando existe.
- Anotación de función biológica del sitio (cuando reportada): efecto en actividad, localización, interacciones.
- Kinasa(s) implicada(s) cuando conocida(s). Base de datos de kinase-substrate relationships.
- Reguladores upstream y downstream.
- Cross-references a UniProt.
Cuándo usarla
- Para anotar listas de fosfo-sitios identificados en un experimento de fosfoproteómica.
- Para mapear sitios a kinasas conocidas (input para análisis tipo KSEA / PTM-SEA).
- Para verificar el contexto funcional de un sitio antes de invertir esfuerzo experimental.
- Para construir signatures de PTMs (sustratos de una kinasa específica).
Cuándo NO usarla
- Como única fuente de identificación de PTMs en datos crudos: PhosphoSitePlus anota lo conocido. Tu experimento puede contener sitios nuevos.
- Para análisis cuantitativos: PhosphoSitePlus es descriptivo, no entrega cuantificaciones cross-condition.
Conceptos clave
- HTP vs LTP: High-Throughput (datasets MS de gran escala) vs Low-Throughput (experimentos hipótesis-dirigidos). PhosphoSitePlus reporta ambos counts por sitio, un sitio con LTP alto suele tener función conocida. Un sitio HTP-only puede ser noise o función no caracterizada.
- Site notation: convención
<residuo><posición>(p. ej.S15para Ser15 de p53). PhosphoSitePlus usa numeración UniProt canónica. Ojo con isoformas. - Kinase-substrate relationships: PhosphoSitePlus mantiene una tabla curada de relaciones kinasa→sustrato, ampliamente usada como ground truth en herramientas como KSEA, PTM-SEA, KSTAR.
- Functional score: scoring propio que combina evidencia funcional y experimental para priorizar sitios.
Cómo se accede
# Descarga (requiere registro gratuito y términos académicos)
# Files: Phosphorylation_site_dataset.gz, Kinase_Substrate_Dataset.gz, etc.
# Vía web download authentication.
import pandas as pd
psp = pd.read_csv("Phosphorylation_site_dataset.gz", sep="\t", skiprows=3)
psp_human = psp[psp["ORGANISM"] == "human"]- Web:
https://www.phosphosite.org/, búsqueda por gen, accession, secuencia. - Bulk download: ficheros tab-separated descargables tras login (uso académico libre, comercial requiere licencia).
- No API REST pública estable a la fecha actual. El workflow estándar es descargar dumps periódicos.
Limitaciones / cobertura
- Acceso por registro y licencia: uso académico es gratuito. Comercial requiere acuerdo con CST.
- Sesgo a mamífero: cobertura excelente en humano y ratón. Limitada fuera.
- Asincronía con literatura: la curación tiene latencia. Descubrimientos recientes pueden no estar.
Enlaces
Relacionadas en esta página
UniProt, PTMs curadas pero menos exhaustivas que PhosphoSitePlus.neXtProt, PTMs en contexto del proteoma humano completo.
neXtProt
neXtProt (SIB Swiss Institute of Bioinformatics, Geneva) es el recurso de referencia específico del proteoma humano, construido sobre UniProt/Swiss-Prot pero enriquecido con información adicional: PTMs, variantes, evidencia MS (PeptideAtlas), expresión tisular (HPA), interacciones, fenotipos clínicos. Es el portal canónico del Human Proteome Project (HPP) de HUPO.
Diseñado para responder preguntas integradas sobre proteínas humanas en un único portal con cross-references unificadas y un sistema de queries semánticas (SPARQL) muy desarrollado.
Qué incluye
- Todas las proteínas humanas reviewed de UniProt + capas adicionales.
- PE level (Protein Existence) según el esquema HPP: PE1 (evidencia proteica directa), PE2 (transcrita pero no detectada), PE3 (inferida por homología), PE4 (predicha), PE5 (incierta). Actualizado anualmente.
- Integración de PTMs (UniProt + PhosphoSitePlus + otros).
- Expresión tisular (mayor parte importada de HPA).
- Variantes (gnomAD, ClinVar, COSMIC) anotadas sobre la proteína.
- Interacciones, redes, fenotipos.
- SPARQL endpoint potente con queries pre-formuladas y editor visual.
Cuándo usarla
- Para análisis enfocados en proteoma humano donde necesitas la integración de capas (secuencia + estructura + PTM + expresión + variantes) sin saltar entre cinco portales.
- Para identificar “missing proteins” (PE2-5): proteínas sin evidencia experimental directa, dianas naturales de proyectos targeted del HPP.
- Para consultas complejas vía SPARQL: combinar criterios entre dominios (e.g. “proteínas con dominio Pfam X, expresadas en hígado, con variantes patogénicas en ClinVar”).
Cuándo NO usarla
- Para organismos no humanos: neXtProt es exclusivamente humano.
- Como repositorio de datos crudos: integra metadata enriquecida, no raw spectra.
Conceptos clave
- PE levels: el criterio central del HPP. Pasar de PE2 a PE1 requiere identificación MS rigurosa (criterios SP-2 del HPP: ≥2 péptidos proteotípicos no anidados, ≥9 aa).
- Missing proteins: PE2+PE3+PE4 son el objetivo del HPP, a la fecha actual quedan ~1k proteínas humanas sin evidencia directa.
- Cross-references integradas: cada proteína expone su accession UniProt, gen Ensembl, péptidos PeptideAtlas, expresión HPA, etc., navegables.
- Variantes con efecto funcional: neXtProt anota efecto predicho (missense, splicing, etc.) y cross-references a bases clínicas.
Cómo se accede
# SPARQL endpoint
from SPARQLWrapper import SPARQLWrapper, JSON
sparql = SPARQLWrapper("https://sparql.nextprot.org/")
sparql.setQuery("""
PREFIX entry: <http://nextprot.org/rdf/entry/>
PREFIX np: <http://nextprot.org/rdf#>
SELECT ?entry ?pe WHERE {
?entry np:proteinExistence ?pe .
} LIMIT 10
""")
sparql.setReturnFormat(JSON)
print(sparql.queryAndConvert())- Web:
https://www.nextprot.org/, búsqueda y navegación por proteína, gen, dominio. - REST API: endpoints JSON por accession para datos estructurados.
- SPARQL endpoint:
https://sparql.nextprot.org/con editor y queries de ejemplo. Es probablemente el SPARQL más usable para proteómica humana. - Bulk download FTP.
Limitaciones / cobertura
- Humano exclusivamente: no extrapolable.
- Ritmo de actualización dependiente del de UniProt + HPP (anual para PE re-evaluación).
- SPARQL tiene curva de aprendizaje. Para queries simples, REST es preferible.
Enlaces
Relacionadas en esta página
UniProt, base sobre la que se construye neXtProt.PeptideAtlas, fuente principal de evidencia MS para PE levels.Human Protein Atlas, fuente principal de expresión tisular integrada.
Human Protein Atlas
Human Protein Atlas (HPA) (KTH Stockholm, Mathias Uhlén) es un mapa integrado de expresión de proteínas humanas a nivel tisular, celular y subcelular, basado mayoritariamente en inmunohistoquímica (IHC) con anticuerpos validados internamente, complementado con RNA-seq (GTEx, FANTOM, internal), inmunofluorescencia (subcelular) y proteómica MS.
Es probablemente el atlas tisular más exhaustivo a nivel proteína disponible públicamente. Organizado en sub-atlases temáticos: Tissue, Brain, Single Cell, Pathology, Blood, Cell Line, Subcellular, Immune Cell, Disease, Structure.
Qué incluye
- Tissue Atlas: expresión IHC en >40 tejidos sanos humanos, con imágenes de alta resolución consultables online.
- Pathology Atlas: expresión en tipos tumorales (TCGA) y correlación con supervivencia.
- Subcellular Atlas: localización subcelular por inmunofluorescencia en líneas celulares.
- Single Cell Atlas: integra datos scRNA-seq de múltiples estudios.
- Brain Atlas: focus específico en regiones del SNC.
- Blood Atlas: tipos celulares hematológicos.
- Antibody data: cada proteína se ha intentado validar con anticuerpos propios. Reporta validación por enhanced / supported / approved / uncertain.
Cuándo usarla
- Para responder ¿dónde se expresa esta proteína? (tejido, tipo celular, compartimento subcelular).
- Para análisis traslacional / oncológico: HPA integra TCGA con expresión proteica.
- Como referencia visual: las imágenes IHC son consultables directamente y muy citadas en publicaciones.
- Para diseño de experimentos targeted (escoger tejido relevante según expresión).
Cuándo NO usarla
- Como única fuente cuantitativa MS-based: HPA es primordialmente IHC + RNA. Para datos MS cuantitativos, complementar con ProteomicsDB o PeptideAtlas.
- Para organismos no humanos.
- Cuando necesitas validación independiente de un anticuerpo: HPA reporta su validación interna, pero replicabilidad cross-lab puede variar (problema general de los anticuerpos en biología).
Conceptos clave
- Antibody reliability score: Enhanced > Supported > Approved > Uncertain. Filtra a Enhanced/Supported para conclusiones publicables.
- nTPM (normalized Transcripts Per Million): métrica de expresión RNA armonizada cross-dataset.
- PRT level (Protein expression level): clasificación cualitativa por IHC (high / medium / low / not detected).
- Score de pronóstico tumoral: HPA reporta correlación con supervivencia en TCGA, útil como filtro hipótesis-generador, no como evidencia causal.
Cómo se accede
# Descarga TSV completa de un sub-atlas
curl -O "https://www.proteinatlas.org/download/proteinatlas.tsv.zip"# Búsqueda programática vía URL search
import requests
r = requests.get("https://www.proteinatlas.org/api/search_download.php",
params={"search": "ENSG00000141510", "format": "json"})
# (la API es limitada; el workflow estándar es descargar el dump y filtrar)- Web:
https://www.proteinatlas.org/, búsqueda por gen, proteína, anticuerpo. Navegación por sub-atlas. - Bulk downloads: TSV/XML por sub-atlas, incluido
proteinatlas.tsv.zipcon el resumen integrado por gen. - Imágenes IHC: descargables individualmente. Uso comercial requiere licencia.
Limitaciones / cobertura
- Sesgo IHC: la calidad varía según el anticuerpo. Aunque HPA aplica validación interna, no todos los anticuerpos son uniformemente buenos.
- Cuantificación grosera: las categorías (high/medium/low) son ordinales, no escalas continuas comparables entre proteínas.
- API limitada: workflow estándar es bulk download + filtrado, no queries finas online.
Enlaces
Relacionadas en esta página
UniProt, accession cross-referenciado.ProteomicsDB, vista tisular complementaria con énfasis MS.neXtProt, integra expresión HPA en su vista de proteoma humano.