Bases de datos de interacciones y redes moleculares

Pathways, interactomas proteicos y recursos integrativos para biología de sistemas

databases

interactomics

networks

pathways

ppi

signaling

systems-biology

Referencia comentada de las bases de datos canónicas de interacciones moleculares y redes biológicas: jerarquías de pathways (Reactome, KEGG, WikiPathways), interactomas proteína-proteína (STRING, BioGRID, IntAct, IID) y recursos integrativos o especializados (OmniPath, PathwayCommons, SIGNOR).

Sobre interacciones y redes moleculares

Las bases de datos de esta página cubren tres familias conceptualmente distintas que con frecuencia se mezclan en la práctica:

Pathways curados (jerárquicos). Reactome, KEGG Pathway y WikiPathways describen rutas biológicas como grafos dirigidos de reacciones, eventos y complejos, con jerarquía y semántica explícita. Son el sustrato natural del análisis de enriquecimiento (ORA, GSEA, SPIA) y de las visualizaciones tipo “mapa de ruta”.
Interactomas proteína-proteína (PPI). STRING, BioGRID, IntAct e IID son grafos no dirigidos (o con dirección parcial) de interacciones físicas y/o funcionales entre proteínas. La granularidad está en el par binario y la cobertura prima sobre la curaduría semántica.
Recursos integrativos y especializados. OmniPath agrega decenas de fuentes preservando su procedencia. PathwayCommons unifica pathways en BioPAX. SIGNOR se especializa en señalización dirigida y causal (activación/inhibición).

Tres principios que conviene tener interiorizados antes de usar cualquiera de estas bases:

Identificadores. Las redes se almacenan típicamente en UniProt accessions (PPI) o gene IDs nativos de cada recurso (Reactome usa UniProt. KEGG, sus propios identificadores hsa:nnnn. WikiPathways admite Ensembl/HGNC). Casi siempre la primera operación útil es mapear a un identificador estable (Ensembl, NCBI Gene, UniProt) con org.Hs.eg.db / AnnotationDbi o mygene.
Confianza y procedencia. STRING asigna scores compuestos en [0, 1] mezclando evidencia experimental, coexpresión, vecindad genómica y textmining. BioGRID / IntAct exigen evidencia experimental publicada con método curado (PSI-MI). No son intercambiables: una red de STRING con corte 0.4 incluye masivamente predicciones. Una de IntAct con intact-miscore ≥ 0.6 es sustancialmente más conservadora.
Redundancia entre fuentes. El mismo par PPI puede aparecer en STRING, BioGRID, IntAct y OmniPath. Al cruzar fuentes, conviene deduplicar por par + método, no por par sin más, para no inflar artificialmente la confianza.

El orden de la página refleja la jerarquía conceptual: primero pathways curados (Reactome → KEGG → WikiPathways), después interactomas PPI (STRING → BioGRID → IntAct → IID), luego recursos integrativos (OmniPath → PathwayCommons) y finalmente la especialización en señalización dirigida (SIGNOR).

Reactome

Reactome es la base de datos abierta y de referencia para pathways humanos curados manualmente, mantenida por un consorcio liderado por OICR (Toronto), EMBL-EBI y NYU. Modela la biología como un grafo dirigido de reacciones (transformaciones bioquímicas, transporte, binding, regulación) agrupadas en pathways y organizadas en una jerarquía (de “Signal Transduction” a eventos atómicos). Cada reacción está respaldada por publicaciones revisadas por curadores expertos.

El esquema interno es BioPAX-compatible y la API REST expone tanto el grafo completo como servicios de análisis de enriquecimiento. En R, el paquete ReactomePA (Bioconductor) implementa ORA y GSEA sobre el catálogo de Reactome.

Qué incluye

Pathways jerárquicos (≈ 2.700 humanos, con proyecciones ortológicas a ~15 organismos modelo).
Reacciones individuales con participantes (proteínas, complejos, moléculas pequeñas, conjuntos EntitySet).
Anotaciones de localización subcelular y compartimento.
Relaciones inferidas por ortología (InferredFrom) hacia ratón, rata, D. melanogaster, C. elegans, S. cerevisiae, entre otros.

Cuándo usarla

Análisis de enriquecimiento de pathways sobre listas de genes / proteínas humanas con necesidad de curaduría rigurosa.
Cuando importa la estructura jerárquica (analizar al nivel “Signal Transduction” vs “MAPK signaling” vs “RAF activation”).
Para visualización detallada de un pathway concreto con sus reacciones y participantes (visor Reactome Pathway Browser).

Cuándo NO usarla

Si necesitas cobertura amplia de pathways metabólicos en bacterias y arqueas: usa KEGG o MetaCyc.
Si necesitas pathways editables por la comunidad o muy específicos de una enfermedad/contexto: usa WikiPathways.
Si necesitas señalización causal con signo (activador/inhibidor) por interacción: usa SIGNOR o OmniPath (módulo de señalización).

Conceptos clave

Jerarquía vs flat set. Una buena práctica en enriquecimiento es analizar a varios niveles de la jerarquía y reportarlos por separado. Pathways más generales casi siempre serán significativos por construcción.
EntitySet y complejos. Un participante de una reacción puede ser un conjunto (p. ej. “RAS family”) o un complejo. Aplanar a genes individuales antes de un test estadístico requiere una decisión explícita (expansión vs centroide).
IDs estables. Cada pathway tiene un stable identifier (R-HSA-nnnn) que persiste entre versiones. Los IDs internos numéricos pueden cambiar.
Versionado. Reactome publica versiones trimestrales. En reproducibilidad, fija la versión (?releaseNumber=... en la API o el snapshot descargado).

Cómo se accede

Web: https://reactome.org, Pathway Browser interactivo y herramienta de análisis.
API REST / GraphQL: https://reactome.org/ContentService/ y https://reactome.org/AnalysisService/.
Descargas: BioPAX Level 3, SBML, PSI-MITAB para reacciones, ficheros tabulares (ReactomePathways.txt, Ensembl2Reactome_All_Levels.txt).
R / Bioconductor: ReactomePA (ORA / GSEA), reactome.db (mapeo gen↔︎pathway), PaxtoolsR (acceso a BioPAX vía PathwayCommons).
Python: reactome2py, o consumo directo del servicio REST.

Limitaciones / cobertura

Sesgo de cobertura humana: la organización canónica es Homo sapiens. Las proyecciones por ortología son útiles pero no equivalen a curaduría nativa.
Sub-representación de procesos no canónicos (variantes raras de splicing, isoformas con función divergente).
Trampa estadística clásica. El test de enriquecimiento depende fuertemente del background elegido. Usar “todos los genes humanos” en lugar del background del experimento (p. ej. genes detectables en el RNA-seq) infla la significancia sistemáticamente.

Enlaces

Relacionadas en esta página

KEGG Pathway, alternativa con énfasis metabólico y cobertura no humana fuerte.
WikiPathways, alternativa comunitaria, complementaria a Reactome.
PathwayCommons, integrador BioPAX que incluye Reactome.

KEGG Pathway

KEGG Pathway es el módulo de pathways de la Kyoto Encyclopedia of Genes and Genomes, mantenida por el Kanehisa Laboratories (Universidad de Kioto). Es la referencia histórica para rutas metabólicas y para análisis con cobertura amplia de organismos (>8.000 genomas anotados). Cada mapa KEGG es un diagrama esquemático pintado a mano que combina enzimas, metabolitos y reacciones, identificados con los códigos propios de KEGG (hsa:7157, K00001, C00031, map00010).

KEGG dejó de ser libre para descargas masivas en 2011: el FTP es de pago. El acceso programático vía la API REST sigue siendo gratuito para uso académico, pero hay límites de tasa y la licencia restringe la redistribución.

Qué incluye

Pathway maps (mapNNNNN): genéricos, sin organismo. Y específicos por organismo (hsa00010 para humano).
KEGG Orthology (KO): grupos ortológicos funcionales que conectan genes entre organismos.
KEGG Modules: bloques funcionales (subrutas) más granulares que los mapas completos.
KEGG Compound / Reaction / Enzyme: ontología metabólica conectada a los mapas.
Cobertura especialmente fuerte en metabolismo, biosíntesis y degradación.

Cuándo usarla

Análisis metabólico (mapas 00xxx).
Comparación entre organismos via KO (genómica comparada, metagenómica funcional).
Cuando el organismo de interés está fuera del core curado de Reactome pero presente en KEGG (microorganismos, plantas).

Cuándo NO usarla

Para señalización humana detallada y actualizada al estado del arte: Reactome y SIGNOR suelen estar mejor curados y más al día.
Si necesitas redistribuir los datos como parte de una herramienta o pipeline público: la licencia limita seriamente lo que puedes hacer. Considera MetaCyc/BioCyc (para metabolismo, también con licencia comercial pero distinta) o Reactome (CC0).
Si necesitas la estructura de la reacción a nivel de complejos y compartimentos al nivel de Reactome: KEGG es más esquemático.

Conceptos clave

KO (KEGG Orthology) es la unidad que viaja entre organismos. Mapear vía KO permite proyectar perfiles funcionales metagenómicos (HUMAnN3, PICRUSt2 producen tablas de KO).
Mapa genérico (mapNNNNN) vs específico (hsaNNNNN). En análisis humano, usa siempre el específico del organismo. El genérico mezcla evidencia de muchos organismos.
KEGGREST (Bioconductor) es la interfaz R canónica al servicio REST. clusterProfiler::enrichKEGG() consume KEGG directamente para ORA/GSEA.
Versionado. KEGG no expone versiones discretas accesibles. Reproducibilidad estricta exige cachear los IDs y miembros del pathway en el momento del análisis.

Cómo se accede

Web: https://www.kegg.jp/kegg/pathway.html.
API REST: https://rest.kegg.jp, operaciones list, link, find, get, conv. Sin clave de API, con límite de tasa.
R / Bioconductor: KEGGREST (acceso REST), clusterProfiler::enrichKEGG (ORA/GSEA), pathview (renderizado de mapas con datos superpuestos).
Python: bioservices, biopython (módulo Bio.KEGG).
Descargas FTP: sólo bajo licencia comercial.

Limitaciones / cobertura

Restricciones de licencia para descargas masivas: limitan despliegues productivos y comparten datos con terceros.
Mapas estáticos. Las visualizaciones canónicas son imágenes PNG con coordenadas. Superponer datos requiere pathview o equivalentes que reescriben el PNG en local.
Actualización desigual. Para señalización humana, los mapas de KEGG a menudo van por detrás de la literatura más reciente. Reactome y SIGNOR son habitualmente más actuales.
Sesgo metabólico clásico. El enriquecimiento ORA sobre KEGG infla rutas metabólicas porque están sobre-representadas en el catálogo.

Enlaces

Relacionadas en esta página

Reactome, alternativa canónica para señalización humana con licencia abierta.
WikiPathways, alternativa comunitaria sin restricciones de licencia.
PathwayCommons, integrador que en versiones recientes ha retirado contenidos KEGG por la licencia.

WikiPathways

WikiPathways es un repositorio comunitario de pathways biológicos editable por la comunidad científica, fundado por Alex Pico (Gladstone Institutes) y Chris Evelo (Maastricht). El modelo de gobernanza es el opuesto a Reactome / KEGG: cualquier usuario registrado puede crear o editar un pathway, con un esquema de revisión por pares ligero y atribución de autoría visible.

Cada pathway está representado en GPML (formato propio basado en XML) y exportable a BioPAX, SBML, SBGN, PNG y SVG. La integración con PathVisio (editor de escritorio) permite curaduría rica con metadatos por nodo.

Qué incluye

≈ 3.000 pathways en >25 organismos, con peso particular en humano, ratón y rata.
Pathways de enfermedad, drug response, COVID-19, rare diseases y nichos no cubiertos por las bases canónicas.
Metadatos por pathway: autores, ontologías de enfermedad (DO), MeSH, citas asociadas.
Reactomes paralelos o complementarios para escenarios donde Reactome no ha llegado o no tiene la granularidad adecuada.

Cuándo usarla

Cuando necesitas pathways de dominios específicos poco cubiertos por Reactome/KEGG: rare diseases, contextos clínicos concretos, organismos no modelo curados por especialistas.
Cuando la licencia abierta (CC0) es un requisito para redistribución o despliegue productivo.
Cuando quieres editar o aportar un pathway tú mismo: el modelo soporta colaboración directa.

Cuándo NO usarla

Si la prioridad es máxima curaduría centralizada y consistencia entre versiones: Reactome.
Si el problema es metabolismo en organismos no modelo: KEGG o MetaCyc.
Si necesitas direccionalidad y signo para señalización causal: SIGNOR u OmniPath.

Conceptos clave

GPML. Formato nativo. Conviene aceptar que el modelo de datos no es tan estricto como BioPAX. La heterogeneidad por pathway es la contrapartida de la apertura.
Revisión por pares ligera. Hay pathways de muy alta calidad y pathways en estado borrador. Inspeccionar autoría y fecha de última edición antes de citar es buena práctica.
Identifiers (WP1234) son estables. Las versiones del pathway (WP1234_r12345) cambian con cada edición.
Integración con clusterProfiler. El paquete clusterProfiler soporta enrichWP / gseWP con la versión actual de WikiPathways descargada en data/.

Cómo se accede

Web: https://www.wikipathways.org.
API REST: https://www.wikipathways.org/index.php/Help:WikiPathways_Webservice.
R / Bioconductor: rWikiPathways (acceso, descarga y enriquecimiento), clusterProfiler (vía funciones *WP).
Descargas: GMT (gene sets por organismo), GPML, BioPAX, snapshots completos en https://wikipathways.org/data.
Cytoscape: plugin nativo para importar pathways como redes.

Limitaciones / cobertura

Cobertura desigual. Densidad alta en humano/ratón, baja en otros organismos. Calidad variable entre pathways según el curador.
Sin jerarquía formal. A diferencia de Reactome, los pathways son entidades planas. Combinarlos a nivel de “Signal Transduction” requiere ontología externa.
Estadística. Igual que en Reactome/KEGG, los tests de enriquecimiento son sensibles al background y al solapamiento entre pathways comunitarios (no están todos auditados para minimizar redundancia).

Enlaces

Relacionadas en esta página

Reactome, alternativa con curaduría central.
KEGG Pathway, alternativa con cobertura metabólica fuerte.
PathwayCommons, integrador que importa WikiPathways.

STRING

STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) es la base de datos de referencia para redes de asociación funcional entre proteínas, mantenida por SIB, EMBL y NNF Center for Protein Research (CPR). A diferencia de las bases puramente experimentales (BioGRID/IntAct), STRING integra evidencia heterogénea (experimentos, coexpresión, vecindad genómica, fusión génica, co-occurrence filogenético, textmining, y bases curadas) y la combina en un score unificado en [0, 1].

Es la opción por defecto para construir una red de proteínas a partir de una lista de genes en >12.000 organismos.

Qué incluye

>12.000 organismos, incluyendo eucariotas, bacterias y arqueas.
Interacciones con scores por canal de evidencia y un combined score derivado.
Anotación funcional integrada (GO, KEGG, Reactome, Pfam, dominios InterPro) para enriquecimiento sobre los nodos.
Action types (activación, inhibición, binding, catálisis) cuando la evidencia lo permite.
Soporte de clustering (MCL, kmeans) directamente desde el visor.

Cuándo usarla

Construir una red de partida a partir de una lista de genes (“dame los vecinos de estos 50 genes”) cuando la cobertura prima sobre la pureza.
Análisis exploratorio rápido con visor web y exportación a Cytoscape.
Cuando el organismo está fuera del rango de bases puramente experimentales (microorganismos no modelo).

Cuándo NO usarla

Si necesitas sólo interacciones experimentales publicadas y curadas: IntAct o BioGRID.
Si necesitas direccionalidad causal con signo validada (activador / inhibidor): SIGNOR u OmniPath (módulo de señalización).
Si necesitas un interactoma humano denso que incluya predicciones contextuales (tejido / compartimento): IID complementa bien.

Conceptos clave

Combined score vs canal individual. El combined_score se calcula con una fórmula que asume independencia entre canales (no siempre cierto, especialmente entre textmining y databases). Para análisis crítico, conviene filtrar por canal específico (p. ej. experiments ≥ 0.4 y database ≥ 0.4) en lugar de fiarse sólo del combinado.
Cortes habituales. 0.150 (low), 0.400 (medium, default del visor), 0.700 (high), 0.900 (highest). Por debajo de 0.4 la red está dominada por textmining y ruido. Por encima de 0.7 es razonablemente conservadora.
Inflación por textmining. El canal de minería de texto reproduce sesgos de publicación: proteínas muy estudiadas tienen vecinos sobre-representados. Excluir textmining es una decisión legítima en análisis sensibles.
Versionado. STRING publica versiones discretas (v11.5, v12.0…). En reproducibilidad, fija explícitamente la versión usada.

Cómo se accede

Web: https://string-db.org.
API REST: https://string-db.org/help/api/.
R / Bioconductor: STRINGdb (cliente canónico, mapeo de IDs, construcción de red, enriquecimiento).
Descargas: TSV gzip por organismo en https://string-db.org/cgi/download (interacciones, anotaciones, secuencias, aliases).
Cytoscape: stringApp (importa red, mapea atributos, hace enriquecimiento sobre Cytoscape).

Limitaciones / cobertura

No es un interactoma físico estricto. El canal experiments viene en buena medida de IntAct/BioGRID, así que coincide en parte. El resto es asociación funcional, no necesariamente contacto físico.
Tejido / contexto. STRING no diferencia condiciones contextuales (tejido, estímulo). Si necesitas interactoma tejido-específico, ver IID o redes filtradas por coexpresión propia.
Sesgo de organismos modelo. La densidad en humano/ratón/levadura/E. coli es mucho mayor que en organismos no modelo, aunque la API soporte miles de organismos.

Enlaces

Relacionadas en esta página

BioGRID, IntAct, fuentes experimentales que alimentan el canal experiments.
IID, interactoma humano con contexto tisular.
OmniPath, integrador que preserva procedencia por interacción.

BioGRID

BioGRID (Biological General Repository for Interaction Datasets) es la base de datos de referencia de interacciones experimentales (físicas y genéticas) mantenida por el grupo de Mike Tyers en el Lunenfeld-Tanenbaum (Toronto). Cada interacción está respaldada por una publicación con curaduría de método experimental siguiendo PSI-MI.

Es, junto con IntAct, una de las dos fuentes primarias canónicas de PPI con evidencia. Se diferencia de IntAct en énfasis: BioGRID históricamente ha cubierto mejor interacciones genéticas (epistasis, síntesis letal) y high-throughput en levadura. IntAct, high-confidence en humano y mamíferos.

Qué incluye

≈ 2 millones de interacciones de proteínas y genes (versiones recientes), de >80 organismos.
Interacciones físicas (afinidad, co-purificación, two-hybrid, crosslinking).
Interacciones genéticas (epistasis, síntesis letal, supresión), pilar diferencial de BioGRID.
Modificaciones post-traduccionales (PTM): fosforilaciones, acetilaciones, etc.
Interacciones químicas (proteína ↔︎ compuesto): subset “BioGRID ORCS” para CRISPR screens.

Cuándo usarla

Necesitas interacciones experimentales con metadato de método y publicación.
Análisis de interacciones genéticas (la cobertura de IntAct es menor).
Datasets high-throughput en levadura, humano y ratón.
Necesitas un dump en formato tabulado claro (BIOGRID-ALL-*.tab3.txt) para procesamiento masivo.

Cuándo NO usarla

Si necesitas un score de confianza ya calculado tipo intact-miscore o STRING: BioGRID no lo provee de forma nativa.
Si quieres asociación funcional predictiva (vecindad genómica, textmining): STRING.
Si necesitas dirección causal (activador/inhibidor): SIGNOR.

Conceptos clave

PSI-MI 2.5 (Molecular Interactions ontology). BioGRID etiqueta cada interacción con un método experimental ontologizado (MI:0006 anti bait coip, MI:0018 two hybrid, etc.). Filtrar por método permite controlar el sesgo del high-throughput vs small-scale.
Throughput tag. Cada interacción está marcada como low throughput o high throughput. En análisis críticos, restringir a low-throughput reduce falsos positivos a costa de cobertura.
Identificadores. El ID propio es BioGRID Gene ID y BioGRID Interaction ID. Para integrar, mapea por Entrez Gene o UniProt.
Versionado. BioGRID etiqueta cada release (BIOGRID-4.4.nnn). Los dumps incluyen la versión en el nombre, así que la reproducibilidad es directa si se archiva el fichero.

Cómo se accede

Web: https://thebiogrid.org.
API REST: https://wiki.thebiogrid.org/doku.php/biogridrest, gratuita previa key.
Descargas: dumps completos en TSV (.tab3), PSI-MITAB 2.5, MITAB 2.7, JSON. En https://downloads.thebiogrid.org.
Cytoscape: plugin BioGRID.
R: no hay paquete canónico de Bioconductor. El patrón habitual es descargar BIOGRID-ALL-*.tab3.txt y procesarlo con readr o usar la API REST con httr2.

Limitaciones / cobertura

No hay score de confianza nativo. Si necesitas filtrar por confianza homogénea, calcula uno propio (p. ej. número de publicaciones, número de métodos) o cruza con IntAct.
Mezcla interacciones físicas y genéticas. Es necesario filtrar explícitamente por Experimental System Type (physical vs genetic) antes de construir una red PPI canónica.
Sesgo de publicación. Los datos siguen siendo lo que la comunidad publica, con la inevitable concentración en proteínas y organismos de moda.

Enlaces

Relacionadas en esta página

IntAct, alternativa con score nativo y consortium IMEx.
STRING, integrador que consume BioGRID en su canal experiments.
OmniPath, agrega BioGRID + IntAct preservando procedencia.

IntAct

IntAct es el repositorio principal de interacciones moleculares de EMBL-EBI y miembro fundador del consorcio IMEx (International Molecular Exchange), junto con MINT, DIP, MatrixDB y otros. La filosofía de IMEx es estricta: cada interacción se cura siguiendo el estándar PSI-MI con un nivel de detalle alto (regiones de interacción, mutantes, modificaciones, estequiometría cuando se conoce).

Es la fuente que conviene preferir cuando “experimental y curado al detalle” es el requisito.

Qué incluye

Interacciones binarias y de complejos, con detalle PSI-MI.
Complex Portal (proyecto hermano): catálogo curado de complejos macromoleculares estables, con estequiometría y referencias.
Mutation features: efecto de mutaciones específicas sobre la interacción (incremento, decremento, abolición).
intact-miscore: score de confianza en [0, 1] propio del consorcio IMEx, basado en el número y tipo de evidencias.

Cuándo usarla

Estudios donde el detalle por interacción (método, mutantes, regiones) es relevante.
Cuando necesitas un score de confianza unificado entre fuentes IMEx (intact-miscore).
Análisis de complejos macromoleculares (vía Complex Portal).
Cumplimiento de estándares PSI-MI para depósito o integración.

Cuándo NO usarla

Si tu prioridad son interacciones genéticas: BioGRID.
Si necesitas cobertura amplia con predicción: STRING.
Si necesitas integración con señalización dirigida: SIGNOR u OmniPath.

Conceptos clave

PSI-MITAB. Formato tabular extendido (columnas con detalle ontológico) que es el estándar de facto para intercambio de PPI. IntAct exporta MITAB 2.5, 2.6 y 2.7. El 2.7 incluye campos para features y mutaciones.
intact-miscore ≥ 0.6 es un corte habitual para “interacciones de alta confianza” en literatura.
Co-curaduría IMEx. Una misma interacción puede curarse en varias bases del consorcio. IntAct deduplica y atribuye correctamente.
EBI Search. El motor de búsqueda permite consultas complejas (detmethod:"two hybrid" AND species:"Homo sapiens") muy útiles en análisis filtrados.

Cómo se accede

Web: https://www.ebi.ac.uk/intact/.
API REST y GraphQL: https://www.ebi.ac.uk/intact/ws/.
Descargas: PSI-MITAB 2.5/2.6/2.7 en https://ftp.ebi.ac.uk/pub/databases/intact/. Subset negative con interacciones no detectadas. Mutaciones funcionales.
R / Bioconductor: PSICQUIC (proxy unificado para fuentes IMEx. Algo desactualizado pero útil), o llamadas REST directas.
Cytoscape: plugin PSICQUIC.

Limitaciones / cobertura

Sesgo a small-scale. El detalle PSI-MI completo es costoso de curar. Las interacciones high-throughput a veces se importan con menos detalle.
Cobertura humana sólida, decrece en organismos no modelo.
Score limitado. intact-miscore es razonable pero no resuelve confianza para interacciones únicas con un solo paper high-throughput.

Enlaces

Relacionadas en esta página

BioGRID, alternativa con fuerte cobertura en interacciones genéticas.
STRING, integrador que consume IntAct.
OmniPath, agrega IntAct preservando procedencia.
SIGNOR, complementaria con dirección causal y signo.

IID

IID (Integrated Interactions Database) es un interactoma humano integrado y contextualizado desarrollado en el laboratorio de Igor Jurisica (Krembil / OICR). Su valor diferencial frente a STRING/BioGRID/IntAct es la anotación tisular y de enfermedad por interacción: cada par PPI está etiquetado con los tejidos donde se ha detectado o predicho que ocurre, lo que permite filtrar redes por contexto biológico.

Combina interacciones experimentales (de IntAct, BioGRID, BIND, MINT, HPRD, DIP, etc.) con predicciones (basadas en ortología y métodos propios) y las contextualiza con bases de expresión (HPA, GTEx, BioGPS) y de enfermedad (DisGeNET, OMIM).

Qué incluye

≈ 1,8 millones de interacciones humanas integradas (más sus equivalentes en ratón, rata y otros organismos modelo).
Anotación por tejido (>30 tejidos humanos derivados de HPA, GTEx, BioGPS).
Anotación por enfermedad (DisGeNET, OMIM).
Distinción explícita entre experimentales y predichas por ortología.
Druggability (anotación de proteínas druggable).

Cuándo usarla

Cuando necesitas un interactoma humano amplio con contexto tisular o de enfermedad.
Filtrar redes por expresión tejido-específica sin tener que cruzar manualmente con HPA/GTEx.
Construir interactomas para análisis traslacional centrado en una enfermedad.

Cuándo NO usarla

Si necesitas la curaduría primaria PSI-MI: ve directamente a IntAct o BioGRID.
Si necesitas multi-organismo amplio (microorganismos): STRING.
Si necesitas dirección causal con signo: SIGNOR.

Conceptos clave

Distinguir experimental vs predicha. IID mezcla ambas con un flag explícito. Un análisis serio filtra en función del propósito (validación → solo experimentales. target discovery → ambas, ponderando).
Tejido como filtro, no como confianza. Una interacción está “en un tejido” cuando ambas proteínas se expresan ahí. No es una observación directa del binding en ese tejido.
Versiones. IID publica versiones discretas con cambios sustanciales entre ellas. Fijar versión es importante.

Cómo se accede

Web: https://iid.ophid.utoronto.ca.
Descargas: TSV por organismo, filtrables por contexto, en la propia web.
R: no hay paquete oficial. El patrón es descargar TSV y procesar.
Cytoscape: integración vía importación TSV.

Limitaciones / cobertura

Predicciones por ortología. Útiles para cobertura, pero arrastran el sesgo del organismo fuente y de la calidad del ortólogo.
Actualización menos frecuente que STRING/BioGRID/IntAct.
Sin API REST canónica documentada comparable a STRING o IntAct. El acceso programático típico es vía descarga TSV.

Enlaces

Relacionadas en esta página

STRING, alternativa multi-organismo con scores por canal.
IntAct, BioGRID, fuentes primarias que IID integra.
OmniPath, integrador alternativo con preservación de procedencia.

OmniPath

OmniPath es un meta-recurso de señalización y regulación mantenido por el laboratorio de Julio Saez-Rodriguez (Universidad de Heidelberg). Agrega más de 100 fuentes primarias (SIGNOR, SignaLink, IntAct, BioGRID, Reactome, KEGG-derived, PhosphoSitePlus, miRTarBase, DoRothEA, CollecTRI, y muchas más) preservando explícitamente la procedencia de cada interacción y permitiendo filtrarla.

Es la opción por defecto cuando necesitas una red integrativa con metadato rico (signo, dirección, mecanismo, tejido) y trazabilidad por fuente.

Qué incluye

Cinco capas conceptuales:
- Señalización (PPI con dirección y signo).
- Regulación transcripcional (TF → gen) vía CollecTRI / DoRothEA.
- Regulación post-transcripcional (miRNA → mRNA).
- Modificaciones post-traduccionales (enzima → sustrato + residuo).
- Anotaciones funcionales por proteína (localización, función, papel en enfermedad).
Procedencia explícita. Cada interacción mantiene la lista de fuentes y referencias que la respaldan.
Intercell: módulo de comunicación intercelular (ligandos, receptores).

Cuándo usarla

Construir redes de señalización con dirección y signo (necesarias para análisis tipo footprint, CARNIVAL, COSMOS).
Cuando necesitas regulones de TF curados (CollecTRI sustituye a DoRothEA como recurso recomendado por el grupo).
Estudios de comunicación celular (ligand-receptor) con base de referencia robusta.
Combinar fuentes manteniendo trazabilidad y replicabilidad.

Cuándo NO usarla

Si necesitas una interacción PPI cruda sin curaduría de señalización: IntAct o BioGRID directamente.
Si necesitas predicciones por textmining o coexpresión: STRING.
Si necesitas el nivel de detalle por reacción y participantes a la manera de Reactome: ve directamente a Reactome.

Conceptos clave

Capa, sí o sí. OmniPath se consulta por “interactions”, “enzyme-substrate”, “TF-target”, “miRNA-target”, “intercell”. Mezclar capas sin entender qué representa cada arista es la fuente número uno de errores.
Confianza por fuente. En lugar de un score numérico, OmniPath ofrece atributos por interacción: sources, references, n_sources, n_references, curation_effort. Un filtro robusto típico exige n_references ≥ 2 o presencia en al menos dos fuentes independientes.
DoRothEA → CollecTRI. El recurso recomendado para regulones de TF en humano ha cambiado a CollecTRI (más amplio, con signo, mantenido por el mismo grupo). DoRothEA se sigue distribuyendo pero CollecTRI es la opción actual.
Identificadores. OmniPath trabaja en UniProt accessions. Conversiones a Ensembl/HGNC vía mygene o org.Hs.eg.db.

Cómo se accede

Web: https://omnipathdb.org.
Servidor REST público: https://omnipathdb.org/queries, sin autenticación, con límite de tasa.
R / Bioconductor: OmnipathR (cliente canónico).
Python: omnipath y pypath (más detallado, el motor que alimenta el servidor).
Compatibilidad downstream: decoupler (Python/R) y liana (comunicación celular) consumen OmniPath directamente.

Limitaciones / cobertura

Sesgo a humano. OmniPath está fuertemente orientado a humano. El soporte multi-organismo es limitado (humano, ratón y rata por ortología en buena parte).
Heterogeneidad de fuentes. Filtrar sin entender la procedencia mezcla calidades muy diferentes.
Algunas fuentes con licencias restrictivas (KEGG-derived) requieren atención al usar OmniPath en productos comerciales, la documentación detalla cuáles.

Enlaces

Relacionadas en esta página

STRING, alternativa integradora con scores predictivos.
SIGNOR, una de las fuentes nucleares de OmniPath para señalización causal.
Reactome, IntAct, BioGRID, fuentes integradas.

PathwayCommons

PathwayCommons es un integrador de pathways en BioPAX Level 3 desarrollado por OICR (Toronto) y el grupo de Chris Sander. Unifica el contenido de Reactome, NCI-PID (histórico), HumanCyc, PantherDB, NetPath, INOH, WikiPathways, PhosphoSitePlus, MSigDB, MiRTarBase, BIND, IntAct y otras fuentes en un único warehouse con identificadores normalizados y semántica BioPAX consistente.

Su valor está en proveer una API unificada y consultable sobre un grafo de pathways heterogéneo, evitando que cada usuario tenga que parsear cada fuente por separado.

Qué incluye

Pathways y reacciones en BioPAX Level 3 unificado.
Mapeos canónicos entre identificadores (UniProt, ChEBI, Ensembl).
Servicios de consulta tipo grafo: vecinos, caminos, sub-redes, upstream/downstream.
Gene sets (GMT) derivados de los pathways para enriquecimiento.

Cuándo usarla

Cuando necesitas un warehouse unificado de varias fuentes con BioPAX consistente.
Análisis de caminos en grafo entre dos proteínas a través de pathways (pathsbetween, pathsfromto).
Generación de gene sets para ORA/GSEA combinando varias fuentes.

Cuándo NO usarla

Si te interesa una sola fuente: ve directamente al recurso original (Reactome, WikiPathways, etc.).
Si necesitas la última versión exacta de Reactome: PathwayCommons puede ir con desfase de una o dos releases.
Si necesitas KEGG: por restricciones de licencia, las versiones recientes de PathwayCommons no incluyen contenido KEGG.

Conceptos clave

BioPAX Level 3. Ontología compleja. Pase obligado conocer las clases (BiochemicalReaction, Control, PhysicalEntity, EntityReference) si vas a parsear directamente.
SBGN export. PathwayCommons permite exportar pathways a SBGN-PD para visualización estandarizada.
paxtoolsr. En R, este paquete proporciona acceso al web service y a paxtools para manipular BioPAX.

Cómo se accede

Web: https://www.pathwaycommons.org.
API REST: https://www.pathwaycommons.org/pc2/, operaciones get, search, graph, traverse, top_pathways.
R / Bioconductor: paxtoolsr.
Descargas: BioPAX OWL, SIF (simple interaction format), GMT (gene sets).
Cytoscape: plugin CyPath2.

Limitaciones / cobertura

Desfase respecto a fuentes primarias. Para máxima actualidad, consulta la fuente original.
Cobertura de pathways principalmente humana (los integrados son mayoritariamente humanos).
Sin KEGG en versiones recientes por licencia.

Enlaces

Relacionadas en esta página

Reactome, WikiPathways, fuentes nucleares integradas.
OmniPath, alternativa integradora con foco en señalización dirigida.

SIGNOR

SIGNOR (SIGnaling Network Open Resource) es la base de datos de referencia para señalización causal con signo y dirección en humano, mantenida por el grupo de Gianni Cesareni (Universidad de Roma Tor Vergata). Cada interacción está respaldada por una publicación curada y etiquetada con mecanismo molecular (fosforilación, ubiquitinación, cleavage, binding, transcripción, etc.) y efecto (up-regulates, down-regulates, unknown).

Su nicho es justamente lo que STRING / BioGRID / IntAct no proveen de forma sistemática: un grafo dirigido con signo, apto para modelado de señalización (CARNIVAL, COSMOS, boolean networks).

Qué incluye

≈ 30.000 interacciones causales curadas (humano principalmente).
Dirección (entidad reguladora → entidad regulada) y signo (activación / inhibición).
Mecanismo molecular (PTM concreto cuando aplica, con residuo cuando se conoce).
Pathways de señalización predefinidos (apoptosis, p53, AMPK, autofagia, etc.) descargables como subgrafos.
Complejos y entidades agregadas como nodos.

Cuándo usarla

Modelado de señalización con métodos que requieren dirección y signo: CARNIVAL, COSMOS, PHONEMeS, boolean networks, footprint.
Construcción manual de redes de señalización para un proceso concreto, partiendo de un subgrafo curado.
Como fuente nuclear de OmniPath para la capa de señalización.

Cuándo NO usarla

Si necesitas cobertura PPI amplia sin restricción a señalización dirigida: STRING o BioGRID.
Si necesitas el detalle de complejos macromoleculares estables: Complex Portal (parte de IntAct).
Si necesitas pathways jerárquicos con reacciones detalladas: Reactome.

Conceptos clave

Causal vs físico. Una interacción causal en SIGNOR significa “A regula a B con efecto X via mecanismo Y”, no necesariamente “A se une físicamente a B”. Las relaciones transcripcionales y las cascadas indirectas también se modelan como aristas causales.
Pathways como subgrafos curados. SIGNOR distribuye subgrafos pre-curados (“Apoptosis pathway”, “AMPK signaling”) muy útiles como punto de partida.
Identificadores. UniProt para proteínas. Los complejos tienen IDs propios (SIGNOR-Cnnn).

Cómo se accede

Web: https://signor.uniroma2.it.
API REST: https://signor.uniroma2.it/APIs.php, gratuita, sin clave.
Descargas: TSV/CSV de interacciones, subgrafos por pathway, mecanismos.
R: acceso vía OmnipathR (que integra SIGNOR) o llamadas REST directas.
Cytoscape: plugin SIGNOR.

Limitaciones / cobertura

Foco humano casi exclusivo. La cobertura en otros organismos es marginal.
Cobertura desigual entre pathways. Vías muy estudiadas (p53, NF-κB) están densamente curadas. Otras, mucho menos.
Sesgo de mecanismo. PTMs sin método experimental concreto se etiquetan como binding por defecto. Conviene revisar el campo mechanism antes de inferir bioquímica detallada.

Enlaces

Relacionadas en esta página

OmniPath, integrador que consume SIGNOR como fuente nuclear.
Reactome, alternativa con reacciones detalladas pero sin signo causal sistemático.
IntAct, complementaria con detalle físico PSI-MI.