Bases de datos de organismos modelo

Recursos genómicos especializados por especie y su portal integrador

databases
model-organisms
genomics
phenotype-ontologies
orthology
Referencia comentada de las bases de datos curadas por comunidad para organismos modelo: nomenclatura, fenotipos, ortología y acceso programático, articuladas alrededor del Alliance of Genome Resources.

Sobre bases de datos de organismos modelo

Las Model Organism Databases (MODs) son repositorios curados a mano por la comunidad científica de cada especie. A diferencia de los catálogos generalistas (NCBI Gene, Ensembl), las MODs incorporan expertise específico de la especie: convenciones de nomenclatura propias, ontologías de fenotipo desarrolladas localmente, alelos y líneas mutantes con su historia experimental, y curación literaria que asocia genes con fenotipos uno a uno. Son la fuente primaria cuando se necesita información genética profunda sobre una especie concreta.

Desde 2016, las seis MODs principales de eucariotas (MGI, RGD, ZFIN, FlyBase, WormBase, SGD) se coordinan a través del Alliance of Genome Resources, un proyecto financiado por NIH que armoniza datos entre especies y proporciona una capa común de ortología, fenotipos comparables y descarga unificada. La estructura recomendada es entrar primero por el Alliance para consultas comparativas (ortología, disease models, expression atlas cross-species) y bajar a la MOD nativa cuando se necesita la profundidad de curación específica.

Tres principios operativos que conviene tener interiorizados:

  • Identificadores estables y prefijados. Cada MOD asigna IDs con un prefijo propio (MGI:, RGD:, ZDB-GENE-, FBgn, WBGene, S000, AT…G). Esos IDs son los que viajan entre publicaciones y bases. Nunca cites un gen solo por símbolo en output analítico.
  • Ortología canónica vía Alliance / DIOPT. La tabla de ortólogos del Alliance integra múltiples predictores (OrthoFinder, Panther, OMA, Ensembl Compara, etc.). Para mapeo cross-species, partir de ahí evita la fragilidad de un único método.
  • Ontologías de fenotipo específicas por organismo. MP (mouse), HP (human), ZP (zebrafish), DPO (Drosophila), WBPhenotype (worm), APO (yeast). El Alliance las mapea entre sí pero las anotaciones primarias viven en cada MOD.

Esta página cataloga nueve recursos. El orden refleja jerarquía conceptual: primero el portal integrador (Alliance), después los modelos vertebrados (mamíferos y pez), invertebrados (mosca y nematodo), eucariotas unicelulares (levadura), plantas (Arabidopsis) y bacterias (E. coli).


Alliance of Genome Resources

El Alliance of Genome Resources es el portal integrador que armoniza datos de las seis MODs eucariotas principales (MGI, RGD, ZFIN, FlyBase, WormBase, SGD) y de la base humana RGD/HGNC. Operado por un consorcio financiado por el NIH (NHGRI) desde 2016, ofrece un único punto de entrada para comparar genes, fenotipos, expresión y modelos de enfermedad entre especies.

No reemplaza a las MODs nativas: las anotaciones primarias siguen viviendo en cada base, pero el Alliance proporciona una capa de integración cross-species que ninguna MOD individual puede ofrecer.

Qué incluye

  • Ortología canónica integrando múltiples predictores (OrthoFinder, PANTHER, OMA, Ensembl Compara, ZFIN, HGNC-Comparison, InParanoid, PhylomeDB, Roundup, TreeFam, Hieranoid).
  • Modelos de enfermedad mapeados a DO (Disease Ontology) con evidencia experimental (líneas mutantes, alelos, anotaciones literarias).
  • Expression atlas cross-species con datos integrados de WT-expression de cada MOD.
  • Descargas masivas: BGI files, GAF (Gene Association Files), DAF (Disease Annotation Files), expression files.
  • AGR Schema (LinkML) como modelo de datos común que las MODs adoptan progresivamente.

Cuándo usarla

  • Búsqueda de ortólogos entre dos o más especies con métrica de confianza integrada.
  • Listar todos los modelos animales de una enfermedad humana (por DO ID o símbolo OMIM).
  • Tablas comparativas de fenotipo, expresión o función para una familia génica entre especies.
  • Cualquier consulta donde la pregunta cruce más de un organismo modelo.

Cuándo NO usarla

  • Detalle profundo de un alelo o línea concreta, baja a la MOD nativa (MGI, ZFIN, etc.).
  • Anotaciones muy recientes que aún no han propagado del MOD al Alliance (típicamente latencia de semanas a meses).
  • Especies fuera del consorcio (rata aparece vía RGD, pero p. ej. Xenopus o C. intestinalis siguen en bases independientes).

Conceptos clave

  • AGR identifier: cada gen tiene un ID interno del Alliance que apunta a su ID en la MOD nativa. En la práctica se sigue trabajando con los IDs nativos (MGI:, FBgn, etc.).
  • DO (Disease Ontology) es la ontología pivote para disease models. HPO se mapea para humano.
  • Best ortholog filter: la interfaz permite filtrar por “stringent filter” (ortólogos predichos por ≥3 métodos y al menos uno de los dos best score), recomendado por defecto.
  • GAF y DAF son formatos tabulares estándar GO/Alliance para asociaciones gen-función y gen-enfermedad respectivamente.

Cómo se accede

Limitaciones / cobertura

  • Cobertura sólida en eucariotas modelo clásicos. Sin presencia de procariotas (E. coli, Bacillus) ni de organismos modelo emergentes (axolote, planaria, killifish).
  • Lag respecto a las MODs nativas: actualizaciones del Alliance ocurren en ciclos de release, no en tiempo real.
  • Curación de enfermedad sesgada hacia ortólogos de genes humanos con relevancia biomédica conocida, genes sin ortólogo humano claro están infra-anotados.

Enlaces

Relacionadas en esta página


MGI (Mouse Genome Informatics)

MGI es la base de datos de referencia para la genética y genómica del ratón (Mus musculus). Mantenida por The Jackson Laboratory desde los años 80, integra el genoma de referencia, alelos y mutaciones, fenotipos, modelos de enfermedad humana, expresión y vías. Es el recurso de organismo modelo más maduro y curado del mundo: punto de partida obligatorio cuando se trabaja con cualquier dato murino.

Su fortaleza histórica es la curación literaria exhaustiva: miles de alelos espontáneos, knock-outs dirigidos, mutantes ENU, cre/loxP drivers y modelos floxed registrados con su historia experimental.

Qué incluye

  • Genoma de referencia GRCm39 (mm39) con anotación coordinada con Ensembl y NCBI.
  • Catálogo completo de alelos y genotipos con nomenclatura oficial regida por la International Committee on Standardized Genetic Nomenclature for Mice.
  • Fenotipos anotados con la Mammalian Phenotype Ontology (MP), desarrollada y mantenida en MGI.
  • Modelos de enfermedad humana vía mapeo a OMIM / DO.
  • Datos de expresión integrados con GXD (Gene Expression Database), anotaciones espacio-temporales del desarrollo.
  • GO annotations curadas para genes de ratón.

Cuándo usarla

  • Cualquier estudio que use ratones como modelo: búsqueda de alelos disponibles, líneas Cre, modelos preclínicos.
  • Convertir un símbolo génico humano a su ortólogo de ratón con todos los alelos asociados.
  • Consultas de fenotipo: “todos los genes cuyo knock-out produce defecto en cresta neural” (vía MP terms).
  • Verificar la nomenclatura oficial de un gen, alelo o línea (MGI es la autoridad).

Cuándo NO usarla

  • Datos de expresión de alto rendimiento a nivel transcriptómico, usa GEO / ArrayExpress o EBI Expression Atlas. GXD prioriza anotaciones espacialmente resueltas.
  • Variantes genómicas poblacionales en cepas específicas, el Mouse Genomes Project (Sanger) y los recursos de la Collaborative Cross y DO son más adecuados.
  • Single-cell atlases del ratón, Tabula Muris / Tabula Muris Senis viven fuera de MGI.

Conceptos clave

  • MGI IDs con prefijo MGI: (p. ej. MGI:96677 para Pax6). Son la unidad estable que sobrevive renombrados de símbolos.
  • Nomenclatura oficial del ratón: genes en cursiva y primera letra mayúscula (Pax6). Proteínas en redonda y mayúsculas (PAX6). Alelos como superíndice del gen (Pax6^Sey^). Confundir esto en un manuscrito es una red flag para revisores con experiencia.
  • MP (Mammalian Phenotype Ontology) es la ontología canónica para fenotipos de ratón y rata. La mantiene MGI conjuntamente con RGD.
  • IMPC (International Mouse Phenotyping Consortium) publica fenotipos sistemáticos de KOs a escala genómica que MGI integra.
  • Cre Portal dentro de MGI: cataloga líneas Cre con patrón de expresión y especificidad, recurso crítico para diseñar experimentos condicionales.

Cómo se accede

Limitaciones / cobertura

  • Concentración del esfuerzo de curación en líneas con publicación: alelos sin literatura pueden estar pobremente anotados.
  • Las anotaciones MP dependen del diseño del estudio original. Ausencia de fenotipo MP no implica fenotipo normal, implica no testado.
  • Coordenadas genómicas en GRCm39. Trabajos antiguos referencian mm9/mm10, el liftOver es necesario y no siempre trivial cerca de regiones reorganizadas.

Enlaces

Relacionadas en esta página


RGD (Rat Genome Database)

RGD es la base de datos de referencia para Rattus norvegicus, mantenida por el Medical College of Wisconsin desde 1999. Cubre el genoma de referencia, alelos, QTLs (especialmente fuertes en rata por su tradición en genética de rasgos complejos cardiovasculares y metabólicos), fenotipos y modelos de enfermedad. Desde hace varios años RGD ha ampliado su cobertura para integrar también datos de humano, ratón, chinchilla, bonobo, perro, ardilla y otros vertebrados, actuando como hub multi-especie con sesgo biomédico.

Qué incluye

  • Genoma de rata mRatBN7.2 (actualmente en transición. Ediciones anteriores Rnor_6.0).
  • Catálogo de QTLs (Quantitative Trait Loci) de rata, el recurso más completo del mundo para QTLs en mamífero no humano.
  • Anotaciones de fenotipo con MP ontology (compartida con MGI) y de enfermedad con DO/RDO.
  • Strain registry con líneas consanguíneas (BN, F344, SHR, WKY, Lewis, etc.) y sus QTLs asociados.
  • Vías curadas en formato propio (RGD Pathway annotations) e integración con Reactome.

Cuándo usarla

  • Cualquier proyecto que use rata: nomenclatura, alelos, líneas, fenotipos.
  • Estudios de QTL cardiovascular, metabólico o renal, rata es históricamente el modelo dominante.
  • Consultas comparativas humano-rata-ratón con sesgo translacional.

Cuándo NO usarla

  • Genética molecular de detalle (alelos no derivados de QTL), la curación es menos exhaustiva que MGI en ratón.
  • Datos de expresión single-cell o transcriptómica masiva, RGD no es repositorio primario.

Conceptos clave

  • RGD IDs con prefijo RGD: (p. ej. RGD:3170).
  • Nomenclatura de rata sigue convenciones paralelas al ratón pero mayúsculas para gen y alelo (Pax6 también en rata, pero el sistema histórico difiere, consulta la Rat Gene Nomenclature Committee).
  • QTL records incluyen rango cromosómico, fenotipo asociado, cepas de origen y LOD score, son piezas de datos estructuradas, no solo anotaciones.
  • RGD es el mantenedor de la versión de MP para rata junto con MGI.

Cómo se accede

Limitaciones / cobertura

  • Recursos humanos de curación menores que MGI. Profundidad de anotación inferior fuera del nicho QTL/cardiovascular.
  • Ensamblaje genómico de rata ha cambiado varias veces en la última década, verificar siempre la versión de coordenadas.
  • Menor adopción de la comunidad bioinformática general. Algunos pipelines populares no contemplan IDs de rata por defecto.

Enlaces

Relacionadas en esta página


ZFIN (Zebrafish Information Network)

ZFIN es la base de datos comunitaria para Danio rerio (pez cebra), mantenida por la University of Oregon desde 1994. Es el recurso de referencia para genética de desarrollo en vertebrados, dado el dominio del pez cebra como modelo de embriogénesis, screening de fenotipos y modelado de enfermedad mediante mutagénesis y morfolinos / CRISPR.

Qué incluye

  • Genoma de referencia GRCz11.
  • Anatomy ontology (ZFA) y stage ontology (ZFS) desarrolladas en ZFIN, describen el desarrollo embrionario con resolución temporal fina (etapas y horas post-fertilización).
  • Phenotype ontology (ZP) específica de pez cebra, construida combinacionalmente con ZFA y PATO.
  • Catálogo de alelos, líneas transgénicas y morfolinos con historia experimental y bibliografía.
  • Expresión génica anotada espacio-temporalmente (similar al espíritu de GXD en ratón).
  • Curación de literatura asociada gen a gen.

Cuándo usarla

  • Cualquier proyecto con pez cebra: alelos disponibles, líneas Tg, fenotipos por estadio de desarrollo.
  • Búsqueda de genes con expresión en un tejido específico a una hora post-fertilización concreta.
  • Modelado de enfermedad en pez cebra (vía Alliance + DO).
  • Validar nomenclatura de líneas transgénicas, ZFIN es la autoridad nomencladora.

Cuándo NO usarla

  • Genética poblacional o variantes naturales, ZFIN cubre alelos generados experimentalmente, no diversidad de cepas wild.
  • Datos transcriptómicos a gran escala, usa GEO / Expression Atlas. ZFIN integra expresión curada, no perfiles RNA-seq masivos.

Conceptos clave

  • ZFIN IDs: prefijo ZDB-GENE- para genes, ZDB-ALT- para alelos, ZDB-FISH- para líneas, ZDB-TGCONSTRCT- para construcciones transgénicas.
  • Nomenclatura de pez cebra: gen en cursiva y minúsculas (pax6a). Proteína en redonda con primera mayúscula (Pax6a). El sufijo a/b distingue parálogos derivados de la duplicación genómica teleosteana.
  • Anatomy + Stage + PATO se combinan para construir términos de fenotipo (EQ: entity + quality). Es un sistema más composicional que MP de ratón.
  • Morpholino vs CRISPR knockout: ZFIN registra ambos, pero hay literatura crítica (Stainier et al.) sobre la disonancia entre fenotipos morfolino y mutantes germinales, relevante al interpretar anotaciones antiguas.

Cómo se accede

Limitaciones / cobertura

  • Cobertura sesgada hacia genes con literatura, el genoma de pez cebra tiene ~26.000 genes codificantes y la curación es heterogénea.
  • Anotaciones de morfolino antiguas requieren juicio crítico (ver punto anterior).
  • Mapeo a ortólogos humanos complicado por la duplicación genómica teleosteana (paralogos a/b con sub-funcionalización).

Enlaces

Relacionadas en esta página


FlyBase

FlyBase es la base de datos comunitaria para Drosophila melanogaster y otras especies de drosófilos, mantenida por un consorcio de instituciones (Harvard, Cambridge, Indiana, Berkeley) desde 1992. Drosophila es uno de los modelos genéticos más antiguos y FlyBase refleja esa profundidad: décadas de mutantes históricos, screens sistemáticos, alelos Gal4/UAS y un acervo nomenclatural extraordinariamente desarrollado.

Qué incluye

  • Genomas de referencia para D. melanogaster (Dmel_R6.x) y ~10 especies adicionales del clado.
  • Catálogo de alelos clásicos (algunos con más de un siglo de antigüedad) con descripciones fenotípicas detalladas.
  • Gal4/UAS drivers registrados, recurso esencial para experimentos de expresión dirigida.
  • DPO (Drosophila Phenotype Ontology) y FBcv (FlyBase Controlled Vocabulary).
  • Anotaciones de interacciones genéticas y físicas curadas literariamente.
  • Datos de expresión integrados con FlyAtlas y FlyBase Anatomy (FBbt).
  • RNAi reagents y CRISPR reagents disponibles (TRiP, VDRC, NIG-FLY).

Cuándo usarla

  • Cualquier proyecto con Drosophila: alelos, líneas Gal4, reagentes RNAi/CRISPR, screens.
  • Estudios comparativos entre especies del clado Drosophila (filogenómica corta).
  • Genética del desarrollo: FlyBase es probablemente la MOD con mayor profundidad de anotación de fenotipos del desarrollo.
  • Verificar nomenclatura, extraordinariamente rica y a veces caprichosa (nombres como hedgehog, tinman, sevenless surgieron en mosca).

Cuándo NO usarla

  • Datos transcriptómicos de alta resolución (scRNA-seq atlas), usa Fly Cell Atlas u otros recursos especializados.
  • Variantes naturales de poblaciones silvestres, DGRP (Drosophila Genetic Reference Panel) vive como recurso paralelo.

Conceptos clave

  • FlyBase IDs: FBgn para gen, FBal para alelo, FBti para inserción transposónica, FBst para stock. Cada uno con su propio espacio de identificadores estables.
  • Nomenclatura: gen y alelo en cursiva, con primera letra minúscula si el alelo es recesivo y mayúscula si dominante (shaker vs Shaker). El alelo se escribe como superíndice (w^1118^).
  • Gal4/UAS system: convención de nomenclatura para drivers (elav-Gal4, da-Gal4) que FlyBase rastrea.
  • CG numbers (Computed Gene): nombre provisional asignado por anotación automática del genoma. Cuando se caracteriza funcionalmente, recibe un nombre simbólico. Coexistencia de CG e ID simbólico es común en literatura.

Cómo se accede

Limitaciones / cobertura

  • Las ~10 especies adicionales del clado tienen anotación funcional muy inferior a D. melanogaster.
  • La nomenclatura histórica es densa: un mismo gen puede tener 5+ sinónimos publicados a lo largo de las décadas. FlyBase consolida pero la búsqueda por símbolo requiere atención.
  • Mapeo a ortólogos vertebrados a través del Alliance / DIOPT.

Enlaces

Relacionadas en esta página


WormBase

WormBase es la base de datos para Caenorhabditis elegans y nematodos relacionados, mantenida por un consorcio internacional (Caltech, Sanger, OICR, WashU) desde 2000. C. elegans es el segundo modelo genético clásico tras Drosophila: linaje celular completamente trazado, conectoma completo, y una comunidad cohesionada que produce datos de altísima calidad anotacional.

Qué incluye

  • Genoma de referencia WS295 (numeración propia de WormBase, distinta de Ensembl/NCBI).
  • Linaje celular completo del desarrollo embrionario y postembrionario (Sulston et al. 1983) integrado en la base.
  • Conectoma (mapa completo de conexiones sinápticas) con datos de Hermafrodita y de macho (este último completado en 2019).
  • WBPhenotype ontology específica.
  • Anotaciones de RNAi sistemáticas (Ahringer y Vidal libraries) y catálogo de mutantes.
  • Curación literaria exhaustiva.
  • Integración con WormAtlas (anatomía) y WormBook (capítulos revisados por pares).

Cuándo usarla

  • Cualquier proyecto con C. elegans: alelos, líneas, RNAi clones, fenotipos.
  • Estudios de desarrollo celular con resolución de célula individual (linaje, identidad).
  • Análisis del conectoma o de circuitos neuronales.
  • Búsqueda de ortólogos cross-phyla, nematodo es referencia evolutiva clave.

Cuándo NO usarla

  • Variantes naturales y poblaciones silvestres, el C. elegans Natural Diversity Resource (CeNDR) es el portal específico.
  • Datos single-cell transcriptómicos masivos, usa repositorios como VisCello o el C. elegans Cell Atlas.

Conceptos clave

  • WormBase IDs: WBGene para gen, WBVar para variante, WBStrain para cepa. La nomenclatura interna usa también CE para proteínas predichas computacionalmente.
  • Nomenclatura de C. elegans: genes en cursiva y minúsculas con guion y número (unc-13, daf-2, lin-4). Proteínas en redonda y mayúsculas (UNC-13).
  • Alelos: dos letras de laboratorio + número (unc-13(e51), donde e indica el laboratorio Hodgkin de Cambridge). Cada laboratorio tiene un strain prefix registrado en CGC.
  • WormBase release cycle: numeración propia (WS295, WS296…). Importante para reproducibilidad: las coordenadas pueden variar entre releases.
  • CGC (Caenorhabditis Genetics Center) distribuye las cepas físicas. Está integrado con WormBase para consultar disponibilidad.

Cómo se accede

Limitaciones / cobertura

  • Especies hermanas (C. briggsae, C. remanei, Pristionchus pacificus) tienen anotación muy inferior.
  • Coordenadas WBPS (WormBase ParaSite, para parásitos relacionados) viven en portal separado.
  • Cobertura del conectoma de macho fue parcial hasta 2019. Trabajos previos pueden basarse en datos incompletos.

Enlaces

Relacionadas en esta página


SGD (Saccharomyces Genome Database)

SGD es la base de datos para Saccharomyces cerevisiae (levadura de gemación), mantenida por Stanford University desde 1993. Levadura es el eucariota mejor caracterizado funcionalmente: ~6.000 genes, todos con KO disponible (colección sistemática de deleciones), y una densidad de anotación funcional cercana a la saturación. SGD refleja esta madurez.

Qué incluye

  • Genoma de referencia S288C (cepa de referencia histórica) con anotación exhaustiva.
  • Catálogo de deleciones sistemáticas (Yeast Deletion Collection) y TF binding sites.
  • Anotaciones funcionales prácticamente saturadas: GO, pathway, localización subcelular, interacciones.
  • APO (Ascomycete Phenotype Ontology) desarrollada en SGD.
  • Datos de interacción genética y física integrados con BioGRID.
  • YeastMine para consultas estructuradas.
  • Datos de expresión integrados (GASCH, microarrays clásicos y RNA-seq moderno).

Cuándo usarla

  • Cualquier proyecto con S. cerevisiae: anotación funcional, fenotipos, interacciones.
  • Búsqueda de ortólogos eucariotas básicos, levadura es referencia funcional para procesos celulares conservados.
  • Diseño de experimentos en sistemas modelo unicelulares: KO disponibles, plasmidos, marcadores auxotróficos.
  • Consulta de la literatura clásica de genética molecular, SGD curó décadas de papers desde los años 70.

Cuándo NO usarla

  • Otras especies de levadura (S. pombe, Candida albicans, Pichia pastoris), tienen sus propias bases: PomBase, CGD, AspGD (ahora descontinuado, fusionado en FungiDB).
  • Datos poblacionales o cepas industriales/wild, el 1011 Yeast Genomes Project y bases industriales son complementos necesarios.

Conceptos clave

  • SGD IDs: prefijo SGD: o el systematic name (YBR020W = cromosoma B, brazo derecho, ORF 020, Watson strand). Los systematic names codifican la posición.
  • Nomenclatura: gen en cursiva mayúsculas (GAL4), proteína redonda con primera mayúscula (Gal4), alelo mutante en minúsculas con guion (gal4-Δ).
  • Verified vs Uncharacterized ORFs: SGD clasifica cada ORF por nivel de evidencia funcional. Dubious ORFs son predicciones que se considera probable que no codifiquen proteína real.
  • APO combina fenotipo + cualidad PATO para anotaciones composicionales (similar al espíritu de ZP en pez cebra).

Cómo se accede

Limitaciones / cobertura

  • Centrado exclusivamente en S. cerevisiae, para otros hongos consulta FungiDB o PomBase.
  • Curación literaria saturada en el sentido de que casi todo gen tiene anotaciones. El riesgo está en sobre-interpretar anotaciones GO derivadas de high-throughput como evidencia directa.
  • Genoma de referencia es una cepa de laboratorio (S288C). Cepas industriales y wild presentan variación estructural sustancial.

Enlaces

Relacionadas en esta página


TAIR (The Arabidopsis Information Resource)

TAIR es la base de datos para Arabidopsis thaliana, planta modelo dominante en biología vegetal. Originalmente financiada por la NSF y operada por el Carnegie Institution, desde 2014 está mantenida por Phoenix Bioinformatics bajo un modelo de suscripción institucional, con acceso libre a un subconjunto, pero curación activa restringida a suscriptores. Es la única MOD principal que no es gratuita en su totalidad, una particularidad que conviene conocer.

Qué incluye

  • Genoma de referencia Araport11 (anotación Araport, sobre el ensamblaje TAIR10).
  • Catálogo de alelos T-DNA, líneas SALK, mutaciones EMS y CRISPR.
  • PO (Plant Ontology) desarrollada en TAIR (anatomía y desarrollo).
  • TO (Trait Ontology) para fenotipos agronómicos y experimentales.
  • Datos de expresión, líneas transgénicas, recursos de germoplasma.
  • Mapas genéticos clásicos.

Cuándo usarla

  • Cualquier proyecto con Arabidopsis: nomenclatura, alelos, líneas T-DNA, fenotipos.
  • Verificar correspondencia entre AGI IDs (Arabidopsis Gene Identifier) y símbolos génicos.
  • Punto de partida para genética de plantas modelo.

Cuándo NO usarla

  • Para curación reciente sin suscripción institucional, partes de TAIR son ahora paywalled.
  • Datos genómicos masivos / re-secuenciación de accesiones, el 1001 Genomes Project vive como recurso paralelo.
  • Otras especies vegetales, Phytozome (JGI), Gramene (gramíneas), Sol Genomics Network (solanáceas), PlantGDB son las referencias respectivas.

Conceptos clave

  • AGI IDs: formato AT[1-5,M,C]G[5-digit] (p. ej. AT1G01010). El número del cromosoma sigue al AT, M es mitocondrial, C cloroplástico. Los IDs Araport11 actualizan la anotación pero mantienen los AGI IDs estables del TAIR10.
  • Nomenclatura: gen en cursiva mayúsculas (PHYB), proteína redonda mayúsculas (PHYB), alelo recesivo en cursiva minúsculas (phyB-9).
  • Plant Ontology (PO) y Trait Ontology (TO) son ontologías composicionales, TAIR las desarrolla pero ahora están adoptadas por toda la comunidad vegetal.
  • Araport11 vs TAIR10: Araport11 es la anotación activa moderna. TAIR10 sigue siendo referenciada en literatura pre-2016. Las coordenadas son las mismas. Los modelos génicos cambian.

Cómo se accede

  • Web: arabidopsis.org, acceso parcial gratuito, completo con suscripción.
  • Phytozome (alternativa con datos similares de acceso abierto): phytozome.jgi.doe.gov
  • Araport ya integrado en TAIR tras la fusión de 2018.

Limitaciones / cobertura

  • Modelo de suscripción restringe descargas masivas y curación viva a instituciones suscritas, para muchos análisis hay que recurrir a Phytozome o Ensembl Plants.
  • No es miembro del Alliance of Genome Resources (centrado en eucariotas animales y levadura).
  • Curación ha disminuido respecto al periodo pre-2014 con financiación NSF.

Enlaces

Relacionadas en esta página

  • (No miembro del Alliance. Sin enlaces internos en esta página.)

EcoCyc

EcoCyc es la base de datos curada para Escherichia coli K-12 MG1655, mantenida por SRI International y la Karolinska Institute desde 1995. Es la base bacteriana modelo más exhaustivamente curada del mundo: cada gen tiene anotación funcional revisada literariamente, vías metabólicas reconstruidas a mano, regulación transcripcional detallada, e integración con el modelo metabólico a escala genómica iML1515. El estándar de calidad EcoCyc es la referencia para curación bacteriana.

Qué incluye

  • Genoma completo de E. coli K-12 MG1655 con anotación funcional saturada.
  • Vías metabólicas reconstruidas: ~360 vías catabólicas, anabólicas y de biosíntesis.
  • Regulón transcripcional: factores de transcripción, sitios de unión, operones, sigma factors.
  • Datos de localización subcelular, complejos proteicos, transportadores.
  • Integración con MetaCyc (vías metabólicas multi-organismo) y BioCyc (familia de bases).
  • iML1515 y modelos GEMs descargables en SBML.

Cuándo usarla

  • Cualquier estudio metabólico o regulatorio en E. coli: punto de entrada obligatorio.
  • Reconstrucción de redes metabólicas, EcoCyc es la fuente de verdad para E. coli MG1655.
  • Análisis de operones, sigma factors, regulones.
  • Búsqueda de enzimas con función conocida y sus reacciones.

Cuándo NO usarla

  • Para regulación transcripcional específicamente: RegulonDB (Universidad Autónoma de México) es complementaria y más profunda en ese subdominio, ver entrada siguiente.
  • Otras cepas de E. coli (patogénicas, comensales), EcoCyc se centra en K-12 MG1655.
  • Otras bacterias, la familia BioCyc tiene cientos de PGDBs (Pathway/Genome Databases) para otras especies con niveles muy variables de curación.

Conceptos clave

  • EcoCyc IDs: EG10001, b0001, o el locus tag b#### (b-number), el estándar histórico para E. coli K-12.
  • MetaCyc vs EcoCyc: MetaCyc es la base multi-organismo de vías. EcoCyc es la PGDB específica de E. coli construida sobre la misma plataforma Pathway Tools.
  • Pathway Tools es el software subyacente (también de SRI) que mantiene la consistencia entre genes, reacciones, vías y modelos. Disponible bajo licencia académica.
  • iML1515 es el genome-scale metabolic model derivado de EcoCyc, ampliamente usado en biología de sistemas.

Cómo se accede

  • Web: ecocyc.org
  • BioCyc ofrece descargas con suscripción institucional (muchas universidades la tienen): biocyc.org
  • API SmartTables y exportación a SBML / BioPAX disponible.

Limitaciones / cobertura

  • Acceso libre a la web. descargas masivas requieren suscripción institucional a BioCyc.
  • Centrado en K-12 MG1655. Otras cepas de E. coli (patogénicas como O157:H7, comensales) están en BioCyc con curación inferior.
  • Las anotaciones son tan exhaustivas que pueden generar falsa sensación de completitud, sigue habiendo genes con función desconocida.

Enlaces

Relacionadas en esta página

  • RegulonDB, complementaria en regulación transcripcional.

RegulonDB

RegulonDB es la base de datos para la regulación transcripcional de E. coli K-12 MG1655, mantenida por el Center for Genomic Sciences de la UNAM (México) desde 1998. Mientras EcoCyc cubre todo el genoma con un enfoque metabólico-funcional integrado, RegulonDB se especializa en el detalle de la maquinaria transcripcional: factores de transcripción, sitios de unión, operones, promotores y transcription start sites. Las dos bases son explícitamente complementarias y comparten convenciones de IDs.

Qué incluye

  • TFs (factores de transcripción) con sus dominios, regulación post-traduccional y efectores.
  • Sitios de unión experimentalmente validados con coordenadas genómicas y secuencia consenso.
  • Promotores con TSS (transcription start site) determinados por RNA-seq direccional y mapas de chromatina nucleoide.
  • Operones y unidades transcripcionales (TUs).
  • Regulones organizados jerárquicamente (TFs maestros, regulones modulares).
  • High-throughput datasets integrados: ChIP-seq, RNA-seq, dRNA-seq.

Cuándo usarla

  • Cualquier estudio de regulación transcripcional en E. coli: TFs, sitios, promotores, operones.
  • Búsqueda de regulones por TF, por gen objetivo o por condición.
  • Análisis de redes regulatorias y motivos de TF.
  • Punto de entrada complementario a EcoCyc cuando la pregunta es regulatoria.

Cuándo NO usarla

  • Función metabólica o vías, EcoCyc es la base apropiada.
  • Otras especies bacterianas, RegulonDB es exclusivamente E. coli K-12 (algunas estructuras computacionales se han propagado a otras especies vía Abasy Atlas, pero el detalle experimental no).

Conceptos clave

  • IDs propios de RegulonDB: ECK120000001 para TF/regulón, mapeados a los b-numbers e IDs de EcoCyc.
  • TUs (Transcription Units) son la unidad operacional principal, un operón puede contener varias TUs alternativas según condición.
  • Evidencia clasificada: cada anotación lleva código de evidencia (Strong/Weak/Confirmed/Inferred) con criterios documentados.
  • High-throughput section integra datasets ómicos que enriquecen las anotaciones tradicionales con datos de chromatin organization (HU, IHF, H-NS occupancy).

Cómo se accede

  • Web: regulondb.ccg.unam.mx
  • Descargas estructuradas en TSV/JSON/RDF.
  • API y consultas SPARQL disponibles.
  • Acceso libre y completo (no requiere suscripción).

Limitaciones / cobertura

  • Especialización profunda implica que para preguntas no regulatorias hay que ir a EcoCyc.
  • Centrado en K-12 MG1655.
  • Sincronización entre RegulonDB y EcoCyc no es automática: en zonas de solapamiento puede haber anotaciones divergentes que reflejan criterios de curación distintos.

Enlaces

Relacionadas en esta página

  • EcoCyc, complementaria, comparte organismo y convenciones de IDs.