De muestra a FASTQ + bases de datos públicas

r
bioconductor
metagenomica
Qué pasa entre la muestra biológica y los reads. Extracción de DNA, preparación de librería, QC del secuenciador, y dónde están los datasets públicos (SRA, MGnify, HMP, JGI/IMG) para reanalizar sin esperar a secuenciar.

Qué hay antes del FASTQ

Cuando recibes un FASTQ de microbioma, detrás hay un workflow wet-lab de 1-4 semanas lleno de decisiones técnicas. Aunque no vayas a ejecutarlo tú, conviene conocer qué se hizo. Las decisiones afectan al análisis downstream, saber qué entra evita interpretar mal.

El camino estándar:

Muestra → Almacenamiento → Extracción DNA → PCR primers → Limpieza
        → Quantificación → Library prep → QC → Secuenciación → FASTQ

Cada flecha introduce su propio sesgo. Aquí lo resumimos a lo que afecta al análisis.

Toma de muestra y almacenamiento

La regla de oro: el microbioma empieza a cambiar en minutos tras tomar la muestra si no se preserva. La composición que mides depende de cómo guardaste la muestra.

Buffers de preservación habituales:

  • OMNIgene·GUT (DNA Genotek): mantiene composición a temperatura ambiente hasta 60 días. Estándar para estudios de microbioma fecal a gran escala.
  • RNAlater: para metatranscriptómica. Inhibe RNasas.
  • FTA cards / FFPE: solo para amplicón básico. No para shotgun de calidad.
  • Congelar a -80 °C inmediatamente: el gold standard si tienes congelador disponible. Ojo: un único ciclo de freeze-thaw ya cambia ratios.

Implicación para tu análisis: si comparas cohortes recogidas con buffers distintos, tienes un confundente técnico. Registra siempre en la metadata.

Extracción de DNA

Aquí se introduce el mayor sesgo técnico del 16S. Los kits no extraen igual de bien todas las paredes celulares:

  • Bacterias Gram-negativas (pared fina): se lisan fácil.
  • Bacterias Gram-positivas (pared gruesa, como Lactobacillus): cuesta más.
  • Esporas (Clostridium): muy resistentes. Requieren beat-beating mecánico.
  • Arqueas, hongos (paredes especiales): kits específicos.

Kits comunes y su sesgo:

Kit Mecanismo Bias notable
QIAamp PowerSoil Pro Beat-beating + columna Estándar HMP/EMP. Buena lisis general
MagAttract PowerSoil Beat-beating + magnético Como PowerSoil, escalable a 96-well
ZymoBIOMICS Beat-beating + columna Buena lisis incluso Gram+
MoBio PowerFecal Sin beat-beating fuerte Sub-representa Gram+

Implicación: comparar muestras procesadas con kits distintos es problema. Mantén el mismo kit en toda la cohorte.

PCR del 16S: primers, ciclos, sesgos

Para amplicón, la PCR amplifica solo el gen 16S con primers universales:

  • V4 estándar EMP: 515F (GTGYCAGCMGCCGCGGTAA) + 806R (GGACTACNVGGGTWTCTAAT), Walters 2016.
  • V3-V4 estándar Illumina: 341F (CCTACGGGNGGCWGCAG) + 805R (GACTACHVGGGTATCTAATCC), Klindworth 2013.

Decisiones técnicas que dejan huella:

  • Número de ciclos PCR: más ciclos = más quimeras y bias por amplificación. 25-30 ciclos es lo razonable. >35 = problema.
  • Polymerase: alta fidelidad (Q5, KAPA HiFi) reduce errores. La barata (Taq) introduce más.
  • Index primers: en MiSeq, los índices van en una segunda PCR (dual indexing). Mal hechos → cross-talk entre muestras (1-3 % típico).

Limpieza, cuantificación, library prep

Pasos rápidos pero importantes:

  • Limpieza con beads (AMPure XP) elimina primers, dímeros, fragmentos cortos.
  • Cuantificación con Qubit (DNA dsDNA HS): única forma fiable de medir el DNA real. NanoDrop no sirve (no distingue DNA de proteínas).
  • Library prep: añade adaptadores Illumina + índices. Para MiSeq amplicón, kit Nextera XT o Illumina DNA Prep.
  • Pool equimolar: cuantificar cada librería y mezclar partes iguales. Si pooled mal, unas muestras dominan la run y otras quedan sub-secuenciadas.

QC del secuenciador

Antes de tocar reads en tu análisis, el centro de secuenciación entrega un reporte. Mira:

  • % reads passing filter (PF): >85 % es razonable. <80 % indica run problemática.
  • Q30: % de bases con calidad ≥ Q30 (1 error en 1000). >75 % para R1, >70 % para R2 en MiSeq 2×300.
  • Yield: total de Gb secuenciadas. Para 96 muestras V3-V4, esperar ~ 10-15 Gb.
  • Cluster density: 800k-1200k clusters/mm² es óptimo en MiSeq.

Si el run sale mal, vuelve a hablar con el centro de secuenciación. No conviene gastar tiempo de análisis en datos defectuosos.

Qué pide DADA2 como entrada

DADA2 espera archivos FASTQ ya demultiplexados, paired-end, sin primers:

  • Demultiplexed: un FASTQ por muestra (no un FASTQ enorme con todas las muestras + índices). El centro de secuenciación lo hace por defecto.
  • Paired-end: un archivo _R1.fastq.gz y otro _R2.fastq.gz por muestra.
  • Sin primers: idealmente los primers de PCR ya están recortados con cutadapt o equivalente. DADA2 también puede recortar con trimLeft, pero cutadapt es más robusto.

Output de un centro de secuenciación bien hecho:

proyecto_2026/
├── SampleA_R1.fastq.gz
├── SampleA_R2.fastq.gz
├── SampleB_R1.fastq.gz
├── SampleB_R2.fastq.gz
├── ...
├── MultiQC_report.html
└── README.txt          ← variable región, primers, kit, etc.

Si te entregan los reads sin demultiplexar, vas a tener que demultiplexarlos. QIIME2 lo hace bien. Lo veremos en el anexo.

Bases de datos públicas: dónde están los datasets

No hace falta secuenciar para practicar. Hay terabytes de datos 16S libres y bien curados:

SRA / BioProject (NCBI)

El archivo más grande. Toda secuenciación financiada por NIH acaba aquí. Búsqueda en www.ncbi.nlm.nih.gov/bioproject por palabra clave: “human gut microbiome”, “obesity 16S”, etc.

Descarga con sra-tools (CLI):

# Instalar sra-tools (Conda o package manager)
prefetch SRR12345678
fasterq-dump SRR12345678 --split-files

Para batch, usa sra-tools con un archivo de accessions.

ENA (European Nucleotide Archive)

Espejo europeo de SRA. Mismos datos, mejor interfaz de búsqueda para algunos. Acceso directo a FASTQ por HTTPS:

https://www.ebi.ac.uk/ena/browser/view/PRJNA12345

MGnify (EBI)

Pipeline + datos procesados. Mejor para metagenómica funcional. Incluye datos del EMP procesados. Acceso via www.ebi.ac.uk/metagenomics.

HMP Data Portal

Microbioma humano sano de referencia: 18 sitios corporales × cientos de personas. Acceso: portal.hmpdacc.org.

JGI/IMG

Microbioma ambiental. Especialmente suelo, agua, ambientes extremos. Acceso: img.jgi.doe.gov.

Qiita

Plataforma curada por el Knight Lab. Combina datasets de microbioma con metadata estandarizada. Especialmente útil para EMP. Acceso: qiita.ucsd.edu.

Datasets sugeridos para practicar

Tres datasets pequeños, públicos y rápidos de descargar para empezar:

  • DADA2 tutorial dataset (~ 20 muestras de heces ratón): benjjneb.github.io/dada2/tutorial.html. Ideal para el primer pipeline.
  • Atacama Soils (QIIME2 tutorial): ~ 60 muestras de suelo del Atacama. Pequeño, V4, paired-end. Útil para el tutorial de QIIME2 (anexo).
  • Bacteroides 2 enterotype / dieta + obesidad (PRJNA682853): el dataset del caso completo (tutorial 12). 66 muestras V3-V4 de heces humanas, metadata clínica disponible.

Todos descargables vía SRA con sra-tools.

El patrón idiomático del análisis

Cuando empiezas un nuevo análisis 16S desde un dataset público, el flujo es:

# 1. Identifica el BioProject y descarga la metadata
# (web → CSV con SampleID, condición, batch, etc.)

# 2. Descarga reads paired-end con sra-tools (CLI)
#    prefetch + fasterq-dump por cada accession

# 3. Comprueba en metadata: ¿qué región se secuenció? ¿qué primers?
#    Esto define cómo recortar primers en DADA2

# 4. Empieza con DADA2 desde los FASTQ.gz demultiplexados
library(dada2)
path <- "data/fastq"
fnFs <- sort(list.files(path, pattern = "_R1.fastq.gz"))
fnRs <- sort(list.files(path, pattern = "_R2.fastq.gz"))

Los detalles los veremos en el tutorial 5 (QC y filtrado).

Trampas habituales

  • Bajar reads sin leer la metadata del BioProject. Vas a procesar lo que sea, sin saber qué región amplificaron ni qué primers usaron. Resultado: pipeline mal configurado, ASVs poco fiables. Lee siempre la página del BioProject antes de descargar.
  • Mezclar reads de distintos studios sin pensar en batch. Aunque las preguntas biológicas casen, las cohortes tienen efectos técnicos enormes. Modelar como covariable o stratificar.
  • Confiar en “Q30 > 75 %” como única señal de calidad. Hay runs con Q30 OK donde la cola del R2 es horrible. Mira siempre los plots de calidad por posición.
  • Olvidar registrar primers en la metadata. Si secuencias en tu lab, anota qué primers (incluido su número de versión exacto). Sin esa info, no hay análisis comparable a literatura.

En la siguiente entrega

Has visto qué hay detrás del FASTQ y de dónde sacar datos. La siguiente entrega es setup técnico: instalar todos los paquetes Bioconductor de microbioma (DADA2, phyloseq, microbiome, ANCOM-BC, MaAsLin2), verificar versiones y dejar el entorno listo. Lo siguiente.