Técnicas: 16S amplicón vs shotgun

r
bioconductor
metagenomica
La decisión técnica que más condiciona el análisis. Qué resolución da cada técnica, qué cuesta, qué sesgos introduce y por qué esta ruta se centra en amplicón 16S.

Dos caminos, dos preguntas

Para estudiar una comunidad microbiana hay dos rutas técnicas dominantes:

16S amplicón Shotgun
Qué secuencia Una región del gen 16S Todo el DNA de la muestra
Resolución taxonómica Hasta género (a veces especie) Hasta especie (a veces cepa)
Resolución funcional Inferida (PICRUSt2, Tax4Fun) Directa (KEGG, COG, Pfam)
Coste por muestra ~ 50-100 € ~ 500-2000 €
Datos por muestra ~ 100k-500k reads ~ 5M-50M reads
Computación Modesta (laptop) Intensa (cluster)
Madurez del pipeline Muy maduro (DADA2, QIIME2) Maduro pero más fragmentado
Sesgos PCR Sí (universal primers) No

La elección depende de la pregunta biológica y del presupuesto.

Cuándo cada uno

Elige 16S amplicón si:

  • Tu pregunta es composicional: ¿cambia la comunidad entre grupos?
  • Quieres procesar muchas muestras (>50) con presupuesto limitado.
  • Tu muestra es dominante en bacterias (heces, suelo, agua).
  • No necesitas resolver funciones específicas con precisión.

Elige shotgun si:

  • Necesitas funciones reales: rutas KEGG, genes de resistencia a antibióticos, factores de virulencia.
  • Quieres distinguir cepas dentro de una especie.
  • Tu muestra tiene mucha contaminación eucariota (biopsia de tejido, sangre) y necesitas filtrar.
  • Estudias virus, plásmidos o elementos móviles.
  • Quieres ensamblar genomas (MAGs, Metagenome-Assembled Genomes).

Híbrido común: 16S para screening barato de 500 muestras → shotgun de las 50 más interesantes.

La región variable del 16S

El 16S tiene 9 regiones hipervariables (V1-V9) intercaladas con regiones conservadas. Eliges qué región amplificar según resolución y plataforma:

Región Tamaño Resolución Notas
V4 ~ 250 bp Media (familia/género) Estándar EMP, primers 515F/806R
V3-V4 ~ 460 bp Mejor (género) Estándar HMP, Illumina MiSeq 2×300
V1-V3 ~ 500 bp Mejor para Staphylococcus, piel Histórico, menos universal
V6-V8 ~ 300 bp Buena para arqueas Usado en ambientes extremos
V1-V9 (full-length) ~ 1500 bp Especie y a veces cepa PacBio o Nanopore, no Illumina

Decisión por defecto para microbioma humano: V3-V4 con Illumina MiSeq 2×300. Es lo que el HMP usó, lo más reportado en literatura, lo más comparable.

Para shotgun: Illumina NovaSeq 2×150 si presupuesto, NextSeq si no.

Para resolución de especie/cepa con amplicón: PacBio HiFi o Nanopore Q20+ con full-length 16S. Aún caro pero el dato es premium.

Sesgos a tener en cuenta

Cada técnica introduce sus propias trampas. Conviene tenerlas en mente al diseñar.

Sesgos del 16S amplicón

  • Sesgo de primers: los “universales” no amplifican igual de bien todas las bacterias. Algunos taxones quedan sub-representados sistemáticamente. Esto se controla parcialmente eligiendo primers bien evaluados (Walters et al. 2016 para V4, Klindworth et al. 2013 para V3-V4).
  • Variación en el número de copias del 16S: una bacteria con 10 copias del operón aparece 10× más abundante que una con 1 copia. Solución parcial: picante para normalizar por copy number (estimaciones de rrnDB).
  • Contaminación de kits y reactivos (“kitome”): críticos en muestras de baja biomasa (sangre, piel, ambiente limpio). Controles negativos imprescindibles.
  • Quimeras de PCR: artefactos donde dos secuencias distintas se recombinan durante la PCR. Se filtran con removeBimeraDenovo en DADA2 (lo vemos en el tutorial 7).

Sesgos del shotgun

  • Reads humanos contaminantes: en muestras clínicas (heces, biopsias) hasta el 50 % de las reads pueden ser DNA del host. Hay que filtrarlas (con Bowtie2 vs genoma humano) antes del análisis. Si no, infinitas “tasas de éxito de assembly” engañosas.
  • Sesgo de GC%: organismos con GC% extremo (alto en Streptomyces, bajo en Plasmodium) se sub-secuencian sistemáticamente con química Illumina estándar.
  • Cobertura desigual: una bacteria con 1 % de abundancia en una muestra rica puede no llegar a 10× de cobertura, lo justo para distinguir variantes. Esto limita la detección de minoritarios.

Técnicas vecinas (cuándo aparecen)

Metatranscriptómica: secuencia RNA total. Responde “qué se expresa”. Combinable con shotgun. Caro, sensible al manejo (RNA se degrada en minutos). Útil para responder función actual, no función potencial.

Metaproteómica: detecta proteínas presentes. Aún más realista funcionalmente, pero técnicamente muy demandante. Aplicación nicho (ej. comunidades fermentativas industriales).

Metabolómica: no es metagenómica strictu sensu, pero complementa al medir metabolitos producidos por la comunidad. Integrar metagenómica + metabolómica es el frente moderno (multi-omics microbioma).

La elección por defecto en esta ruta

Esta ruta cubre 16S V3-V4 con Illumina paired-end, procesado con DADA2 en R/Bioconductor, hasta producir ASVs + tabla taxonómica con SILVA. Es:

  • Lo más extendido en práctica clínica y de investigación.
  • Lo más reproducible (DADA2 produce los mismos ASVs entre labs).
  • Lo más barato de practicar (datasets públicos disponibles).
  • Lo más maduro en términos de pipeline.

Para shotgun, los conceptos transfieren parcialmente (composicionalidad, diversidad alfa/beta) pero los pipelines (Kraken2, MetaPhlAn4, HUMAnN3, MEGAHIT) son distintos. El libro asociado a esta ruta cubre el cruce con shotgun cuando merece la pena.

La plataforma de secuenciación

Aunque secundario, vale la pena conocer las opciones:

Plataforma Mejor para Lo malo
Illumina MiSeq 16S V3-V4 (paired 2×300) Throughput limitado (~ 25M reads/run)
Illumina NextSeq / NovaSeq Shotgun a gran escala Read length corto (2×150) limita amplicón
PacBio Sequel II / Revio Full-length 16S, MAGs de alta calidad Caro por muestra
Oxford Nanopore (MinION / PromethION) Full-length 16S, portabilidad, campo Error rate más alto (mejorando)

99% de los datasets públicos que veremos en esta ruta son Illumina MiSeq paired-end 2×300, V3-V4. Es lo “estándar”.

Trampas habituales

  • “Más reads = mejor”. Por encima de ~ 30 000 reads por muestra en 16S, ganas poco. El presupuesto se gasta mejor en más muestras, no más profundidad por muestra. En shotgun, sí necesitas mucha más cobertura.
  • Comparar V4 con V3-V4 directamente. ASVs no son comparables. La taxonomía sí, pero con cuidado (resolución distinta).
  • Olvidar controles negativos. En muestras de baja biomasa, sin un blanco de extracción + un blanco de PCR no puedes distinguir señal real de “kitome”. La regla: 1 blanco cada ~ 20 muestras.
  • No registrar el lote (batch) de extracción y secuenciación. El batch técnico introduce el mayor confundente del microbioma. Sin esa metadata, los análisis son frágiles.

En la siguiente entrega

Conoces qué técnica usar y por qué. Lo siguiente es el paso antes del FASTQ: cómo se toma la muestra, cómo se extrae el DNA, cómo se prepara la librería, y dónde están los datos públicos si quieres reanalizar sin esperar a secuenciar. Lo siguiente.