Técnicas: 16S amplicón vs shotgun
Dos caminos, dos preguntas
Para estudiar una comunidad microbiana hay dos rutas técnicas dominantes:
| 16S amplicón | Shotgun | |
|---|---|---|
| Qué secuencia | Una región del gen 16S | Todo el DNA de la muestra |
| Resolución taxonómica | Hasta género (a veces especie) | Hasta especie (a veces cepa) |
| Resolución funcional | Inferida (PICRUSt2, Tax4Fun) | Directa (KEGG, COG, Pfam) |
| Coste por muestra | ~ 50-100 € | ~ 500-2000 € |
| Datos por muestra | ~ 100k-500k reads | ~ 5M-50M reads |
| Computación | Modesta (laptop) | Intensa (cluster) |
| Madurez del pipeline | Muy maduro (DADA2, QIIME2) | Maduro pero más fragmentado |
| Sesgos PCR | Sí (universal primers) | No |
La elección depende de la pregunta biológica y del presupuesto.
Cuándo cada uno
Elige 16S amplicón si:
- Tu pregunta es composicional: ¿cambia la comunidad entre grupos?
- Quieres procesar muchas muestras (>50) con presupuesto limitado.
- Tu muestra es dominante en bacterias (heces, suelo, agua).
- No necesitas resolver funciones específicas con precisión.
Elige shotgun si:
- Necesitas funciones reales: rutas KEGG, genes de resistencia a antibióticos, factores de virulencia.
- Quieres distinguir cepas dentro de una especie.
- Tu muestra tiene mucha contaminación eucariota (biopsia de tejido, sangre) y necesitas filtrar.
- Estudias virus, plásmidos o elementos móviles.
- Quieres ensamblar genomas (MAGs, Metagenome-Assembled Genomes).
Híbrido común: 16S para screening barato de 500 muestras → shotgun de las 50 más interesantes.
La región variable del 16S
El 16S tiene 9 regiones hipervariables (V1-V9) intercaladas con regiones conservadas. Eliges qué región amplificar según resolución y plataforma:
| Región | Tamaño | Resolución | Notas |
|---|---|---|---|
| V4 | ~ 250 bp | Media (familia/género) | Estándar EMP, primers 515F/806R |
| V3-V4 | ~ 460 bp | Mejor (género) | Estándar HMP, Illumina MiSeq 2×300 |
| V1-V3 | ~ 500 bp | Mejor para Staphylococcus, piel | Histórico, menos universal |
| V6-V8 | ~ 300 bp | Buena para arqueas | Usado en ambientes extremos |
| V1-V9 (full-length) | ~ 1500 bp | Especie y a veces cepa | PacBio o Nanopore, no Illumina |
Decisión por defecto para microbioma humano: V3-V4 con Illumina MiSeq 2×300. Es lo que el HMP usó, lo más reportado en literatura, lo más comparable.
Para shotgun: Illumina NovaSeq 2×150 si presupuesto, NextSeq si no.
Para resolución de especie/cepa con amplicón: PacBio HiFi o Nanopore Q20+ con full-length 16S. Aún caro pero el dato es premium.
Sesgos a tener en cuenta
Cada técnica introduce sus propias trampas. Conviene tenerlas en mente al diseñar.
Sesgos del 16S amplicón
- Sesgo de primers: los “universales” no amplifican igual de bien todas las bacterias. Algunos taxones quedan sub-representados sistemáticamente. Esto se controla parcialmente eligiendo primers bien evaluados (Walters et al. 2016 para V4, Klindworth et al. 2013 para V3-V4).
- Variación en el número de copias del 16S: una bacteria con 10 copias del operón aparece 10× más abundante que una con 1 copia. Solución parcial:
picantepara normalizar por copy number (estimaciones de rrnDB). - Contaminación de kits y reactivos (“kitome”): críticos en muestras de baja biomasa (sangre, piel, ambiente limpio). Controles negativos imprescindibles.
- Quimeras de PCR: artefactos donde dos secuencias distintas se recombinan durante la PCR. Se filtran con
removeBimeraDenovoen DADA2 (lo vemos en el tutorial 7).
Sesgos del shotgun
- Reads humanos contaminantes: en muestras clínicas (heces, biopsias) hasta el 50 % de las reads pueden ser DNA del host. Hay que filtrarlas (con Bowtie2 vs genoma humano) antes del análisis. Si no, infinitas “tasas de éxito de assembly” engañosas.
- Sesgo de GC%: organismos con GC% extremo (alto en Streptomyces, bajo en Plasmodium) se sub-secuencian sistemáticamente con química Illumina estándar.
- Cobertura desigual: una bacteria con 1 % de abundancia en una muestra rica puede no llegar a 10× de cobertura, lo justo para distinguir variantes. Esto limita la detección de minoritarios.
Técnicas vecinas (cuándo aparecen)
Metatranscriptómica: secuencia RNA total. Responde “qué se expresa”. Combinable con shotgun. Caro, sensible al manejo (RNA se degrada en minutos). Útil para responder función actual, no función potencial.
Metaproteómica: detecta proteínas presentes. Aún más realista funcionalmente, pero técnicamente muy demandante. Aplicación nicho (ej. comunidades fermentativas industriales).
Metabolómica: no es metagenómica strictu sensu, pero complementa al medir metabolitos producidos por la comunidad. Integrar metagenómica + metabolómica es el frente moderno (multi-omics microbioma).
La elección por defecto en esta ruta
Esta ruta cubre 16S V3-V4 con Illumina paired-end, procesado con DADA2 en R/Bioconductor, hasta producir ASVs + tabla taxonómica con SILVA. Es:
- Lo más extendido en práctica clínica y de investigación.
- Lo más reproducible (DADA2 produce los mismos ASVs entre labs).
- Lo más barato de practicar (datasets públicos disponibles).
- Lo más maduro en términos de pipeline.
Para shotgun, los conceptos transfieren parcialmente (composicionalidad, diversidad alfa/beta) pero los pipelines (Kraken2, MetaPhlAn4, HUMAnN3, MEGAHIT) son distintos. El libro asociado a esta ruta cubre el cruce con shotgun cuando merece la pena.
La plataforma de secuenciación
Aunque secundario, vale la pena conocer las opciones:
| Plataforma | Mejor para | Lo malo |
|---|---|---|
| Illumina MiSeq | 16S V3-V4 (paired 2×300) | Throughput limitado (~ 25M reads/run) |
| Illumina NextSeq / NovaSeq | Shotgun a gran escala | Read length corto (2×150) limita amplicón |
| PacBio Sequel II / Revio | Full-length 16S, MAGs de alta calidad | Caro por muestra |
| Oxford Nanopore (MinION / PromethION) | Full-length 16S, portabilidad, campo | Error rate más alto (mejorando) |
99% de los datasets públicos que veremos en esta ruta son Illumina MiSeq paired-end 2×300, V3-V4. Es lo “estándar”.
Trampas habituales
- “Más reads = mejor”. Por encima de ~ 30 000 reads por muestra en 16S, ganas poco. El presupuesto se gasta mejor en más muestras, no más profundidad por muestra. En shotgun, sí necesitas mucha más cobertura.
- Comparar V4 con V3-V4 directamente. ASVs no son comparables. La taxonomía sí, pero con cuidado (resolución distinta).
- Olvidar controles negativos. En muestras de baja biomasa, sin un blanco de extracción + un blanco de PCR no puedes distinguir señal real de “kitome”. La regla: 1 blanco cada ~ 20 muestras.
- No registrar el lote (batch) de extracción y secuenciación. El batch técnico introduce el mayor confundente del microbioma. Sin esa metadata, los análisis son frágiles.
En la siguiente entrega
Conoces qué técnica usar y por qué. Lo siguiente es el paso antes del FASTQ: cómo se toma la muestra, cómo se extrae el DNA, cómo se prepara la librería, y dónde están los datos públicos si quieres reanalizar sin esperar a secuenciar. Lo siguiente.