Machine Learning con tidymodels

Del análisis al modelo predictivo defendible

Ruta para hacer machine learning serio con R: pipeline reproducible, preprocesado sin fugas, cross-validation correcto, tuning honesto y comparación entre modelos.

Para quién es esta ruta

Analistas que ya dominan tidyverse y estadística básica (Rutas 1 y 3) y quieren modelar para predecir, no solo describir. Esta ruta enseña el flujo moderno de ML en R, el ecosistema tidymodels, con buenas prácticas (sin fugas, con CV honesta, con tuning bien hecho) que el sector aplica en producción.

Nota

Antes de empezar: necesitas R, RStudio y tidyverse instalados. Si no, ve a Instalar R, RStudio y tidyverse.

Qué vas a saber hacer al terminar

  • Estructurar un pipeline de ML reproducible con tidymodels
  • Hacer preprocesado sin fugas con recipes
  • Cross-validation correcta y tuning honesto con tune
  • Comparar varios modelos en paralelo con workflowsets
  • Interpretar y defender un modelo (no solo entrenarlo)

Estructura

Bloque 1: Fundamentos

  1. Cuándo es ML y cuándo es estadística
  2. Anatomía de tidymodels: el ecosistema
  3. División train/test con rsample
  4. recipes: preprocesado sin fugas de datos

Bloque 2: Especificación y workflow

  1. parsnip: especificar modelos agnóstico al engine
  2. workflows: el contenedor que evita el caos
  3. Cross-validation correcto

Bloque 3: Optimización y comparación

  1. tune: optimizar hiperparámetros sin trampas
  2. Métricas: clasificación, regresión, qué elegir
  3. workflowsets: comparar modelos en serio

Bloque 4: Interpretación y cierre

  1. Interpretabilidad con DALEX y vip
  2. Caso completo: del CSV a un modelo defendible

¿Quieres ir más a fondo?

El libro Machine Learning con tidymodels está en preparación. Cuando esté listo, ampliará esta ruta con un caso real de producción, modelos avanzados (XGBoost, ensembles), deployment con vetiver y monitoreo del modelo en producción.