Cuándo es ML y cuándo es estadística

r
machine-learning
tidymodels
La distinción fundamental entre inferencia y predicción. Las dos culturas de Breiman, por qué la métrica de éxito cambia, y cuándo NO necesitas ML.

La distinción fundamental

Estadística y machine learning a menudo se confunden, comparten matemática, comparten R, y mucha gente usa los términos como sinónimos. No son lo mismo. La diferencia importa porque determina qué métricas optimizas, cómo divides los datos, qué reportas y cómo defiendes tu modelo.

La distinción más limpia:

  • Estadística: pregunta sobre la realidad subyacente. “¿El fumar causa bajo peso al nacer? ¿Cuánto, controlando por covariables?”
  • Machine learning: pregunta sobre predicciones futuras. “¿Cuál será el peso al nacer de la próxima madre, dada esta información?”

Esta diferencia genera cascada de implicaciones operativas.

Dos preguntas, dos modos

Aspecto Estadística Machine learning
Pregunta ¿Hay efecto? ¿De qué magnitud? ¿Cuál es la predicción para esta nueva observación?
Foco Coeficientes y sus IC Predicciones y su precisión
Modelo Simple e interpretable (lineal) Lo que mejor prediga (puede ser una caja negra)
Datos Toda la muestra para el modelo final Train para entrenar, test reservado para evaluar
Supuestos Hay que verificarlos (diagnóstico de residuos) Importan menos si la predicción funciona
Output principal Tabla de coeficientes + p-values + IC Predicciones + métrica de error
Validez Inferencia (¿efecto real en la población?) Generalización (¿funcionará con datos nuevos?)

Las dos columnas son extremos de un espectro, un proyecto real puede mezclar elementos. Pero saber en qué columna estás determina tus decisiones.

La métrica de éxito cambia

En estadística, el éxito se mide por:

  • p-value pequeño del coeficiente de interés (rechazas la hipótesis nula).
  • IC estrecho alrededor del estimador (cuantificas la magnitud con precisión).
  • Residuos bien comportados (modelo válido).
  • Tamaño de efecto interpretable (la magnitud importa, no solo la significancia).

En machine learning, el éxito se mide por:

  • Métrica de predicción en test set (RMSE, AUC, accuracy, F1).
  • Generalización: ¿funciona con datos que no vio?
  • Robustez: ¿degrada poco con cambios en la distribución de entrada?

R² alto con datos de entrenamiento no es éxito en ML, es sobreajuste potencial. R² alto en test set sí lo es. La distinción es crítica.

Las dos culturas de Breiman

Leo Breiman, estadístico de Berkeley, publicó en 2001 un ensayo influyente: “Statistical Modeling: The Two Cultures”. Su argumento:

  • Cultura del modelo de datos (estadística clásica): asume que los datos vienen de un modelo paramétrico (lineal, logístico, etc.) y estima sus parámetros. El modelo es lo importante.
  • Cultura del modelado algorítmico (machine learning): no asume modelo subyacente. Busca una función que prediga bien, sea lineal, árbol, red neuronal o cualquier otra cosa. La función es lo importante.

Breiman argumentaba que la primera cultura se obsesiona con modelos que no se cumplen en la práctica y pierde en predicción frente a algoritmos más flexibles que ignoran sus supuestos.

La estadística aplicada moderna acepta ambas. Saber cuándo aplicar cada una es ingeniería de problema, no ideología.

Cuándo necesitas ML

Cuatro señales claras de que tu problema es de ML:

  1. El objetivo es predecir, no entender. Le doy datos de un cliente nuevo, ¿comprará o no?
  2. La relación entre variables es compleja o desconocida. No tienes hipótesis a priori sobre la forma funcional.
  3. Hay muchos predictores (decenas o cientos) y no quieres seleccionarlos a mano.
  4. El criterio de éxito es claro y medible (clasificación correcta, error de predicción mínimo).

Ejemplos típicos: detección de fraude, recomendación de productos, scoring de riesgo crediticio, mantenimiento predictivo, diagnóstico por imagen.

Cuándo necesitas estadística clásica

Tres señales:

  1. El objetivo es estimar un efecto causal o asociativo, no predecir.
  2. Necesitas interpretar coeficientes (“fumar reduce el peso al nacer en X gramos, controlando por edad”).
  3. El reporte va a peer-review o regulatorio: un modelo lineal con IC es lo que reviewers/auditores entienden.

Ejemplos típicos: ensayos clínicos, análisis epidemiológicos, evaluación de políticas públicas, investigación académica.

Cuándo ML es overkill

Esta sección la salta la mayoría. Si lo único que necesitas es un baseline predictivo, y tienes pocos predictores con relaciones aproximadamente lineales, un modelo lineal o logístico hace el trabajo:

  • Es más rápido de entrenar.
  • Es más fácil de interpretar.
  • Es más fácil de defender ante un comité o auditor.
  • A menudo predice igual de bien que XGBoost en datos tabulares pequeños.

Regla práctica: empieza siempre con un baseline lineal/logístico en cualquier proyecto de ML. Si el modelo complejo no supera al baseline por margen notable, el baseline es la respuesta correcta.

La industria está llena de proyectos donde se desplegó XGBoost para tener 0.3 % de AUC más que una regresión logística, y se pagó con un modelo opaco que nadie sabe debuggear.

Trampas habituales

  • Reportar coeficientes de modelos complejos. Random forests y redes neuronales no tienen coeficientes interpretables en el sentido estadístico. Si tu pregunta es “¿cuánto afecta X a Y?”, un modelo lineal es la herramienta correcta, no XGBoost con SHAP values forzados.
  • Evaluar ML con todo el dataset (sin test set). El R² en datos de entrenamiento NO es la calidad del modelo. Es la capacidad del modelo de memorizar. Sin test set independiente, no tienes evidencia de generalización.
  • Aplicar ML donde estadística clásica funciona mejor. Si tienes 30 observaciones y 3 variables, no necesitas un random forest. Necesitas pensar en los supuestos del t-test que va a hacer tu colega más conservador.
  • Confundir métricas predictivas con causalidad. Un modelo con AUC = 0.95 prediciendo enfermedad puede usar “haber tomado paracetamol” como variable. No significa que el paracetamol cause la enfermedad, significa que las personas con dolores (síntoma de la enfermedad) toman paracetamol. La predicción funciona. La causalidad es otra cosa.

En la siguiente entrega

Has aprendido cuándo necesitas ML. La siguiente pieza es cómo está estructurado el ecosistema en R. tidymodels no es un paquete, son siete que trabajan juntos. Saber qué hace cada uno te ahorra perderte en documentación. Lo siguiente.