Libros

Lecturas externas que vale la pena comprar y trabajar de principio a fin

books

learning

statistics

machine-learning

bioinformatics

python

Selección comentada de libros de referencia para R, estadística, machine learning, bioinformática y Python: para quién es cada uno, qué aporta frente a sus alternativas, y cuándo merece la pena pagar por él en vez de leer la versión online.

Sobre libros recomendados

Esta página cataloga libros externos, no documentación oficial, no tutoriales online sueltos, que conviene tener cerca como referencia de fondo. No es una bibliografía exhaustiva: es una selección opinada, con criterio de utilidad real para alguien que ya trabaja en R, ciencia de datos o bioinformática y quiere consolidar.

Algunos están disponibles gratis online (R4DS, Advanced R, McElreath en video, ISL en PDF). Aun así, el formato impreso o ePub completo casi siempre justifica el gasto: lo lees con menos distracciones, lo subrayas, vuelves a él tres años después. Otros (Bishop, ESL, Fluent Python) son inversiones serias que se amortizan a lo largo de toda una carrera técnica.

Categorías que estructuran la página:

Fundamentos de R. R4DS, Advanced R, R Packages, el trío canónico de Hadley & Bryan. Cualquier persona que quiera dejar de ser un usuario casual de R y empiece a escribir paquetes o flujos reproducibles los necesita.
Estadística rigurosa. McElreath para inferencia bayesiana con intuición, ESL para fundamentos matemáticos profundos, ISL como puerta de entrada accesible al mismo material.
Machine learning aplicado. Hands-On Machine Learning (Géron) para el camino práctico Python/Keras, Tidy Modeling with R para el equivalente con tidymodels.
Bioinformática. Modern Statistics for Modern Biology (Holmes & Huber) y Computational Genomics with R (Akalin), los dos libros que más fielmente representan el modo en que se hace análisis ómico moderno en R.
Python. Python Data Science Handbook (VanderPlas) como introducción al stack NumPy / pandas / scikit-learn, Fluent Python (Ramalho) para internalizar el modelo de objetos del lenguaje.

El orden de la página refleja una progresión razonable: primero te asientas en R, después en estadística e ML, después aplicas a un dominio (bioinformática), y finalmente añades Python como segundo lenguaje cuando el ecosistema R se queda corto.

Nota práctica: muchos de estos libros tienen una versión bookdown gratuita y mantenida por los propios autores. Cuando exista, es la opción a leer en primera lectura. El formato impreso vale la pena cuando el libro se vuelve referencia recurrente.

R for Data Science (R4DS)

Hadley Wickham, Mine Çetinkaya-Rundel & Garrett Grolemund, 2ª edición (2023), O’Reilly. Disponible gratis en r4ds.hadley.nz. Es la puerta de entrada estándar al tidyverse: importación con readr, transformación con dplyr, visualización con ggplot2, modelos básicos, comunicación con Quarto.

La 2ª edición está reescrita sobre Quarto (no R Markdown) y reordenada: empieza por visualización para enganchar antes de meter sintaxis pesada, y desplaza los temas de modelado al libro complementario Tidy Modeling with R.

Para quién

Cualquiera que esté aprendiendo R desde un perfil de análisis de datos, biólogo, epidemiólogo, estudiante de grado. También útil como repaso para gente con experiencia en R base que quiera adoptar el tidyverse de forma sistemática.

Valor diferencial

Frente a libros tradicionales de R (Crawley, Dalgaard, Venables-Ripley), R4DS asume desde el primer capítulo el flujo de trabajo moderno: pipe nativo, tibbles, ggplot, reproducibilidad con Quarto. No pretende cubrir estadística clásica. Pretende enseñar a manipular y visualizar datos, que es lo que el 80% del trabajo real exige.

Frente a tutoriales sueltos online: aquí hay una progresión pensada, ejercicios graduados y, sobre todo, consistencia de estilo. La diferencia se nota al cabo de 200 páginas.

Enlaces

Relacionados en esta página

Advanced R, paso siguiente cuando ya dominas el tidyverse y quieres entender el lenguaje.
Tidy Modeling with R, continuación natural para la parte de modelado.
R Packages, para cuando empieces a empaquetar tu código.

Advanced R

Hadley Wickham, 2ª edición (2019), CRC Press. Disponible gratis en adv-r.hadley.nz. El libro que convierte a alguien que usa R en alguien que entiende R: tipos de vectores, sistemas de objetos (S3, S4, R6), entornos, non-standard evaluation, metaprogramación con rlang, functional programming, performance tuning.

Para quién

Quien lleva uno o dos años escribiendo R con soltura y empieza a chocar contra cosas raras: por qué [[ y [ no son lo mismo, por qué un closure recuerda variables, por qué <<- se comporta así. También obligatorio para quien vaya a escribir paquetes serios o usar tidy-evaluation.

Valor diferencial

No tiene competencia real. Es el libro sobre el lenguaje R (no sobre análisis de datos en R). Otros textos clásicos (The R Inferno de Burns, R Programming for Data Science de Peng) cubren partes, pero ninguno con la profundidad y la claridad pedagógica de Wickham. Si has llegado a un punto en que necesitas entender qué hace tu código por dentro, este es el libro.

Enlaces

Relacionados en esta página

R for Data Science, prerrequisito conceptual.
R Packages, siguiente paso natural. Gran parte de lo aprendido aquí se aplica al desarrollo de paquetes.

R Packages

Hadley Wickham & Jennifer Bryan, 2ª edición (2023), O’Reilly. Disponible gratis en r-pkgs.org. Manual definitivo para escribir paquetes R modernos: estructura, DESCRIPTION, NAMESPACE vía roxygen2, tests con testthat, vignettes, pkgdown, integración con GitHub Actions, publicación en CRAN.

Para quién

Cualquiera que escriba código R que va a usar más de una vez. La barrera de entrada al primer paquete personal es baja con usethis + devtools, y a partir de ese momento dejas de copiar funciones entre proyectos.

Valor diferencial

La 2ª edición está alineada con el ecosistema devtools + usethis + testthat 3e + pkgdown actual. Frente a la documentación oficial de R (Writing R Extensions), este libro es legible: parte del flujo real de desarrollo, no de la descripción formal del sistema de paquetes.

No hay alternativa seria. Para Bioconductor hay capas adicionales (clases S4, vignettes en formato BiocStyle, biocViews) que este libro no cubre, para eso hay que consultar la guía de Bioconductor directamente.

Enlaces

Relacionados en esta página

Advanced R, entender NSE y entornos ayuda mucho a escribir paquetes que usan tidy-evaluation.

Statistical Rethinking

Richard McElreath, 2ª edición (2020), CRC Press. El libro de inferencia bayesiana aplicada que ha redefinido la pedagogía del área en la última década. McElreath enseña a pensar en modelos generativos antes que en tests, y a usar Stan (vía rethinking o brms) como herramienta natural para ello.

Existe además el curso en vídeo (gratis, 2023) que sigue el libro capítulo a capítulo, uno de los mejores cursos online de estadística que hay.

Para quién

Quien quiere dejar de pegar tests por receta y empezar a construir modelos: epidemiólogos, ecólogos, bioinformáticos cuantitativos, científicos sociales con datos jerárquicos. Asume cálculo y probabilidad básica. No asume haber tocado bayesiana antes.

Valor diferencial

Frente a Gelman et al. (BDA3), la otra gran referencia bayesiana, McElreath es didáctico: cada concepto se introduce con un experimento mental concreto, código ejecutable y diagramas DAG. Gelman es referencia técnica. McElreath es libro de aprendizaje.

Frente a libros frecuentistas convencionales (Wasserman, Casella-Berger): cambia el paradigma. Es la mejor manera de internalizar el razonamiento bayesiano sin atragantarse en la primera página con teoría de la medida.

Enlaces

Relacionados en esta página

The Elements of Statistical Learning, complemento frecuentista profundo.
An Introduction to Statistical Learning, alternativa más ligera si quieres una primera pasada.

The Elements of Statistical Learning (ESL)

Trevor Hastie, Robert Tibshirani & Jerome Friedman, 2ª edición (2009, reimpresiones corregidas hasta 2017), Springer. PDF oficial gratuito en hastie.su.domains/ElemStatLearn. Referencia matemática profunda para aprendizaje supervisado y no supervisado: regresión lineal generalizada, splines, modelos aditivos, árboles, boosting, SVM, redes neuronales clásicas, clustering, random forests.

Para quién

Lectores con base sólida en álgebra lineal, cálculo multivariable y probabilidad. Doctorados, gente que va a hacer investigación en métodos, o profesionales que quieren entender por qué funciona cada algoritmo, no solo cómo aplicarlo.

Valor diferencial

Es el libro de referencia teórica del aprendizaje estadístico clásico. Ningún libro moderno de machine learning aplicado lo reemplaza: Bishop (PRML) lo complementa desde la óptica más probabilística, Murphy lo amplía con un foco más bayesiano y moderno, pero ESL sigue siendo la referencia central.

No es un libro para aprender a programar nada. Es para entender la matemática. Si quieres aplicación inmediata en código, ve a Hands-On ML o Tidy Modeling with R.

Enlaces

Relacionados en esta página

An Introduction to Statistical Learning, versión accesible de los mismos autores.
Pattern Recognition and Machine Learning, alternativa con enfoque probabilístico.
Statistical Rethinking, equivalente bayesiano.

An Introduction to Statistical Learning (ISL)

Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani & Jonathan Taylor, 2ª edición (2021), Springer. Versión Python desde la edición de 2023. PDF oficial gratuito en statlearning.com. Es la versión accesible de ESL: mismos autores, mismos temas, pero con menos matemática y con ejercicios prácticos en R (o Python según edición).

Para quién

Quien quiere una primera pasada sólida por el aprendizaje estadístico sin tragarse álgebra avanzada. Curso típico de grado o máster aplicado. También un excelente repaso autodidacta para profesionales que aprendieron ML en formato disperso.

Valor diferencial

Es probablemente el mejor primer libro de machine learning estructurado que existe. Equilibrio justo entre intuición, código y matemática. Los ejercicios al final de cada capítulo están bien diseñados y se resuelven en un fin de semana.

Frente a Hands-On ML (Géron): ISL es más estadístico, menos orientado a deep learning y producción. Géron te enseña a entrenar un modelo en Keras. ISL te enseña por qué un random forest descorrelaciona los árboles.

Enlaces

Relacionados en esta página

The Elements of Statistical Learning, paso siguiente cuando quieras la versión matemática completa.
Hands-On Machine Learning, alternativa más orientada a Python y producción.

Pattern Recognition and Machine Learning (PRML)

Christopher M. Bishop, 1ª edición (2006), Springer. PDF oficial gratuito desde 2024 en microsoft.com/en-us/research/people/cmbishop. El libro canónico del machine learning probabilístico: distribuciones, modelos lineales para regresión y clasificación, mixturas, EM, modelos gráficos, kernel methods, redes neuronales (en su forma clásica pre-deep-learning), HMMs.

Existe una 2ª edición anunciada como Deep Learning: Foundations and Concepts (Bishop & Bishop, 2024) que actualiza el material añadiendo la parte moderna de deep learning. Para 2026 esa segunda edición es probablemente la opción a comprar.

Para quién

Igual que ESL: gente con buena base matemática que quiere fundamentos. Imprescindible si vas a hacer investigación en modelos probabilísticos, modelado generativo, inferencia variacional, o cualquier cosa cercana al Bayesian deep learning.

Valor diferencial

PRML pone el énfasis en la inferencia bayesiana y el formalismo probabilístico desde el primer capítulo. ESL lo trata más por frecuencia/optimización. Son complementarios. Entre los dos cubren la práctica totalidad del ML clásico.

La nueva edición (Bishop & Bishop, Deep Learning: Foundations and Concepts) cierra el hueco que dejaba PRML al no cubrir deep learning moderno. Para alguien que empieza hoy, esa es probablemente la única versión que merece la pena comprar nueva.

Enlaces

Relacionados en esta página

The Elements of Statistical Learning, complemento desde la óptica frecuentista.
Statistical Rethinking, para llegar a la inferencia bayesiana por una ruta más intuitiva antes de atacar el formalismo de Bishop.

Hands-On Machine Learning

Aurélien Géron, 3ª edición (2022), O’Reilly. Título completo: Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. Manual eminentemente práctico: cada concepto va con código completo en Jupyter, datasets reales, pasos de despliegue.

Para quién

Quien quiere aprender ML aplicado en Python y llegar rápido a modelos funcionando, sin atragantarse antes con la matemática. Perfil ingeniero, científico de datos junior, persona que ya programa pero no ha hecho ML formal.

Valor diferencial

Es el libro práctico de ML en Python de la última década. La 3ª edición está actualizada a TensorFlow 2 / Keras moderno, incluye Transformers, fine-tuning de LLMs y un capítulo de despliegue. Es más completo que cualquier tutorial online que puedas encontrar gratis, y tiene la ventaja de pasar de regresión lineal a redes neuronales profundas con coherencia editorial.

Frente a ISL: Hands-On ML es código primero, intuición segunda, matemática cuando no queda más remedio. ISL es matemática primero, código después. Léelos en paralelo.

Frente a otros libros prácticos (Müller & Guido, Introduction to Machine Learning with Python): Géron cubre más, está más actualizado, y maneja deep learning a un nivel decente.

Enlaces

Relacionados en esta página

An Introduction to Statistical Learning, para entender la teoría que está debajo.
Tidy Modeling with R, el equivalente en R, con un enfoque metodológico más cuidado.
Python Data Science Handbook, prerrequisito si vienes sin background en NumPy/pandas.

Tidy Modeling with R

Max Kuhn & Julia Silge, 1ª edición (2022), O’Reilly. Disponible gratis en tmwr.org. Introducción al ecosistema tidymodels: parsnip (interfaz unificada de modelos), recipes (feature engineering), rsample (resampling), tune (hiperparámetros), workflows (composición), yardstick (métricas).

Sucesor conceptual del caret de Max Kuhn, tidymodels es la apuesta moderna del mismo autor, integrada con la filosofía y el estilo del tidyverse.

Para quién

Quien hace ML en R y quiere salir del boilerplate de caret o de scripts ad-hoc con glm + randomForest + xgboost. Investigadores aplicados, gente de bioestadística, analistas con flujos reproducibles.

Valor diferencial

No tiene competencia directa en R. caret está en modo mantenimiento. mlr3 es la otra opción seria pero con un estilo más OOP y menos tidy. Si ya escribes R en estilo tidyverse, tidymodels es el camino natural y este libro es la documentación pedagógica oficial.

Frente a Hands-On ML (Géron): mismo nicho (ML aplicado), distinto lenguaje. La principal diferencia editorial: Kuhn & Silge ponen mucho énfasis en metodología, resampling correcto, data leakage, target encoding bien hecho, más que en lista exhaustiva de algoritmos.

Enlaces

Relacionados en esta página

R for Data Science, prerrequisito del estilo tidyverse.
Hands-On Machine Learning, equivalente en Python.
An Introduction to Statistical Learning, base teórica.

Mastering Shiny

Hadley Wickham, 1ª edición (2021), O’Reilly. Disponible gratis en mastering-shiny.org. Manual canónico de Shiny: desde la primera app reactiva hasta arquitectura modular con shinyModules, testing, performance, despliegue.

Para quién

Cualquiera que vaya a escribir una aplicación Shiny seria, no una demo de tutorial, una app que va a estar viva un par de años y la van a usar varias personas. También útil como referencia cuando uno empieza a sentir que sus apps se le están yendo de las manos.

Valor diferencial

Es el único libro de Shiny realmente actualizado y bien escrito. Cubre la parte difícil de Shiny, el modelo reactivo, los módulos, las trampas de rendimiento, con la pedagogía habitual de Wickham. La documentación oficial de Shiny es decente, pero está pensada como referencia, no como aprendizaje.

Frente a tutoriales online sueltos: aquí hay arquitectura. La diferencia se nota cuando tu app pasa de 200 a 2000 líneas.

Enlaces

Relacionados en esta página

R for Data Science y Advanced R, prerrequisitos conceptuales.

Modern Statistics for Modern Biology

Susan Holmes & Wolfgang Huber, 1ª edición (2018), Cambridge University Press. Disponible gratis en web.stanford.edu/class/bios221/book. Libro de estadística aplicada a biología contemporánea, escrito por dos de las figuras centrales de Bioconductor: distribuciones, modelos lineales, high-throughput data, multivariante, redes, imagen, single-cell.

Para quién

Bioinformáticos, biólogos computacionales, estudiantes de doctorado en biología cuantitativa. Cualquiera que esté analizando datos -ómicos en R y se dé cuenta de que la estadística clásica del grado no le alcanza.

Valor diferencial

No tiene equivalente. La mayoría de libros de bioestadística siguen anclados en los años 90 (Rosner, Glantz, Altman): ANOVA, t-tests, regresión lineal. Este libro está construido alrededor de los datos que realmente se analizan hoy: matrices de expresión, ASVs, células individuales, imágenes. Y lo hace con código R completo y el ecosistema Bioconductor como base.

Es el libro que Huber escribió desde la trinchera, el mismo Huber que está detrás de DESeq2, MultiAssayExperiment y media docena de paquetes que aparecen en cualquier flujo de RNA-seq.

Enlaces

Relacionados en esta página

Computational Genomics with R, complemento más enfocado a pipelines concretos (RNA-seq, ChIP-seq, metilación).
Statistical Rethinking, para construir el lado bayesiano de la estadística.

Computational Genomics with R

Altuna Akalin, 1ª edición (2020), CRC Press. Disponible gratis en compgenomr.github.io/book. Libro orientado a workflows concretos en genómica computacional: lectura de datos, análisis exploratorio, clustering, RNA-seq (incluye DESeq2), ChIP-seq, datos de metilación, integración multi-ómica.

Para quién

Quien empieza a hacer análisis genómico en R y necesita un puente entre los tutoriales sueltos de cada paquete y un libro de fundamentos como Holmes & Huber. Más práctico, menos estadístico.

Valor diferencial

Cubre tipos de datos concretos (RNA-seq, ChIP-seq, BS-seq) con el flujo completo de cada uno. Modern Statistics for Modern Biology es más conceptual y más sólido estadísticamente. Computational Genomics with R es más cookbook.

Para una persona que llega de un máster de bioinformática y necesita ponerse a analizar datos ya, este es el atajo más decente. Léelo en paralelo a Holmes & Huber, no en sustitución.

Enlaces

Relacionados en esta página

Modern Statistics for Modern Biology, fundamentos estadísticos que conviene tener detrás.

Python Data Science Handbook

Jake VanderPlas, 2ª edición (2022), O’Reilly. Disponible gratis en jakevdp.github.io/PythonDataScienceHandbook. Manual de referencia del stack científico de Python para análisis de datos: IPython / Jupyter, NumPy, pandas, Matplotlib, scikit-learn.

Para quién

Quien viene de R y necesita aprender Python para análisis de datos sin perderse en tutoriales orientados a web development. También para gente de Python que aprendió pandas a base de Stack Overflow y quiere consolidar bases.

Valor diferencial

Es el libro de referencia para los cuatro paquetes pilares (NumPy, pandas, Matplotlib, scikit-learn). VanderPlas escribe con extrema claridad y la 2ª edición está actualizada al estado moderno de la API de pandas (incluye pandas ≥ 1.x, mucha method chaining).

Frente a Wes McKinney (Python for Data Analysis): McKinney es el autor original de pandas y su libro va más al detalle del paquete, pero VanderPlas integra mejor todo el stack. Para una primera lectura, VanderPlas. Para profundizar específicamente en pandas, McKinney.

Enlaces

Relacionados en esta página

Fluent Python, paso siguiente cuando el problema es Python en sí, no las librerías.
Hands-On Machine Learning, continuación natural para la parte de ML.

Fluent Python

Luciano Ramalho, 2ª edición (2022), O’Reilly. Libro sobre el lenguaje Python, no sobre librerías. Modelo de datos, secuencias y estructuras integradas, funciones como objetos, closures, decorators, concurrency (asyncio, threading, multiprocessing), metaclases, type hints modernos.

Es el equivalente de Python al Advanced R de Wickham: el libro que convierte a alguien que programa en Python en alguien que entiende Python.

Para quién

Quien lleva uno o dos años escribiendo Python con soltura y empieza a notar que su código es funcional pero no idiomático. Profesionales que van a escribir librerías Python, no solo scripts. También obligatorio para quien hace mucho trabajo con APIs asíncronas o con type hints serios.

Valor diferencial

No tiene competencia directa en su nivel. Otros libros buenos (Effective Python de Brett Slatkin, Python Cookbook de Beazley & Jones) cubren partes, pero ninguno con la profundidad y la cohesión narrativa de Ramalho.

La 2ª edición está actualizada a Python 3.10+ con type hints modernos (X | Y, TypeAlias, ParamSpec), match statements y la API moderna de asyncio. Si vas a leer un solo libro avanzado de Python en tu vida, este.

Enlaces

Relacionados en esta página

Python Data Science Handbook, prerrequisito si vienes sin background sólido en Python.