Referentes

Personas y equipos que vale la pena seguir en R, Python y bioinformática

people

references

python

bioconductor

statistics

data-science

Referencia comentada de figuras clave del ecosistema R/Python/data science/bioinformática: qué aportan realmente, por qué seguirlas y dónde leerlas hoy.

Sobre referentes

Esta página cataloga personas, no paquetes, ni libros, ni cursos, cuyo trabajo continuado configura cómo se piensa y se escribe hoy en R, Python y análisis biomédico. La selección es deliberadamente estrecha: figuras con producción técnica sostenida, cuyo output (paquetes, libros, blogs, talks) sigue siendo útil para quien está en activo, no nombres históricos por inercia.

Se agrupan en cinco bloques que conviene distinguir:

R core y tidyverse (Posit). Quienes diseñan el lenguaje que casi todo el mundo usa cuando dice “R moderno”: Hadley Wickham, Yihui Xie, Jenny Bryan. Posit (antes RStudio) es el centro de gravedad práctico.
R aplicado: estadística y docencia. Personas que enseñan análisis real con R sin perder rigor: Julia Silge, Mine Çetinkaya-Rundel, Karl Broman, Hilary Parker.
Bioconductor. El núcleo del análisis ómico en R: Wolfgang Huber, Robert Gentleman, Aaron Lun, Stephanie Hicks, Rafael Irizarry. Cultura S4, release cycle propio, vignettes como documentación principal.
Estadística aplicada y bayesianos. Andrew Gelman, Richard McElreath: dos formas distintas de pensar en inferencia que merecen seguirse aunque trabajes lejos de su nicho.
Ecosistema Python. Wes McKinney, Jake VanderPlas, Sebastian Raschka, Allen Downey. Pandas, PyData, machine learning didáctico y estadística computacional.

El orden de la página refleja esa estructura: R core/tidyverse → R estadística aplicada/docencia → Bioconductor → bayesianos → Python. La intención no es exhaustividad sino mantener una lista corta de gente que sí merece ocupar espacio en tu lector de feeds.

Un apunte sobre redes: muchas de estas figuras se han movido de Twitter/X a BlueSky o Mastodon desde 2023. Donde la migración es clara se cita el handle nuevo. Cuando aún publican en X se mantiene también ese enlace, pero la conversación técnica en R y bioinformática vive ahora mayoritariamente fuera de X.

Hadley Wickham

Chief Scientist en Posit (antes RStudio) y, en la práctica, la persona con más influencia individual en cómo se programa en R hoy. Autor o coautor de ggplot2, dplyr, tidyr, purrr, readr, tibble, stringr, httr2, devtools, roxygen2, testthat y el resto del tidyverse. Libros canónicos: R for Data Science (con Garrett Grolemund y Mine Çetinkaya-Rundel), Advanced R, R Packages, Mastering Shiny, Tidy Modeling with R.

Más allá de los paquetes, su contribución duradera es metodológica: la idea de diseño de APIs consistentes (verbos, pipes, non-standard evaluation domesticada) que el resto del ecosistema ha terminado adoptando.

Por qué seguirlo

Sus libros son la referencia por defecto para empezar y para profundizar, Advanced R sigue siendo el mejor texto sobre el funcionamiento interno del lenguaje.
Cuando publica un nuevo paquete o redesigna uno existente (p. ej. httr2, rlang), suele marcar la dirección que el resto del tidyverse adoptará en los 12-24 meses siguientes.
Sus keynotes en posit::conf son la mejor radiografía anual del estado de R.

Dónde encontrarle

Sitio personal: hadley.nz
GitHub: github.com/hadley
Mastodon: @hadleywickham@mastodon.social
X: @hadleywickham

Relacionados en esta página

Yihui Xie, la otra mitad de la infraestructura moderna de R en Posit.
Jenny Bryan, colega en Posit, autoridad en proyectos y Git con R.
Julia Silge, desarrollo y docencia de tidymodels.

Yihui Xie

Software engineer en Posit. Autor de la infraestructura que sostiene casi todo lo que se publica desde R: knitr, rmarkdown, bookdown, blogdown, xaringan, pagedown, tinytex. Quarto, el sucesor de R Markdown, hereda directamente su arquitectura.

Su impacto es estructural: si hoy se puede escribir un libro, una tesis, un blog, una presentación o un paper reproducible desde R con una sola fuente, es por la cadena de paquetes que él diseñó.

Por qué seguirlo

Cualquier discusión seria sobre literate programming o documentos reproducibles en R pasa por su trabajo.
Su blog técnico es un caso raro de ingeniero senior que documenta decisiones de diseño y trade-offs internos de sus paquetes en lenguaje accesible.
Mantiene tinytex, la forma más sensata de gestionar LaTeX desde R sin instalar una distribución completa.

Dónde encontrarle

Sitio personal y blog: yihui.org
GitHub: github.com/yihui
X: @xieyihui

Relacionados en esta página

Hadley Wickham, colega en Posit. Juntos definen el stack moderno.
Mine Çetinkaya-Rundel, usa intensamente Quarto para docencia.

Jenny Bryan

Software engineer en Posit y profesora afiliada en UBC. Voz de referencia sobre gestión de proyectos, Git/GitHub e ingeniería de software aplicada a ciencia de datos en R. Autora de googlesheets4, googledrive, readxl, gargle, usethis (con Hadley) y gh. Su charla Naming things y el libro Happy Git and GitHub for the useR son lectura obligatoria.

A diferencia de quienes producen sobre todo paquetes nuevos, su aportación es de higiene profesional: cómo organizar un proyecto, cómo nombrar archivos, cómo no romper la reproducibilidad con rutas absolutas, cuándo y cómo usar Git desde RStudio.

Por qué seguirla

Reduce drásticamente los problemas tontos que ralentizan a cualquiera que trabaje con R en serio (rutas, encodings, Git, autenticación con APIs de Google).
Sus talks sobre estructura de proyecto y workflow son material de onboarding ideal para gente nueva en el equipo.
usethis ha cambiado cómo se empieza un paquete o un análisis nuevo en R.

Dónde encontrarla

Sitio personal: jennybryan.org
Happy Git and GitHub for the useR: happygitwithr.com
GitHub: github.com/jennybc
Mastodon: @jennybryan@mastodon.social

Relacionados en esta página

Hadley Wickham, coautora de usethis y devtools.
Karl Broman, comparte enfoque sobre buenas prácticas y reproducibilidad.

Julia Silge

Software engineer en Posit, parte del equipo de tidymodels. Coautora con David Robinson de tidytext y del libro Text Mining with R. Coautora de Tidy Modeling with R (con Max Kuhn). Mantiene un blog técnico con análisis semanales que son a la vez tutoriales aplicados y demos del estado actual de tidymodels.

Su valor es combinar producción de paquetes (tidymodels, tidytext) con divulgación práctica continuada: cada entrada de blog suele resolver un problema real con código completo y datos abiertos.

Por qué seguirla

La forma más directa de estar al día con tidymodels (el framework de modelado del tidyverse) es leer su blog y verla aplicarlo a casos nuevos cada semana.
Sus screencasts y posts cubren workflow completo: preprocesamiento, tuning, evaluación, interpretación.
Buena puerta de entrada al text mining desde R.

Dónde encontrarla

Sitio personal y blog: juliasilge.com
Tidy Modeling with R: tmwr.org
GitHub: github.com/juliasilge
Mastodon: @juliasilge@fosstodon.org

Relacionados en esta página

Hadley Wickham, tidymodels es la rama de modelado del tidyverse.
Mine Çetinkaya-Rundel, comparten orientación docente con R.

Mine Çetinkaya-Rundel

Profesora en Duke University y Developer Educator en Posit. Coautora de la segunda edición de R for Data Science (con Hadley Wickham y Garrett Grolemund) y de varios libros abiertos de estadística introductoria (OpenIntro Statistics).

Su trabajo se centra en cómo enseñar análisis de datos con R de forma honesta: integración temprana de Quarto, Git y reproducibilidad en cursos universitarios. case studies en lugar de toy datasets. Énfasis en comunicación de resultados.

Por qué seguirla

Si vas a enseñar R o data science (en cualquier contexto, no solo universitario), su material es el punto de partida más sólido que existe en abierto.
Sus talks sobre diseño de cursos y evaluación son aplicables fuera de la academia.
Mantiene los proyectos OpenIntro, una de las pocas alternativas abiertas y de calidad a los manuales comerciales de estadística introductoria.

Dónde encontrarla

Sitio personal: mine-cr.com
OpenIntro: openintro.org
GitHub: github.com/mine-cetinkaya-rundel
Mastodon: @minecr@fosstodon.org

Relacionados en esta página

Hadley Wickham, coautora en R for Data Science (2e).
Julia Silge, colegas en Posit, ambas trabajan en didáctica aplicada.

Karl Broman

Profesor en University of Wisconsin-Madison. Bioestadístico y genetista cuantitativo, autor de qtl y qtl2 para análisis de QTL en cruces experimentales. Más allá de la genética, su producción didáctica sobre organización de proyectos, reproducibilidad y honestidad técnica circula muy por encima de su campo nominal.

Por qué seguirlo

Su talk Steps toward reproducible research y sus guías sobre organización de archivos (data organization in spreadsheets) son lectura básica para cualquier persona que toque datos en investigación.
Estilo seco, técnicamente sólido, sin sobreproducción: justo lo que falta en buena parte de la divulgación.
Sus cursos online de R/Make/Git son material limpio y de larga vida útil.

Dónde encontrarle

Sitio personal: kbroman.org
GitHub: github.com/kbroman
Mastodon: @kbroman@genomic.social

Relacionados en esta página

Jenny Bryan, orientación similar sobre proyectos y Git.
Rafael Irizarry, bioestadística aplicada con énfasis docente.

Hilary Parker

Data scientist y estadística aplicada. Antes en Stitch Fix, ahora consultora independiente, cofundadora del podcast Not So Standard Deviations (con Roger Peng). Conocida por el post original Writing an R Package from Scratch, que durante años fue la forma en que mucha gente empezó a escribir paquetes.

Por qué seguirla

Voz reflexiva sobre el rol del data scientist en la industria, qué decisiones merece la pena tomar con datos y cuáles no.
Not So Standard Deviations es uno de los pocos podcasts en activo que discute la práctica real (no la teoría) del análisis de datos.
Su escritura es escasa pero precisa. Cuando publica, suele valer la pena.

Dónde encontrarla

Relacionados en esta página

Andrew Gelman, comparten orientación sobre la práctica estadística real.

Wolfgang Huber

Group leader en EMBL Heidelberg y uno de los cofundadores de Bioconductor. Coautor de DESeq / DESeq2 (con Michael Love y Simon Anders), vsn, EBImage y de la línea de paquetes de análisis estadístico genómico que define el ecosistema. Coautor del libro de referencia Modern Statistics for Modern Biology (con Susan Holmes), uno de los pocos textos que cubre estadística aplicada a biología desde R sin diluir el rigor.

Por qué seguirlo

Cualquier discusión técnica seria sobre RNA-seq pasa por DESeq2 y, por tanto, por su trabajo.
Modern Statistics for Modern Biology es probablemente el mejor texto único para alguien que viene de biología y necesita estadística aplicada con R y Bioconductor.
Sus talks y papers metodológicos son una de las pocas fuentes que combina cuidado estadístico y conocimiento profundo del dominio biológico.

Dónde encontrarle

Página del grupo en EMBL: huber.embl.de
Modern Statistics for Modern Biology: web.stanford.edu/class/bios221/book
GitHub: github.com/wolfganghuber
Bluesky: @wolfganghuber.bsky.social

Relacionados en esta página

Robert Gentleman, cofundador de Bioconductor.
Aaron Lun, referencia técnica para single-cell en Bioconductor.
Rafael Irizarry, bioestadística aplicada en el ecosistema Bioconductor.

Robert Gentleman

Cocreador del lenguaje R (con Ross Ihaka, en Auckland) y cofundador de Bioconductor. Ha ocupado posiciones de liderazgo en Genentech, 23andMe y actualmente dirige el Center for Computational Biomedicine en Harvard Medical School.

Su trabajo definió dos cosas que damos por sentadas: que el lenguaje estadístico de referencia fuese abierto (R), y que el análisis genómico tuviera un ecosistema coherente sobre ese lenguaje (Bioconductor). Es figura más institucional que prolífica en output diario, pero sigue activo en investigación traslacional.

Por qué seguirlo

Cuando publica o habla en público, suele tratar la estructura del campo: cómo se organiza la biomedicina computacional, qué incentivos faltan, qué infraestructura hace falta. Lectura útil más allá de lo técnico.
Contexto histórico imprescindible para entender por qué Bioconductor opera como opera (S4, release cycle, vignettes, gobernanza).

Dónde encontrarle

Página institucional en Harvard: hms.harvard.edu/faculty-staff/robert-gentleman
Google Scholar: scholar.google.com/citations?user=Mb_ZxJoAAAAJ

Relacionados en esta página

Wolfgang Huber, cofundador de Bioconductor.
Rafael Irizarry, figura central de Bioconductor en estadística genómica.

Aaron Lun

Bioinformático e investigador, conocido como el arquitecto técnico de buena parte del stack de single-cell en Bioconductor. Autor o coautor de SingleCellExperiment, scran, scater, DropletUtils, edgeR (mantenimiento moderno) y del libro abierto Orchestrating Single-Cell Analysis with Bioconductor (OSCA).

Por qué seguirlo

OSCA es la referencia más actualizada y completa para análisis de single-cell con R/Bioconductor. Cubre QC, normalización, clustering, integración, anotación, differential abundance.
Sus discusiones técnicas (en GitHub issues y en el libro) son una clase magistral sobre cómo razonar sobre normalización, batch effects y shrinkage en datos ruidosos.
Estilo directo, opiniones técnicas claras, poca tolerancia con el ritual sin fundamento.

Dónde encontrarle

OSCA, Orchestrating Single-Cell Analysis: bioconductor.org/books/release/OSCA
GitHub: github.com/LTLA

Relacionados en esta página

Wolfgang Huber, coautores en edgeR y figuras centrales de Bioconductor.
Stephanie Hicks, single-cell y normalización en Bioconductor.

Stephanie Hicks

Profesora en Johns Hopkins (Department of Biostatistics). Trabaja en métodos estadísticos para genómica, con énfasis en single-cell, spatial transcriptomics y normalización. Coautora de paquetes Bioconductor (scry, mbkmeans, nullranges) y colaboradora habitual del grupo de Rafael Irizarry.

Por qué seguirla

Investigación metodológica activa en los problemas estadísticos abiertos del single-cell, la lista de cosas que la comunidad aún no resuelve bien.
Buena divulgadora. Sus talks y cursos abiertos sobre single-cell con Bioconductor son material útil para subir el nivel desde tutorial básico a análisis defendible.

Dónde encontrarla

Relacionados en esta página

Aaron Lun, single-cell desde la rama de infraestructura.
Rafael Irizarry, colaborador frecuente y mentor académico.

Rafael Irizarry

Profesor en Harvard / Dana-Farber. Bioestadístico, autor de métodos clásicos de normalización de microarrays (RMA, en su día) y de la línea de paquetes de Affymetrix que sostuvo el campo durante años. Autor del libro abierto Introduction to Data Science (versión R y versión Python).

Por qué seguirlo

Figura puente entre la estadística clásica y la genómica aplicada. Sus talks sobre interpretación de resultados, batch effects y reproducibilidad en biomedicina son material formativo de primer nivel.
Introduction to Data Science es uno de los textos abiertos más sólidos para enseñar análisis con R desde cero hasta inferencia.
Su blog Simply Statistics (con Roger Peng y Jeff Leek) marcó durante una década el tono crítico sobre cómo se hace ciencia con datos.

Dónde encontrarle

Sitio personal: rafalab.dfci.harvard.edu
Introduction to Data Science: rafalab.dfci.harvard.edu/dsbook
Blog: simplystatistics.org
GitHub: github.com/rafalab
Mastodon: @rafalab@genomic.social

Relacionados en esta página

Wolfgang Huber, interlocutores naturales en Bioconductor.
Stephanie Hicks, colaboradora habitual.
Karl Broman, bioestadística aplicada con énfasis docente.

Andrew Gelman

Profesor en Columbia University, estadístico bayesiano y referencia internacional en inferencia aplicada. Coautor de Bayesian Data Analysis (BDA3), Regression and Other Stories y Statistical Rethinking (no, este último es de McElreath, pero ambos comparten audiencia). Lidera el desarrollo conceptual de Stan, el motor de inferencia bayesiana.

Su blog, Statistical Modeling, Causal Inference, and Social Science, lleva activo más de quince años y es probablemente la mejor fuente diaria de crítica honesta de la práctica estadística publicada.

Por qué seguirlo

Su blog combina crítica metodológica de papers reales, debate público con autores, y reflexión sobre por qué la estadística aplicada se rompe en la práctica. Pocos sitios igualan esa densidad de pensamiento útil.
Regression and Other Stories es probablemente el mejor manual moderno de regresión aplicada, antes que recurrir a la nostalgia de los textos de los 90.
Sus opiniones sobre p-values, significance testing y garden of forking paths han redefinido cómo se discute la replicabilidad en ciencias sociales y biomédicas.

Dónde encontrarle

Blog: statmodeling.stat.columbia.edu
Página personal: stat.columbia.edu/~gelman
Stan: mc-stan.org

Relacionados en esta página

Richard McElreath, otra puerta de entrada al pensamiento bayesiano.
Hilary Parker, comparte preocupación por la práctica estadística aplicada.

Richard McElreath

Director en el Max Planck Institute for Evolutionary Anthropology, Leipzig. Autor de Statistical Rethinking, probablemente el mejor libro existente para aprender estadística bayesiana aplicada partiendo de cero pero sin diluir el rigor. Mantiene los paquetes rethinking (R) y soporte para Stan / brms.

Sus lectures (todas en YouTube, dos versiones del curso completo accesibles en abierto) son material formativo de altísimo nivel.

Por qué seguirlo

Statistical Rethinking y sus lectures son la vía recomendada para alguien que quiere entender inferencia bayesiana sin pasar por BDA3 primero.
Su enfoque combina filosofía de la ciencia, modelos causales (DAGs) y código real con Stan / brms. No es un libro de fórmulas. Es un libro de cómo pensar.
Estilo didáctico excelente, opinión técnica clara, sin condescendencia.

Dónde encontrarle

Sitio personal: xcelab.net/rm
Statistical Rethinking (lectures): github.com/rmcelreath/stat_rethinking_2024
GitHub: github.com/rmcelreath
Bluesky: @rlmcelreath.bsky.social

Relacionados en esta página

Andrew Gelman, la otra referencia obligada en estadística bayesiana aplicada.

Wes McKinney

Creador de pandas y autor de Python for Data Analysis (3ª edición). Cofundador de Voltron Data, contribuidor central de Apache Arrow y del ecosistema de formatos columnares (Parquet, Feather). Una de las figuras que definen cómo se manipulan datos tabulares en Python hoy.

Por qué seguirlo

Python for Data Analysis sigue siendo el manual de referencia para pandas. Cada edición se actualiza al estado real de la librería.
Su trabajo en Arrow está rediseñando la capa de intercambio de datos entre lenguajes (Python, R, Java, Rust). Las consecuencias prácticas se verán los próximos años, vale la pena anticiparlas.
Voz técnica reflexiva sobre el trade-off histórico de pandas y la dirección del ecosistema (Polars, DuckDB, dataframes lazy).

Dónde encontrarle

Sitio personal: wesmckinney.com
Python for Data Analysis: wesmckinney.com/book
GitHub: github.com/wesm
Mastodon: @wesmckinn@mastodon.social

Relacionados en esta página

Jake VanderPlas, referencia paralela en el PyData stack.
Hadley Wickham, contraparte en R. Comparten preguntas sobre diseño de APIs tabulares.

Jake VanderPlas

Software engineer en Google, antes en la Universidad de Washington. Autor de Python Data Science Handbook y A Whirlwind Tour of Python. Contribuidor central a scikit-learn, AstroPy y desarrollador principal de Altair (visualización declarativa basada en Vega-Lite).

Por qué seguirlo

Python Data Science Handbook es probablemente el mejor texto único para alguien que tiene base de programación y quiere subir el nivel en NumPy, pandas, scikit-learn y matplotlib sin perderse en detalles.
Altair representa la apuesta más interesante por una gramática de visualización declarativa en Python (equivalente conceptual a ggplot2).
Sus talks sobre rendimiento de Python (Losing Your Loops) y sobre por qué la sintaxis matters son referencia recurrente.

Dónde encontrarle

Blog: jakevdp.github.io
Python Data Science Handbook: jakevdp.github.io/PythonDataScienceHandbook
GitHub: github.com/jakevdp

Relacionados en esta página

Wes McKinney, el otro pilar del PyData stack.
Sebastian Raschka, machine learning aplicado con Python.

Sebastian Raschka

Staff Research Engineer en Lightning AI (antes profesor en Wisconsin-Madison). Autor de Python Machine Learning, Machine Learning with PyTorch and Scikit-Learn y Build a Large Language Model (From Scratch). Mantiene mlxtend y publica regularmente contenido sobre estado del arte en deep learning aplicado.

Por qué seguirlo

Sus libros son de los pocos textos sobre ML que combinan profundidad técnica y código real ejecutable sin recurrir al estilo tutorial. El más reciente, sobre construir un LLM desde cero, es el mejor recurso publicado para entender qué hace internamente un modelo tipo GPT.
Su newsletter Ahead of AI es uno de los pocos sitios donde se discute deep learning aplicado con criterio técnico, sin hype.
Estilo pedagógico cuidado, mucha consistencia entre figuras, código y explicación.

Dónde encontrarle

Sitio personal: sebastianraschka.com
Newsletter: magazine.sebastianraschka.com
GitHub: github.com/rasbt
Bluesky: @rasbt.bsky.social
X: @rasbt

Relacionados en esta página

Jake VanderPlas, fundamentos del PyData stack sobre los que apoya su trabajo.
Allen Downey, divulgación técnica con Python con orientación complementaria.

Allen Downey

Profesor (emérito) en Olin College of Engineering y Curriculum Designer en Brilliant. Autor de la serie Think… (Think Python, Think Stats, Think Bayes, Think Complexity, Think DSP), publicada íntegramente en abierto y reescrita varias veces a lo largo de los años.

Su trabajo es probablemente la mejor demostración existente de que se puede enseñar estadística aplicada, métodos bayesianos, procesamiento de señales y sistemas complejos desde Python sin sacrificar profundidad, pero con código corto, ejemplos honestos y prosa clara.

Por qué seguirlo

Think Bayes es una vía de entrada al pensamiento bayesiano radicalmente distinta a la de McElreath o Gelman: más computacional, menos teórica. Útil como complemento, no como sustituto.
Think Stats sustituye con dignidad al manual introductorio de estadística para quien viene de programación en lugar de matemáticas.
Su blog Probably Overthinking It (y el libro homónimo) discute paradojas estadísticas reales con código.

Dónde encontrarle

Relacionados en esta página

Sebastian Raschka, divulgación técnica con Python desde un ángulo más ML-céntrico.
Andrew Gelman y Richard McElreath, bayesianismo desde otras tradiciones.