
¿Existe el análisis de datos?
El sobreentusiasmo con la IA ha llevado a muchos a creer que los datos contienen la respuesta a todo, y que si no la tienen, es solo cuestión de esperar; pero el análisis inocente puede conducir a dar la respuesta correcta a la pregunta equivocada
7 minutos de lectura'


El carnicero del barrio vende milanesas con una cantidad de ajo que bordea lo imprudente, como atestiguan los comentarios en el grupo de WhatsApp de vecinos. Inquirido al respecto, dice que “así les gusta a mis clientes”. Si, a los clientes a los que les gusta el ajo. La mayoría de los vecinos optamos por otras carnicerías, que venden milanesas con y sin condimentar, entre otras alternativas.
La pregunta que convoca esta anécdota es: ¿hasta qué punto tiene sentido analizar datos sin considerar el mecanismo que los produce? El carnicero observa los datos que tiene —los de sus clientes habituales—pero no ve (o no quiere ver) los de los vecinos que evitamos su establecimiento cual Dráculas barriales.
El sobreentusiasmo con la IA ha llevado a muchos a creer que los datos contienen la respuesta a todo, y que si no la tienen, es solo cuestión de esperar. Ciertamente, el análisis de datos es útil para detectar patrones o tendencias, pero cuando lo que interesa es lo que está detrás de los datos, el análisis inocente —el que se abstrae de indagar su origen— puede conducir a dar la respuesta correcta a la pregunta equivocada, acaso la más incorrecta de todas las respuestas.
Dejar de lado indagar en el origen de los datos atenta contra la verdadera promesa de la estadística: que más datos es mejor que menos. Peor aún Xiao Li Meng, director del departamento de estadística de la Universidad de Harvard, escribió un provocador artículo que muestra que sesgos ínfimos en el proceso de recolección de datos son dramáticamente amplificados por el tamaño de la muestra. O sea, en este contexto, más datos es peor, como acelerar a fondo luego de haberse subido a la autopista equivocada.
Un ejemplo ayudará a entender el punto de Meng. Supongamos una enorme olla de salsa y que un asistente tiene la tarea de agregar sal, probar y luego informar si está salada. Si, por vago, vuelca toda la sal en un solo sector de la olla, no revuelve y luego prueba con una ínfima cucharita de café justo en el lugar donde depositó la sal, concluirá que la salsa está muy salada. Consultado acerca de cuán seguro está de su conclusión, prueba ahora con una cuchara sopera, otra vez en la misma zona donde vació el paquete completo. Y así, con una muestra más grande, queda aún más convencido de lo que creía antes.
En este ejemplo, el tamaño de la muestra es el de la cuchara, y el de la población, el de la olla. Cuando la salsa está bien revuelta, la precisión de la conclusión —si la salsa está salada o no— depende pura y exclusivamente del tamaño de la cuchara: cuanto más grande, mayor seguridad. Pero en el contexto de una salsa mal revuelta, una cuchara más grande conduce a una conclusión más errada cuanto más grande es la olla. ¿Por qué? Porque se extrapola lo observado en una pequeña porción (sesgada) a un conjunto mayor: una cuchara más grande permitió meter la pata más a fondo; más datos —errados— jugaron en contra, no a favor.
Lejos de ser una charada intelectual, el hecho señalado por Meng —y rigurosamente documentado en su artículo— explica, en parte, por qué muchas encuestas “de big data” fracasan estrepitosamente. Meng muestra que, en las elecciones de Estados Unidos de 2016, una mínima subrepresentación de votantes de Trump alcanzó para provocar una caída dramática en la confiabilidad de las encuestas. Peor aún: esa caída fue mayor en los estados más poblados. De hecho, Meng observa que los únicos tres estados en los que las encuestas resultaron confiables fueron Hawái, Washington DC y Vermont, tres de los menos poblados del país. A este fenómeno lo denomina la paradoja de big data: ante la presencia de sesgos, “cuantos más datos, más nos autoengañamos”.
En otro artículo más reciente, publicado en la prestigiosísima Nature, Meng muestra que las encuestas online (como las de Facebook–Delphi) tuvieron serios problemas para monitorear la evolución del Covid-19, porque sobrerrepresentaban a adultos educados de raza blanca, a votantes demócratas y a la población urbana: precisamente, las subpoblaciones con tasas más altas de vacunación. Por el contrario, encuestas pequeñas pero muy bien diseñadas tuvieron un desempeño mucho mejor. Los números son dramáticos: Meng reporta que las 250.000 observaciones de la encuesta online de Facebook–Delphi contienen una cantidad de información equivalente a no más de 25 observaciones de un estudio científico realizado al azar; es una de David ganándole a Goliath.
Dicho de otra manera, el análisis inocente de los datos -el que se desentiende del mecanismo que los produjo- es un auténtico colador de sesgos, que más que mitigados resultan amplificados por la cantidad de datos.
Claramente, la cuestión de los sesgos no es un fenómeno específico de la reciente revolución de datos, sino que está en la esencia misma de la historia de la estadística. El 28 de enero de 1986, 73 segundos después del despegue, muchos vimos explotar el transbordador espacial Challenger en una fría mañana del estado de la Florida; todos sus tripulantes murieron, incluida la profesora de secundaria Christa McAuliffe, elegida entre más de 11.000 postulantes para integrar la misión. El principal candidato para explicar el accidente fue la bajísima temperatura de lanzamiento, que afectó el funcionamiento de unas juntas y desencadenó la explosión. Antes de ese vuelo, había habido 23 lanzamientos. Quizás en un intento de defenderse, los técnicos de la NASA mostraron un gráfico sugerente en el que se veía que, cuando hubo fallas, estas no parecían guardar relación alguna con la temperatura.
Como sospecharán, esta lógica no difiere en absoluto de la del carnicero que estudia solo a sus clientes. Cuando se observan todos los lanzamientos —tanto aquellos en los que hubo fallas como los que no— aparece algo evidente: los casos sin fallas se concentran en temperaturas altas, mientras que los fallidos ocurrieron en días fríos. Una vez más, el análisis de los datos “incorrectos” —o, mejor dicho, del recorte equivocado del fenómeno— conduce a una conclusión errónea.
El problema es que los sesgos no pueden estudiarse solo con datos, porque exigen información que proviene de fuera del fenómeno bajo análisis. Un algoritmo que predice que un CEO es necesariamente un varón se revela como sesgado únicamente a la luz de nuestro conocimiento —o, al menos, de nuestra creencia informada— de que esa afirmación es falsa, más allá de lo que muestren los datos. En esencia, el sesgo aparece en el cruce entre lo que dicen los datos y lo que conjeturamos que deberían decir. En otras palabras: mirando solo los disparos es imposible saber si un rifle es sesgado; el problema surge recién cuando se cotejan los disparos con el blanco.
Interesantemente, el análisis de datos que más promete —aquel que intenta revelar qué hay detrás de los datos, más allá de describirlos— termina mordiéndose la cola: exige mirar los datos y, al mismo tiempo, examinar los mecanismos que los producen. Detectar y corregir sesgos no es un problema puramente empírico, resuelto con más datos o mejores algoritmos; requiere una inteligencia más fina, capaz de interrogar al proceso que dio origen a la información.
Un seminario reciente organizado por el IIEP (UBA-Conicet), de la Facultad de Ciencias Económicas de la UBA, convocó a varios expertos (incluido el autor de esta nota) a discutir “el futuro de los datos y los indicadores”. La conclusión general fue contundente: el futuro exige un análisis de datos inteligente, muy por encima de la práctica casi deportiva de dejar que los algoritmos operen a su antojo.
A fin de cuentas, analizar datos sin estudiar simultáneamente los mecanismos que los generaron se parece a la vieja chanza de quien busca su billetera bajo un farol —y no donde la perdió— “porque acá hay mejor luz”.
El autor es economista. Profesor plenario de la Universidad de San Andrés






