Las encuestas políticas truchas y el club de los economistas que "p-hackean"
Una gran variedad de cálculos caprichosos son utilizados para forzar resultadosde trabajos académicos; la ciencia de hacer que los números digan lo que el autor quiere
Tres décadas atrás, un profesor de Economía tomaba exámenes de seis preguntas. Durante la prueba les advertía a los alumnos que tan sólo una seria corregida, elegida al azar luego de lanzar un dado en la reunión de cátedra previa a la corrección. Esto era parcialmente cierto, porque de hecho el académico tiraba el dado, pero lo hacía repetidamente hasta que salía el número de la pregunta que él quería que se corrija.
Algo vergonzosamente similar ocurre en muchas disciplinas empíricas (como la economía o la política), en donde, por ejemplo, se realizan varias encuestas y sólo se muestra la que da el resultado que uno quiere (cualquier semejanza con la realidad de las últimas mediciones previas a los comicios del domingo pasado es pura coincidencia).
Ahora, ¿qué significa que una encuesta "funcione"? Dos cosas. Una es que dé el resultado que uno quiere, más allá de que sea cierto o falso. Todo político enfrenta el dilema de que por un lado querría que las encuestas lo den como ganador, pero también que le digan la verdad. No hay mucho que la ciencia pueda hacer por esta cuestión, es un problema ético.
La otra es que la encuesta pase un mínimo estándar técnico para que sea confiable. Toda encuesta tiene un margen de error, atribuible a la naturaleza aleatoria del mecanismo que elige quién es encuestado y quién no. El trabajo de la estadística científica es justamente medir este error, de modo que la encuesta funciona si el así llamado "error estadístico" es pequeño. Por ejemplo, si una encuesta dice que Daniel Scioli tendrá el 35,2% de los votos y Mauricio Macri el 34,2%, a fines de concluir que la encuesta sugiere que Scioli ganará, el margen de error estadístico debería ser menor a uno por ciento. De no serlo, un analista honesto debería decir "si bien entre los encuestados Scioli aventaja a Macri, no es posible extrapolar estos resultados a la población". Pregunto aquí al lector si alguna vez vio un comentario por el estilo. Yo tampoco.
Entonces, si la barrera a saltear es la del margen de error estadístico, una trampa posible es realizar un montón de encuestas hasta que alguna, de chiripa, pase este umbral. ¿La misma trampa que la del dado del profesor del primer párrafo? Efectivamente. A esta práctica de "jorobar con los datos hasta que pase el estándar estadístico" se la llama p-hacking, en donde la "p" tiene que ver con el "valor-p", una técnica estadística usada y abusada ad-nauseam para medir estos márgenes de error.
Las disciplinas no experimentales como la economía son bastante proclives a esta práctica deportiva del p-hacking. Nate Silver es un famoso analista de datos -que pronosticó con altísima precisión las últimas elecciones presidenciales en Estados Unidos-, creador de Five Thirty Eight, un popular blog sobre estos temas en donde hace poco plantearon un interesantísimo juego, para advertirnos acerca de cuán fácil es p-hackear. El problema en cuestión consiste en ver si la presencia de demócratas en el poder favorece a la economía norteamericana.
A tal fin, los autores del blog crearon una aplicación online que contiene varias formas de medir la performance de una economía (crecimiento del PBI, inflación, desempleo, etc.) y también de cuantificar la presencia de demócratas en el poder (si el presidente es demócrata, la proporción de gobernadores demócratas, etc.). Cualquiera puede entrar a la aplicación y "jugar" eligiendo variables, que son utilizadas por el software para estimar un modelo estadístico. Una cuenta simple da que con las variables disponibles habría 1800 combinaciones posibles de modelos a estimar, de los cuales 1078 pasan el test del "valor p". Es decir, jorobando con el programita uno puede encontrar muy rápidamente una combinación de variables que pasa el estándar científico del p-valor y así justificar "científicamente" votar a los demócratas. O todo lo contrario, como le venga en gana.
Números y chequeos
El famoso "valor-p" es la herramienta más utilizada en ciencia para chequear si un resultado es estadísticamente significativo o no. A modo de ejemplo, toda vez que en los medios aparece alguna noticia pseudocientífica tal como "jugar a los videojuegos mejora la capacidad sexual", posiblemente se deba a que algún científico encontró que la diferencia en la performance sexual entre quienes juegan y quienes no pasa la barrera del "valor p". Lo que no resulta obvio es si se trata de un experimento honesto o de una "p-hackeada". Hace falta mucho más que mirar el valor-p para evaluar la calidad de un trabajo científico y el alcance de sus conclusiones.
Muy recientemente, la revista Basic and Applied Social Psychology generó un enorme revuelo en la ciencia: directamente prohibió el uso del valor-p en sus artículos.
Tan mayúsculo fue el escándalo que la Asociación Americana de Estadística (quizá la más importante del mundo) convocó urgentemente a un comité de doce expertos, que en breve se expedirá sobre el asunto.
Los críticos de la prohibición aducen que es el uso y no el abuso lo que causa problemas, remarcando que la ciencia y el conocimiento son los últimos lugares en donde uno querría prohibir prácticas.
Los que tienen una postura favorable argumentan que prohibiendo el valor-p eliminarían las actitudes tramposas de quienes "torturan datos hasta que confiesan" (como Ronald Coase, Nobel en Economía en 1991), forzándolos a presentar pruebas más sólidas acerca de si algo funciona o no.
Cuidado. P-hacking se refiere a la práctica de jugar con los datos hasta que el resultado pase el umbral del error estadístico. Obviamente existen cosas mucho peores que pueden hacerse para trampear con los datos, prácticas con nombres menos aparatosos, pero igual de nefastas.
Hay una clásica p-hackeada en el mercado de analistas económicos. Es posible convertirse en un analista certero (y en un "p-hacker", ¡que tanto!) en una semana, sin gimnasia, pastillas ni dietas. Envíe 1000 emails en donde en 500 dice que el dólar va a subir y en los restantes, que va a bajar. Fíjese si subió o bajo, suponga que subió. Ahora envíe emails a los 500 a quienes ayer les dijo que subió, y a 250 dígales que el dólar subirá y al resto que bajará. Siga con el jueguito. Al cabo de 5 días habrá (más o menos) 30 personas que dicen "que usted es un genio, que hace cinco días que viene pegándole al dólar". De nada.
El autor es profesor de la Universidad de San Andrés e investigadordel Conicet
Más leídas de Economía
“El problema es otro”. Está por formalizarse un anuncio de Caputo para el campo y siguen los reparos en una industria
Cambios en las tarjetas de crédito. Por decreto, aplican modificaciones en los resúmenes y los avisos al cliente
Inversiones. Cuál es el principal reclamo de las empresas extranjeras en la Argentina, según un ministro europeo