Por qué los economistas llegaron tarde al big data
Como esta tecnología ofrece un gran volumen de datos, pero poca información sobre un aspecto particular, se demoró su adopción
"Cuando tenés un martillo todos los problemas se parecen a un clavo", reza la así llamada ley del instrumento, enunciada por el filósofo americano Abraham Maslow allá por los sesenta en relación a la sobreconfianza en una herramienta, ya sea porque el analista invirtió demasiado en ella o porque está de moda. Y si de modas se trata, de ser big data un martillo estaríamos creyendo nadar en un océano de clavos.
La ciencia sombría parece ser una excepción a esta tendencia: llama poderosamente la atención que sólo recientemente las ideas de big data hayan invadido los dominios de la disciplina de Smith y Ricardo. Raro para una rama afín a las tecnologías y los números. Veamos por qué.
Big data se refiere a la masividad de datos producidos por las interacciones electrónicas asociadas a circunstancias mundanas como el uso de teléfonos celulares, las transacciones online o las provenientes de las redes sociales.
La mera idea de "big" remite a muchos datos, pero los desafíos y problemas de esta nueva tecnología se relacionan con otras cuestiones que van más allá de la masividad. En las antípodas del big data parece estar el small data, idea asociada a la tradición de la estadística clásica, la de las encuestas de opinión, los sondeos de mercado o los análisis de laboratorio. A la luz de los -hasta hace poco- elevados costos de relevamiento, el desafío (mayormente de posguerra) consistió en recabar la menor cantidad de datos que permitiese hablar confiadamente sobre una población de referencia. La respuesta científica a este problema consistió en estructurar los datos, es decir, en indagar la realidad en forma sistemática de modo que unas pocas observaciones contuviesen suficiente información sobre una población de interés.
Las encuestas estructuradas son un claro ejemplo de esta estrategia: un cuidadoso diseño muestral permite aprender acerca de la población a través de pocos datos. A modo de ejemplo, la Encuesta Permanente de Hogares (EPH), elaborada por el Indec, es la principal fuente de información social del país, y cifras cruciales y polémicas como el desempleo o la pobreza se calculan sobre la base de ella. Muchos se sorprenden de que, a fin de dar cuenta de los casi tres millones de hogares del Gran Buenos Aires, sólo se encuesten 3000. Interesantemente, la proporción de hogares entrevistados no es muy diferente de la de sangre extraída para un análisis clínico en relación al total que circula por el cuerpo humano.
Consecuentemente, la información proveniente de las fuentes clásicas no es simplemente de pocos datos, sino de datos cuidadosamente estructurados para representar en forma adecuada una población relevante. Pocos datos, pero buenos y disciplinados.
Desde esta perspectiva, big data no es sólo más datos del tipo de los que ya había, sino un diluvio de datos sin estructura. Y justamente sus enormes desafíos se relacionan con suplir esta falta de estructura, y su contraindicación es creer que más es necesariamente mejor. A modo de ejemplo, usando técnicas de posicionamiento geográfico podríamos recabar información milimétrica de los usuarios de una autopista (el tipo de autos utilizados, el uso en horarios pico o el número de ocupantes, por nombrar algunos), pero muy posiblemente a fines de la política pública la información crucial sea la de los que no la usan. Big data puede proveer mucho de lo primero y nada de lo segundo, relativizando la relevancia de contar con muchos datos, en el sentido de que "no hay mucho de meritorio en salir corriendo en la dirección incorrecta", como decía Arthur Schopenhauer, el gran filósofo alemán.
Y por esta razón los economistas tardaron en abrazar la tecnología de big data. La irrupción del fenómeno se dio justo cuando el interés metodológico de la profesión estaba puesto en otros problemas. En términos de la analogía del comienzo de esta nota, los economistas estaban muy preocupados con tornillos y tuercas cuando alguien apareció con el martillo de big data.
El grueso de la economía empírica de los últimos veinte años se dedicó a evitar la falacia de la correlación, es decir, a no caer en la banalidad de fomentar el uso de paraguas a fin de resolver una sequía sobre la base de la mera observación de que siempre que la gente anda con paraguas llueve. Para eso, la así llamada "revolución de credibilidad" en economía priorizó el uso de datos experimentales, o sea, de datos provenientes de experimentos apropiadamente diseñados en donde, por ejemplo, un plan de entrenamiento laboral es administrado al azar a un grupo de individuos y no a otro, de modo que la diferencia de performances se deba al entrenamiento y no a otra cosa, tal como lo haría un médico probando la eficacia de una droga. Esta forma creíble de generar y analizar datos derivó en un plan sistemático de "evaluaciones de impacto": dotar a las políticas públicas de una evaluación cuasi experimental que permita aislar y juzgar su efectividad.
Este tipo de razonamiento ocupó una buena parte de la literatura académica y de la política pública de los últimos 20 años, priorizando disponer de unos pocos datos apropiadamente obtenidos (preferentemente a través de un experimento) por sobre muchos datos anárquicos. Consecuentemente, el problema que preocupó a los economistas no era que había pocos datos, sino que eran datos malos: se trataba de datos que no provenían de ningún experimento, sino de la mera observación, como los de los paraguas y la lluvia, y como los que promete big data copiosamente. Esta reticencia a confiar ciegamente en los datos explica por qué los economistas entraron tarde al juego de la minería de datos.
Así, la ciencia sombría no se ha quedado afuera del carro de moda, sino que sólo en forma reciente le ha perdido el miedo. A modo de ejemplo, un artículo de Alberto Cavallo y Roberto Rigobon, ambos del prestigioso MIT, ilustra sobre la conveniencia de construir índices de precios sobre la base de técnicas de scraping, es decir, "chupando" precios de sitios de venta online. Los más optimistas creerían que el índice de precios oficial podría ser rápidamente reemplazado por robots computacionales que toman información de Internet. Los más cautos señalan sus limitaciones, empezando porque los métodos de scraping se focalizan sólo en alimentos u otros objetos que se pueden comprar online, sesgando la muestra. O el hecho de que una buena parte de los movimientos del índice se relaciona con los bienes tarifados, que trivialmente no son captables a través de plataformas online, entre otras dificultades.
Otro ejemplo relevante lo constituye un trabajo recientemente publicado en la prestigiosa revista Science, que según una pequeña encuesta de bienestar en Ruanda construye un modelo para medir la pobreza sobre la base de la intensidad de uso de teléfonos celulares. Es decir, la tecnología permite medir espacial y temporalmente la pobreza en un país acuciado por este flagelo, y en donde por sus características geográficas e institucionales resulta impensable una estrategia sistemática similar a la de nuestra EPH.
El año que finaliza estuvo marcado por un sinfín de congresos y conferencias en donde la temática de big data fue central. La economía parece dar el brazo a torcer, en forma acorde con la mayoría de las disciplinas que ya abrieron sus compuertas a los datos masivos. A modo de ejemplo, el prestigioso National Bureau of Economic Research americano dio un espacio considerable a la temática de big data y algo similar ocurrió con la agenda de todas las reuniones científicas locales.
El futuro parece haber llegado hace rato, como prometía el Indio Solari. Y, en relación a big data, sólo el futuro dirá si el diluvio de datos traerá cambios radicales en la forma en la que los economistas perciben la realidad, similares a los aportados por los experimentos y las evaluaciones de impacto en los últimos veinte años.
Como siempre, se trata de proceder con cautela. Subirse al tren de big data porque está de moda es tan necio como no hacerlo por la misma razón, y es crucial sopesar sus ventajas y desventajas. No vaya a ser que resulte cierto que estemos intentando clavar clavos con ojotas o martillando tornillos.
El autor es profesor de la Udesa e investigador principal del Conicet