Etiquetas que no etiquetan
Dicen que las leyes son como los chorizos, mejor no saber cómo están hechos. Se podría decir lo mismo de los algoritmos. No queremos saber mucho de sus ingredientes pero son deliciosos. Los usamos sin pensarlo dos veces para tomar un camino rápido, leer noticias, ver qué comenta un amigo, comprar, y otra docena de tareas importantes o no. Algo es algo.
El problema es que, como la fruta de un árbol envenenado, un algoritmo que brota de datos problemáticos es indigerible. Con la comida lo tenemos claro: a nadie se le ocurre cocinar con ingredientes dudosos y esperar que salga bien. Pero en el terreno de los datos hay menos recetas y normas de asepsia que en una cuenta foodie de Instagram.
Los datos que alimentan los algoritmos pueden contener errores, voluntarios o no. Sesgos que provienen de la recolección de los datos y la forma en que fueron catalogados. Hay muchas historias de cómo este tipo de errores producen algoritmos disfuncionales. Una investigación de ProPublica mostró que el sistema informático de la justicia de Florida, en Estados Unidos, calificaba a los acusados negros como sospechosos de "alto riesgo" el doble de veces que a los blancos. Amazon discontinuó un sistema de selección de personal cuando descubrió que el software discriminaba a las mujeres porque tienden a incluir menos veces que los hombres palabras asertivas como "ejecuté" en sus curriculum.
Para intentar resolverlo, el programa Assembly -del MIT Media Lab y el Berkman Klein Center- buscó inspiración en las etiquetas nutricionales que ofrecen información sobre los ingredientes de los alimentos procesados que compramos. Estas etiquetas existen desde los 70 pero se volvieron obligatorias en Estados Unidos -y luego en otros países- con una ley (no un chorizo) de 1990. Se tardó tres años en implementarla. Las etiquetas son un tema muy político. Qué dicen y qué no, en qué tamaño, contra qué datos comparan lo que muestran, cuánto sirven para cambiar hábitos. Son temas de debate hasta hoy. Michelle Obama, por ejemplo, es considerada una "etiquetista" por haber impulsado una norma que obliga a los restaurantes a usar etiquetas.
Solemos pensar en las etiquetas como una fuente de información para los consumidores, y lo son. Pero también funcionan como un ejercicio de diagnóstico, que obliga al fabricante a hacerse y responder una serie de preguntas antes de poner un producto en nuestra boca. Eso mismo podría hacerse con los datos.
Los investigadores de Assembly esperan que sus etiquetas ayuden a los cientistas de datos a hacer las preguntas correctas antes de empezar, y a comparar conjuntos de datos para elegir los mejores. Es mucho más eficiente hacer eso al principio que descubrir los sesgos al final, cuando todo el trabajo de desarrollo quedó contaminado. A la vez, aprovecharon la fuerza iconográfica de las etiquetas nutricionales, reconocibles para todos. Y las adaptaron a un sistema modular, con secciones para la descripción básica de los datos -fecha de recolección, de publicación, tamaño, título, variables- hasta un primer análisis probabilístico. Las fechas son centrales. ¿Cuándo se fabricaron (reunieron) los datos? ¿Cuándo deberíamos considerarlos vencidos? Finalmente, los datos que contiene un algoritmo no son muy distintos a los ingredientes de un yogur. Mejor consumir antes de la fecha de caducidad.
*Directora de Sociopúblico
Temas
Más leídas de Economía
Minuto a minuto. ¿A cuánto cotizan el dólar oficial y el blue este viernes 2 de junio?
“República de Argenchina”. Anuncios millonarios, un saludo a Cristina y un ministro confiado en la crisis
"Basta de mafias". Horacio Rodríguez Larreta se refirió al caso de una pyme bloqueada y dijo qué hará si es presidente