Diccionario español-algoritmo y otros consejos para hablar con la IA
No hay nada peor que los botones de un despertador eléctrico: son muchos, equívocos, no se sabe cómo pasar de AM a PM, y para cambiar la alarma tenés que apretar el mismo botón unas 10 o 20 veces, lo que hace que siempre te pases de largo y vuelvas a empezar. En su libro El sentido del estilo, el gran lingüista Steven Pinker lo considera la peor interfaz de la historia.
Los despertadores están siendo reemplazados por celulares, mucho más preparados para facilitar la interacción con nosotros. Pero los problemas de comunicación con las máquinas persisten. Ahora los tenemos con la inteligencia artificial.
Aunque la IA se jacte de procesar “lenguaje natural”, hablarle a los algoritmos no es nada natural. En los últimos meses, con el lanzamiento de DALL-E 2 y otros servicios que crean imágenes a partir de nuestras indicaciones, aparecieron también manuales para hablarles. Una especie de diccionario bilingüe español-algoritmo.
Todos estos algoritmos se consideran fruto del “aprendizaje profundo”. Se alimentaron de todo el acervo digital que guarda internet. No fueron entrenados específicamente para generar ciertos resultados, ni a partir de ciertos temas. Son cajas negras. No sabemos bien cómo reaccionan a nuestras palabras o por qué
Estas guías hablan de prompt engineering: una ingeniería de las consignas que damos, en busca de mejores resultados. Prompt se puede traducir como indicación pero también es lo que el apuntador le sopla al actor. Los bots todavía nos necesitan.
Algunos consejos para dirigirnos a los algoritmos que crean imágenes son bien prácticos. Por ejemplo, contra la tentación de usar un lenguaje tosco y escueto, recomiendan extenderse y aportar detalles: definir la iluminación, colores, contexto y ángulo que buscamos. Esto no solo nos dará una imagen más parecida a la que queremos, sino también más original. Desde que se lanzó DALL-E 2, en pocos meses, proliferaron las imágenes inspiradas en Van Gogh, Picasso y otros artistas célebres. Uno de los manuales recomienda evitar el lugar común en nuestras referencias. Es mejor enumerar las características de la obra del pintor deseado, una a una, para lograr una imagen que subliminalmente recuerde al artista pero se diferencie de las producciones más populares. Incluso en el contexto de los medios sintéticos, o más aún en él, la originalidad humana conserva sus trucos.
Hay tips aún más específicos. En el motor de imágenes Midjourney –todavía en fase beta– se puede asignar un valor de “caos” a nuestra consigna. A mayor caos, la imagen resultante será más abstracta respecto del pedido inicial. También se pueden excluir conceptos (quiero la imagen de una milanesa napolitana pero sin tomate) y ponderar los distintos elementos de nuestro pedido (quiero la imagen de un animal salvaje que pese 2 de león, 1,5 de cebra y 0,75 de tigre).
Todos estos algoritmos se consideran fruto del “aprendizaje profundo”. Se alimentaron de todo el acervo digital que guarda internet. No fueron entrenados específicamente para generar ciertos resultados, ni a partir de ciertos temas. Son cajas negras. No sabemos bien cómo reaccionan a nuestras palabras o por qué.
Una investigación de este año de la Universidad de Tokio y Google encontró que, si queremos que un generador automático de texto resuelva un acertijo matemático, el simple hecho de iniciar la consigna con la frase “pensemos en esto paso a paso” cuatriplica la posibilidad de obtener una respuesta correcta. Como un chico que va a la profesora particular, estamos empezando a aprender cómo hablar este idioma que nadie conoce.
Un estudio del año pasado de Insead concluyó que los algoritmos cuyo código contiene un poco de ambigüedad funcionan mejor. La razón es que los humanos estamos muy acostumbrados a navegar entre ambigüedades. Sinónimos, homónimos y todo tipo de malentendidos son frecuentes en cualquier charla y no nos complican: sabemos percibir el sentido de lo que se está discutiendo, leer el contexto y darle señales a los demás cuando algo no se entiende. Es una danza que produce intercambios muy satisfactorios. La IA, al parecer, debería aprender a bailar con nosotros.
Por ejemplo, según otro paper de este año, publicado en Frontiers of Computer Science bajo el título Alexa, you’re really stupid, sería mejor que los bots –cuando no entienden algo– nos dieran respuestas erróneas en vez de solo enunciar que no saben. Eso es así porque, en la danza de la charla, los humanos somos buenos leyendo errores: nos dan pistas sobre cuál fue el malentendido y nos permiten reformular la frase, algo que a los algoritmos les cuesta mucho. Tal vez el mejor aporte de la IA sea revalorizar la comunicación humana. Puede que una inteligencia artificial esté ahora mismo escribiendo un paper y decida titularlo Humanos, son unos capos.