Avanzan en sistemas para poder hablar con las computadoras

Descubren las señales que indican cuándo vamos a ceder la palabra en un diálogo

9 de diciembre de 2011
1 minuto de lectura'

Actualizado el 9 de julio de 2020

Como en un baile, en un diálogo uno da paso al otro para que se exprese y, si no hay pisotones o interrupciones, el intercambio fluye compasadamente. ¿Pero qué señales indican cuándo es el turno de uno y luego del otro? Lo hacemos a diario y resulta tan natural que ni siquiera nos planteamos cómo lo hacemos. Pero si bien esto ocurre todo el tiempo en los más diversos idiomas en el mundo, desentrañar este minué es clave para diseñar sistemas de computación que imiten mejor la comunicación humana.

"Los humanos somos increíblemente expertos para detectar los intercambios en los diálogos. Sabemos cuándo una persona termina de hablar y nos cede la palabra. ¿Cómo hacemos cuando no hay contacto visual, por ejemplo por teléfono, para darnos cuenta de que es nuestro turno en la charla? Nosotros estudiamos estas transiciones y hallamos evidencias de que hay cambios muy sutiles en la forma de expresarse que ocurren en milisegundos y advierten al otro que estamos por terminar de hablar", indica Agustín Gravano, del Departamento de Computación de la Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires, que realizó este estudio como parte de su tesis doctoral bajo la dirección de Julia Hirschberg en la Universidad Columbia de Nueva York.

Tal como en la forma escrita aparecen puntos, guiones y otros signos ortográficos para dar cuenta del fin del párrafo de un interlocutor y del inicio de otro participante en el diálogo, el modo oral también ofrece señales. "La voz pierde calidad, es más rasposa, desciende el tono y la intensidad, es como que se va apagando a medida que se acerca el final del parlamento. El habla es más lenta cuando termina el turno que cuando se halla en el medio del discurso -describe Gravano, investigador del Conicet-. En general, la parte final de las oraciones se estira, pero cuando se da la palabra al otro, el estiramiento final es más corto. Todas estas variaciones son muy sutiles y ocurren de modo muy veloz."

En el Laboratorio de la Universidad de Columbia grabaron y analizaron diálogos de 45 minutos entre 13 personas, seis mujeres y siete hombres. De a pares, conectados por computadoras, jugaban en equipo y necesitaban comunicarse verbalmente para realizar las tareas pues un telón les impedía verse entre sí. Los resultados de este trabajo se publicaron recientemente en Computer Speech and Language .

"La cortina buscó que toda la comunicación fuera auditiva, similar a la que ocurre por teléfono. Los juegos lograron que los participantes se olvidaran de que eran objeto de estudio y generaran un diálogo muy rico orientado a realizar una tarea en común", detalla Gravano.

"El objetivo de los que estamos en esta área es estudiar cómo la computadora puede entender la voz humana y responder -subraya el investigador-. Empleamos el lenguaje oral diariamente casi sin percatarnos de la cantidad y la complejidad de los procesos involucrados en algo tan natural como mantener una conversación. Sin embargo, muchos de esos procesos plantean tremendas dificultades para los sistemas informáticos."

Personas y máquinas

Es largo el listado de cuestiones que los científicos deberán resolver para alcanzar el viejo sueño de contar con una máquina que hable a imagen y semejanza del ser humano. ¿Cuándo determina la computadora que la persona deja de hablar y es su turno para responderle? Lo más habitual es esperar que se produzca un silencio, pero a veces el usuario calla unos segundos para pensar lo que luego continuará diciendo. Además, se sabe que esta estrategia de breve mudez no es la más usada en los diálogos entre humanos, según indica el trabajo científico.

Por otra parte, ¿cómo lograr que en el futuro la voz de la computadora no resulte tan extraña, aparatosa, y hasta intimidante? Los problemas son múltiples y más aún cuando se desea lograr un diálogo variado y espontáneo como el humano. "Por el momento, contamos con sistemas acotados. Por ejemplo, se pueden comprar pasajes de avión por teléfono mediante un diálogo con la computadora. Pero el inventario de palabras es limitado y el dominio de situaciones posibles también", plantea Gravano.

Con numerosas dificultades por sortear, como la variedad de idiomas, dialectos y entonaciones, Gravano no ceja en su intento de lograr una conversación humano-computadora más natural que la actual. Mientras tanto, uno de sus trabajos a mediano plazo es desarrollar un sistema de lectura de páginas web para usuarios con problemas de visión. "La idea es que sea hablado en un castellano neutro argentino, que resulte familiar para un cordobés, un correntino e, incluso, un uruguayo. La propuesta es que sea gratuito y que cualquiera pueda bajarlo de Internet. Este proyecto podría estar listo en unos dos o tres años", concluye.

Centro de Divulgación Científica de la Facultad de Ciencias Exactas, UBA

Por Cecilia Draghi

Conforme a