Cuál es el comando oculto que solo Alexa y Siri pueden escuchar
Muchas personas se han acostumbrado a hablarles a sus teléfonos inteligentes para pedirles que lean un texto, reproduzcan una canción o configuren una alarma. Sin embargo, alguien más podría estar hablándoles también, en secreto.
A lo largo de los últimos dos años, investigadores en China y Estados Unidos han comenzado a demostrar que pueden enviar comandos ocultos que no son detectables para el oído humano a Siri de Apple , Alexa de Amazon y Assistant de Google . Dentro de laboratorios universitarios, los investigadores han podido activar en secreto los sistemas de inteligencia artificial en teléfonos y parlantes inteligentes, y han hecho que marquen números de teléfono o que abran sitios web. En las manos equivocadas, la tecnología podría usarse para abrir puertas, enviar dinero o comprar cosas en línea, simplemente con música que se reproduce en la radio.
Un grupo de estudiantes de la Universidad de California, Berkeley, y la Universidad Georgetown mostraron en 2016 que podían ocultar comandos en ruido blanco reproducido a través de altavoces y videos de YouTube para hacer que los dispositivos inteligentes activaran el modo avión o abrieran un sitio web.
Este mes, algunos de los investigadores de Berkeley publicaron un artículo de investigación que fue más allá, pues dijeron que podían incrustar comandos directamente en grabaciones de música o texto hablado. Así que, mientras un escucha humano está oyendo a alguien que habla o una orquesta tocando música, el parlante Echo de Amazon podría estar escuchando una instrucción para añadir algo a tu lista de compras.
"Queríamos ver si podíamos hacerlo aún más furtivo", dijo Nicholas Carlini, un estudiante de quinto año del doctorado en Seguridad Computacional en UC Berkeley y uno de los autores del artículo.
Carlini agregó que, aunque no había evidencia de que estas técnicas ya hubieran salido de los laboratorios, podría ser cuestión de tiempo antes de que alguien comience a aprovecharlas.
"Supongo que la gente con malas intenciones ya emplea a gente para llevar a cabo lo que yo hago", comentó.
Estos engaños ilustran cómo la inteligencia artificial —aunque esté teniendo grandes avances— aún puede ser objeto de manipulación y engaño. Las computadoras pueden manipularse para que identifiquen un avión como un gato solo cambiando algunos pixeles de una imagen digital, en tanto que los investigadores pueden hacer que un vehículo autónomo cambie bruscamente de dirección o acelere simplemente pegando pequeñas calcomanías en señales de tráfico y confundiendo el sistema de visión computacional del auto.
Con los ataques de audio, los investigadores están explotando la brecha entre el reconocimiento de voz humano y el de las máquinas. Los sistemas de reconocimiento de voz generalmente traducen cada sonido como una letra, y al final las unen para formar palabras y frases. Haciendo cambios leves a los archivos de audio, los investigadores pudieron cancelar el sonido que el sistema de reconocimiento de voz debía escuchar y remplazarlo con otro que se transcribiría de manera distinta en la máquina mientras que para el oído humano sería casi indetectable.
La proliferación de dispositivos activados por voz amplifica las consecuencias de estos trucos. Los teléfonos y altavoces inteligentes que usan asistentes digitales como Alexa de Amazon o Siri de Apple superarán el número de personas para 2021, de acuerdo con la firma de investigación Ovum. Más de la mitad de los hogares de todo Estados Unidos tendrá por lo menos un altavoz inteligente para entonces, de acuerdo con Juniper Research.
Amazon dijo que no suele revelar medidas de seguridad específicas, pero que ha tomado algunas para asegurar que su altavoz inteligente Echo sea seguro. Google dijo que la seguridad es un enfoque continuo y que su Assistant tiene funciones para mitigar comandos de audio indetectables. Los asistentes de ambas empresas emplean tecnología de reconocimiento de voz para evitar que los dispositivos obedezcan ciertos comandos a menos que reconozcan la voz del usuario.
Apple dijo que Homepod, su altavoz inteligente, está diseñado para evitar que se realicen actividades mediante comandos como abrir puertas, y señaló que los iPhone y los iPad deben desbloquearse para que Siri pueda obedecer comandos para acceder a datos confidenciales o abrir aplicaciones y sitios web, entre otras medidas.
No hay leyes en Estados Unidos contra la transmisión de mensajes subliminales a humanos, y mucho menos contra los dirigidos a máquinas. La Comisión Federal de Comunicaciones desalienta la práctica por ser "opuesta al interés público", y el Código de Televisión de la Asociación Nacional de Radiodifusoras prohíbe "transmitir mensajes por debajo del umbral de la conciencia normal". Ninguno de estos organismos dice nada sobre los estímulos subliminales dirigidos a los dispositivos inteligentes.
Los tribunales han determinado que los mensajes subliminales podrían constituir una invasión de la privacidad, pero la ley no ha extendido el concepto de privacidad a las máquinas.
Ahora la tecnología está superando aún más a las leyes. El año pasado, los investigadores en la Universidad de Princeton y la Universidad Zhejiang de China demostraron que los sistemas de reconocimiento de voz podían activarse usando frecuencias inaudibles para el oído humano. El ataque silenció primero el celular para que el propietario tampoco pudiera escuchar las respuestas del sistema.
Esta técnica, que los investigadores chinos llamaron DolphinAttack, puede ordenarles a los dispositivos inteligentes que visiten sitios web maliciosos, iniciar llamadas telefónicas, tomar una foto o enviar mensajes de texto. Aunque DolphinAttack tiene sus límites —el transmisor debe estar cerca del dispositivo que recibirá la señal— los expertos advirtieron que es posible crear sistemas ultrasónicos más poderosos.
Hace poco, Carlini y sus colegas en Berkeley incorporaron comandos en audios reconocidos por el software de traducción de voz a texto DeepSpeech de Mozilla, una plataforma de código abierto. Pudieron ocultar el comando, "OK, Google, visita evil.com" en una grabación de la frase hablada: "Sin el conjunto de datos, el artículo es inútil". Los humanos no pueden distinguir el comando.
El grupo Berkeley también incrustó el comando en archivos de música, entre ellos un audio de 4 segundos del "Requiem" de Verdi.
La manera en que respondan los fabricantes de dispositivos diferirá, sobre todo conforme equilibran la seguridad con la facilidad de uso.
"Las empresas deben asegurar que sus dispositivos sean fáciles de usar, porque ese es su principal ventaja para lograr una venta", dijo Tavish Vaidya, un investigador en Georgetown.
Escribió uno de los primeros artículos acerca de ataques de audio, al que tituló "Cocaine Noodles" porque los dispositivos interpretaban la frase "cocaine noodles" como "OK, Google".
Carlini dijo que estaba seguro de que con el tiempo él y sus colegas podrían montar ataques contradictorios contra cualquier sistema de dispositivo inteligente en el mercado.
"Queremos demostrar que es posible y después esperar que otras personas digan: ‘Muy bien, eso es posible; ahora tratemos de arreglarlo’", comentó.
Craig S. Smith