Guerra contra lo real: cómo la tecnología para manipular imágenes está sacudiendo a la web

Cada vez más startups están usando la inteligencia artificial que desarrolló Deepfakes para ampliar las fronteras del manejo de la información que proporcionan los medios de comunicación; el debate ético que se viene

8 de mayo de 2019
1 minuto de lectura'

Actualizado el 12 de febrero de 2021

Hace poco más de un año, un usuario anónimo de Reddit con el seudónimo Deepfakes cambió internet.

A comienzos de 2018 subió a la red un modelo de aprendizaje de las máquinas que podía cambiar el rostro de una persona por cualquier otra en cualquier vídeo. En cuestión de semanas, imágenes pornográficas sobreimpuestas a gente famosa se desparramaron por toda la red. Reddit pronto prohibió Deepfakes, pero la tecnología ya había echado raíces en toda la red y en algunos casos la calidad era más convincente. Todos los días la gente demostraba que podía agregar el rostro de la princesa Leia a El despertar de la fuerza mejor de lo que había logrado el estudio de efectos especiales de Hollywood, Industrial Light and Magic. De pronto Deepfakes había hecho posible para cualquiera dominar el aprendizaje de las máquinas complejo; solo se necesita el tiempo para colectar suficientes fotografías de una persona como para entrenar al modelo. Se arrastran esas imágenes a una carpeta y la herramienta maneja la convincente falsificación a partir de allí. El usuario anónimo había lanzado "una guerra a lo real", como lo describió una leyenda de los efectos especiales el año pasado.

Ahora, pasados aproximadamente doce meses, Deepfakes se está demostrando profético. Una nueva oleada de compañías buscan obtener ganancias con una tecnología similar aprovechando el aprendizaje de las máquinas para hacer cosas sin precedente en los medios, desde falsificar voces, pasando por falsificar avatares, hasta falsificar fotografías de gran detalle. Hablé con gente de tres de estas compañías, cada una de las cuales está trabajando en el desarrollo de aplicaciones comerciales. Además de encontrar un modelo de negocios sustentable para su uso, cada una de ellas debe resolver cómo manejar el poder de esta tecnología aún emergente y cómo proteger a la sociedad de sus propias herramientas, en vez de subvertirla.

El equipo de padre e hijo Félix y Albert Yang ha estado conduciendo por más de una década una firma de software pequeña pero exitosa llamada Topaz Labs y que ha creado varias herramientas independientes de edición de imágenes junto con plug-ins para software como After Effects, de Adobe. Pasaron años desarrollando sus algoritmos, contratando investigadores con doctorado especialistas en mejora de imágenes, para hacer trabajos altamente especializados y laboriosos para producir su software, que puede obtener imágenes excepcionalmente definidas de video o agregar un fulgor eléctrico a imágenes en movimiento.

Entonces sucedió la revolución del aprendizaje de las máquinas. De pronto podían a entrenar a redes neuronales para el trabajo duro de hacer más definidas las imágenes: "Una de nuestras mayores sorpresa fue ver que podíamos tirar a la basura nuestros diez años de duro trabajo instantáneamente". Por lo que a lo largo del último año más o menos el estudio se ha reconstruido en torno al aprendizaje de máquinas. "Es casi como una nueva startup", dice Eric.

"El aprendizaje de las máquinas no conoce detalles reales, recrea detalles. Obviamente, eso es problemático", dice Albert. "A medida que mejore la tecnología tendremos que pensar más en ello. Actualmente no está en un nivel en el que estemos demasiado preocupados de que alguien pueda ser mal identificado por un número equivocado de patente debido a que el software invente el número". Pero podría ser así. Por lo que por ahora Topaz está tratando de controlar el uso de su software orientando la venta de su tecnología a fotógrafos y alertando a todos los demás, como las autoridades, acerca de sus limitaciones. "No estamos orientándonos al área de la seguridad en este momento", agrega Albert.

Falsificar voces

Mike Pappas estaba caminando por el corredor en su dormitorio en el MIT cuando vio a una persona en su cuarto trabajando en un pizarrón blanco. Era Carter Huffman, estudiante de grado de física igual que él y su futuro jefe de tecnología de Modulate. Fundada en 2018, con US$2 millones de fondos de innovadores de audio como los fundadores de Harmonix, Modulate hace algo afín a Deepfakes, pero con la voz: le permite convertir su voz en el de cualquier otra persona. En su sitio, Modulate presenta un demo convincente, aunque no del todo claro, de Barack Obama ofreciendo el software.

La idea de Modulate se originó alrededor de 2015. Huffman se había topado con el nuevo fenómeno llamado style transfer, que podía aplicar el estilo de una pieza de arte a otra, haciendo que una foto se viera como una pintura de Van Gogh. En términos de entrenar máquinas para generar falsificaciones convincentes se puede pensar en style transfer como un primo de Deepfakes. "Carter estaba leyendo y tuvo la idea de que se puede guardar audio como una imagen, un espectrograma, y se preguntaba qué pasaría si intentáramos hacer style transfer de imagen con este audio", recuerda Pappas. "Armó experimentos y la respuesta inmediata fue que sonaba como basura".

Pero tras tres años de juguetear con la cosa, Modulate se ha vuelto bastante bueno. El software funciona entrenando un modelo con muchas muestras de la voz de una persona. Eso significa que figuras públicas que han grabado horas y más horas de audio son blanco más fácil para su imitación. En teoría se puede usar la tecnología de Modulate para crear modelos de políticos, gente famosa o cualquiera que pase mucho tiempo hablando y luego usar la computadora para hablar con su voz cuando uno quiera.

Pero Pappas no está interesado en que se use Modulate para imitar a políticos o gente famosa. "La voz de Obama está en nuestro sitio porque pensamos que era importante tener una demostración de cómo podríamos copiar la voz de una persona o personaje y hay mucho audio público de él disponible, lo que era fácil", dice Pappas. "Hay alguna gente que diría que es cool sonar como Obama quizá por uno o dos minutos". Por lo que el filtro de Obama no está en realidad disponible.

En cambio, Modulate quiere licenciar su tecnología a compañías de redes sociales y juegos, permitiéndole a uno tener un avatar de audio cool en estas plataformas pero no fuera de ellas. La voz no sería entrenada por uno para sonar como uno mismo, sino que lo harían los programadores para que uno suene como un personaje, por lo que estaría bajo control relativamente estricto. ¿Por qué sonar como un niño cuando se puede hablar con la voz de alguno de los actores de un juego como Overwatch? La aplicación inmediata más significativa es para consumidores y que definan sus personalidades online. Gastan dinero en una nueva piel para su personaje, pero en cuanto usan su voz en el chat acaban con la ilusión que armaron porque tienen que usar su propia voz", dice Pappas. "Hay que darles la libertad de meterse por completo en su personaje".

De todos modos es una medida de seguridad imperfecta y es un tema en el que la compañía sigue concentrada. "Hay ingenieros de audio muy sofisticados. Puede ser posible para ellos en algún momento editar estas marcas de agua", dice Pappas. "Por eso parte de nuestro trabajo es encontrar nuevas maneras de hacer marcas de agua enraizadas más profundamente en el audio mismo. Por lo que estamos haciendo nuevas investigaciones de aprendizaje de las máquinas para hacer robustas las marcas de agua".

Traducción Gabriel Zadunaisky

Por Mark Wilson

Conforme a