Google se inspira en Apple y Microsoft, y abraza la privacidad diferencial
Google anunció hoy el lanzamiento de la versión de código abierto de su biblioteca de privacidad diferencial. "Es la misma librería de software que utilizamos internamente en Google y ahora está disponible gratis para cualquier organización o desarrollador que quiera usarla", explica Miguel Guevara, gerente de producto del equipo de privacidad de Google, a LA NACION.
La privacidad diferencial es una técnica matemática que ayuda a las organizaciones a aprender de la mayoría de los datos de sus usuarios, mientras se asegura que las personas no puedan ser reconocidas o individualizadas a partir de esa información.
"Cuando aplicamos la privacidad diferencial a nuestros productos, agregamos "ruido", es decir, pequeñas cantidades de transformaciones aleatorias de datos, para anonimizar el análisis. En última instancia, la privacidad diferencial permite a las organizaciones obtener información útil sin conocer datos personales", aclara.
La idea –según consignan desde Google- es que si existen dos bases de datos que solamente difieren en un sujeto (en una está X y en la otra no) y un observador le hace la misma pregunta a esas dos bases de datos por ejemplo: "¿Cuál es el ingreso promedio de la gente que está en esa base de datos?", la respuesta que este observador obtenga de estas dos bases de datos no le debería dar la oportunidad de saber en qué base de datos está X y en cuál no.
Guevara trabaja en el equipo de pruebas de privacidad y una de sus responsabilidades es transformar ideas académicas en productos reales.
De Microsoft a Apple
Este último punto tiene que ver con el hecho que la privacidad diferencial, si bien es un concepto de vital actualidad, nació del lado de la investigación, más concretamente, en Microsoft Research.
En 2006 Cynthia Dwork, Frank McSherry, Kobbi Nissim y Adam Smith dieron a conocer el "Calibrating Noise to Sensitivity in Private Data Analysis", investigación en donde se profundiza en variedad de fórmulas matemáticas que balancean la necesidad de obtener información útil de las bases de datos versus cuestiones de sensibilidad y privacidad de esos datos.
Años más tarde, Apple lo adaptó como "filosofía de privacidad" y es hoy uno de sus grandes valores insignia como compañía, de hecho, lo tomó con el corazón de sus productos desde que lo anunció formalmente en el marco de la conferencia para desarrolladores en 2016.
Por el lado de Google, el anuncio de hoy se basa en años de investigación e innovación en la temática. En 2014, lanzaron RAPPOR para ayudar a mejorar Chrome, y en otras funciones como "'horarios populares" y "platos populares" para ubicaciones en Google Maps, y la privacidad de código abierto de Tensorflow para permitir que los desarrolladores de Tensorflow entrenen de manera diferencial modelos privados.
"Hay bases de datos con personas con VIH y esos datos pueden ser útiles en términos de investigación social (la evolución de la enfermedad por ejemplo) pero al mismo tiempo se quiere asegurar que esas personas no puedan ser identificadas, por ser información sensible. Lo que hace la privacidad diferencial es a través de un framework muy sistemático la introducción del "ruido".
Esto tiene alcance a cualquier organización que tenga información y la quiera compartir de una forma privada. Si por ejemplo un colegio tiene una base de datos completa con sus alumnos, que incluye desde datos personales a notas y desempeño, y quiere compartirla con un especialista que le ayude a desarrollar modificaciones en su currícula y método de enseñanza, puede utilizar privacidad diferencial para poder compartir esa data externamente, pero protegiendo la privacidad de sus alumnos.
Los bancos por ejemplo, tienen enorme cantidad de información como patrones de compra en diferentes. "Es información muy útil para que se comprenda el ciclo económico en tiempo real pero obviamente mucha de esta información es sensible, por lo cual esta modalidad de privacidad es muy recomendable", agrega.
Privacidad digital: ir más allá de Facebook
Desde la compañía explican a LA NACION que la razón del lanzamiento es evitar que otras organizaciones tengan que pasar por el camino de investigación sobre privacidad diferencial. "Esto va muy alineado con lo que nuestro CEO dijo hace unos meses en el New York Times respecto que la privacidad "no debía ser un lujo para nadie". Creemos que si cualquier organización ya sea un investigador social o un hospital quiere publicar datos que tienen un beneficio social de una forma privada lo deberían hacer sin tener que invertir mucho tiempo y recursos"
Es muy difícil -por un lado- obtener garantías de privacidad diferencial de una forma sólida. Si no se tiene el suficiente cuidado en la forma en la que se introduce ese ruido, los mismos criterios que hacen posible la privacidad diferencial pueden dejar de existir. Al mismo tiempo, mucho ruido puede quitar calidad al resultado.
"Lo que es importante es que este ruido se produzca de una forma muy calibrada o muy precisa para asegurarnos que ningún individuo pueda ser identificado. El mensaje para los desarrolladores, es utilizar la biblioteca como parte de una estrategia más amplia de privacidad de datos", señalan.
Este nuevo anuncio de Google llega en tiempos complejos para la privacidad digital: el escándalo Facebook- Cambridge Analytica, la normativa europea GDPR (Reglamento General de Protección de Datos por sus siglas en inglés) y con las grandes empresas tecnológicas en la mira de gobiernos y regulaciones, lo cierto es que la privacidad diferencial apunta al corazón mismo de la economía digital: la explotación de los datos personales para luego utilizarlos en forma recomendaciones personalizadas de productos y servicios.
Con este marco ¿puede este abordaje de la privacidad ser el mindset que se imponga en el futuro?
Frente a la consulta, desde Google explican que han invertido en esta tecnología porque su crecimiento ha sido meteórico: "En 2014 aplicamos el concepto a Chrome para colectar información y métricas sobre los controles de nuestros usuarios. Lo cierto es que es remarcable que una idea académica haya acabado en un producto que utilizan millones de personas en tan pocos años. Al tratarse de un enfoque bastante sistemático, racional y controlado, nos llevó a pensar que probablemente podíamos aportar un poco mas en un contexto donde se habla mucho de data, privacidad, donde los gobiernos comparten información", resalta Guevara.
Con todo, el núcleo de la privacidad diferenciada parece ir bastante a contramano de lo que refiere al propio epicentro de funcionamiento de apps y software de Google, basado en el conocimiento de los usuarios: ¿Puede alcanzar otros productos de la compañía?
"La verdad es que nosotros nos estamos haciendo la misma pregunta", responde Guevara y destaca que existe una gran diferencia entre leer los papers de privacidad diferencial e implementarlos. "Es por eso que muy difícil de responder de manera concluyente. En realidad tenemos que explorarlo y experimentar".
Así como Adam Smith –uno de los creadores del concepto- habla de los alcances de este abordaje como "la mejor alternativa para pensar en la privacidad de los datos sin ser una cura definitiva", desde Google subrayan que no es "una varita mágica" que resuelve todos los problemas.
"Depende el contexto y la aplicación y es por eso que hay otras apps que utilizan aprendizaje federado porque simplemente tiene mas sentido. Nos estamos embarcando en un viaje donde tratamos de encontrar cuales son las aplicaciones donde una tecnología ofrece mejores beneficios de privacidad y utilidad a los usuarios. La misión de nuestro equipo es encontrar otros productos donde pueda aplicarse y en ese camino estamos", cierra Guevara.