Anonimización y seudonimización. Criterios de aplicación
Tal y como se ha visto en los artículos publicados anteriormente, la tecnología blockchain introduce la propiedad de la inalterabilidad o inmutabilidad de la información almacenada en la red, lo cual aporta numerosas ventajas, como por ejemplo la eliminación de la necesidad de un tercero de confianza. Sin embargo, el hecho de que la información vertida en la red no pueda eliminarse ni modificarse plantea diversos interrogantes desde el punto de vista legal, particularmente, en materia de protección de datos. 1
Lo cierto es que todavía a fecha de hoy no existe un consenso sobre la aplicación del Reglamento General de Protección de Datos2 (RGPD) en entornos de tecnología blockchain, en los que la inmutabilidad y descentralización de los datos actúan como premisa principal. Por ello, resultará básico saber y distinguir si los datos manejados a través de la blockchain ostentan o no la condición de datos personales, y si a éstos les son de aplicación los principios normativos establecidos por el RGPD.
Resultará asimismo indispensable conocer la tipología de técnicas que permiten lograr la disociación entre los datos personales y su titular, de forma que el uso de tecnología blockchain propicie la realización de transacciones en la cadena de bloques sin que ello suponga el quebrantamiento de los principios y derechos más básicos en materia de protección de datos.
Al hilo de lo anterior, conviene precisar que la mencionada disociación entre el dato y su titular puede logarse mediante la aplicación de técnicas de anonimización y seudonimización sobre los datos personales. El estudio de las diferentes técnicas de anonimización y seudonimización conlleva como punto de partida ineludible la definición del término “dato personal”. Véase a continuación.
De conformidad con lo dispuesto en el artículo 4 del RGPD, “dato personal” es toda información sobre una persona física identificada o identificable. Según el mencionado precepto legal, se considerará persona física identificable, toda persona cuya identidad pueda determinarse, directa o indirectamente, en particular mediante un identificador3.
De lo anterior puede deducirse que “no es dato personal” aquella información o combinación de información a través de la cual no se relacione o identifique a una persona.
Como es de ver, el punto clave en la definición de dato personal es la “identificación”, esto es, la facultad de conocer o relacionar al sujeto o titular de dichos datos, a través de la información que se posea de éste.
El considerando 26 del RGPD establece que para determinar si una persona física es identificable deben tenerse en cuenta todos los medios que razonablemente pueda utilizar el responsable del tratamiento para identificar directa o indirectamente a la persona física. Para determinar si existe una probabilidad razonable de que se utilicen medios para identificar a una persona física, deben tenerse en cuenta todos los factores objetivos, como los costes y el tiempo necesarios para la identificación, teniendo en cuenta tanto la tecnología disponible en el momento del tratamiento, como los avances tecnológicos.
El citado considerando 26 declara que los principios de protección de datos no se aplicarán a la información anónima, es decir, a aquella información que no guarde relación con una persona física identificada o identificable, ni a los datos convertidos en anónimos de forma que el interesado no sea identificable, o deje de serlo.
Diferencias entre Anonimización y Seudonimización
El Grupo de Trabajo del Artículo 29 (en adelante, GT 29) en año 2014 advirtió tajantemente del error de considerar que los datos seudonimizados son equivalentes a los anonimizados4.
Lo cierto es que los resultados y consecuencias derivados de la aplicación de técnicas de anonimización y seudonimización son esencialmente diferentes. A lo largo de este apartado analizaremos los efectos resultantes de la aplicación de cada una de estas técnicas.
La anonimización de datos personales consiste en delimitar y suprimir aquella información concreta que permite identificar a los individuos, con el objetivo de eliminar, de forma irreversible, las posibilidades de identificación y evitar así la reidentificación cuando los datos sean reutilizados.
Tal y como considera la Agencia Española de Protección de Datos5, “en el proceso de anonimización se deberá producir la ruptura de la cadena de identificación de las personas. Esta cadena se compone de microdatos o datos de identificación directa y de datos de identificación indirecta. Los microdatos permiten la identificación directa de las personas y los datos de identificación indirecta son datos cruzados de la misma o de diferentes fuentes que pueden permitir la reidentificación de las personas, como la información de otras bases de datos del mismo u otro responsable, de las redes sociales, buscadores, blogs, etc”.
En cuanto a la seudonimización, el RGPD6 la define del siguiente modo: el tratamiento de datos personales de manera tal que ya no puedan atribuirse a un interesado sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable.
A diferencia de la anonimización, la seudonimización no implica una disociación completa sin retorno o imposibilidad de reversión de los mismos, puesto que existe siempre la posibilidad de identificar al interesado a través de información adicional. Esta información adicional, se encontrará separada, por tanto, de los datos seudonimizados y almacenada y custodiada con las debidas medidas de seguridad para garantizar que los datos personales no se vinculan a su titular.
Asimismo, es importante no olvidar que mientras que los datos anonimizados no son considerados “datos personales”, los datos seudonimizados sí los son. En este sentido el considerando 26 del RGPD establece que: “Los datos personales seudonimizados, que cabría atribuir a una persona física mediante la utilización de información adicional, deben considerarse información sobre una persona física identificable”. Por ello, a pesar de que la información seudonimizada no permite la identificación directa del interesado, es necesario tener presente que nos encontramos ante datos de carácter personal, los cuales deberán ser objeto de protección de conformidad con el RGPD.
Véase a continuación, de la mano del GT 29, las diferentes técnicas de anonimización y seudonimización existentes.
Anonimización
El GT 29 sostiene que, en términos generales, existen dos enfoques diferentes para la anonimización. El primero se basa en la aleatorización, mientras que el segundo se basa en la generalización.
Aleatorización (o asignación al azar) | Generalización |
---|---|
La aleatorización conforma una familia de técnicas que altera la veracidad de los datos para eliminar el vínculo entre los datos y el individuo. Si los datos son suficientemente inciertos, ya no pueden volverse a vincular a un individuo específico. La aleatorización puede combinarse con técnicas de generalización para proporcionar garantías de privacidad más sólidas. Dentro de la familia de las técnicas de aleatorización, pueden distinguirse, principalmente, las siguientes: | La generalización es la segunda familia de técnicas de anonimización y consiste en generalizar o diluir los atributos de los sujetos de datos modificando la escala u orden de magnitud respectivo (es decir, una región en lugar de una ciudad, un mes en lugar de una semana).
Si bien la generalización puede ser efectiva para prevenir el aislamiento, no permite la anonimización efectiva en todos los casos; en particular, requiere enfoques cuantitativos específicos y sofisticados para evitar la vinculación e inferencia. Dentro de la generalización se encuentran técnicas como:
|
Perturbación/Ruido: La técnica de adición de ruido es especialmente útil cuando los atributos pueden tener un efecto adverso importante en los individuos y consiste en modificar los atributos en el conjunto de datos, de manera que sean menos precisos a la vez que se mantiene la distribución general. Por ejemplo, en el caso de datos numéricos consiste añadir o substraer aleatoriamente una determinada cantidad al valor original. La adición de ruido comúnmente necesitará combinarse con otras técnicas de anonimización, como la eliminación de atributos obvios y cuasi identificadores. Asimismo, es importante señalar que “el nivel de ruido” dependerá de la necesidad del nivel de información requerido y del impacto que supondría la divulgación de los atributos protegidos en relación con la privacidad de las personas. | Aggregation y k-anonymity. Esta técnica pretende evitar que un individuo o interesado sea identificado al agruparlo, al menos, con otras personas. Para lograr este efecto, los valores de los atributos se generalizan en una medida en la que cada individuo comparte el mismo valor.
Por ejemplo, al reducir la granularidad de una ubicación de una ciudad a un país, se incluye una mayor cantidad de sujetos de datos. Las fechas individuales de nacimiento pueden generalizarse en un rango de fechas, o agruparse por mes o por año. Otros atributos numéricos (por ejemplo, sueldos, peso, altura o la dosis de un medicamento) se pueden generalizar por valores de intervalo (por ejemplo, salario de 20 000 a 30 000 euros).
|
Permutación: Esta técnica consiste en mezclar o revolver los valores de los atributos en una tabla para que algunos de ellos estén vinculados artificialmente con diferentes sujetos de datos. Esta técnica resulta especialmente útil en aquellos casos en los que debe mantener la distribución exacta de cada atributo dentro del conjunto de datos. La permutación se puede considerar como una forma especial de adición de ruido. En una técnica de ruido clásico, los atributos se modifican con valores aleatorios. | L-diversity/T-closeness. La L-diversity es una técnica útil para proteger los datos contra ataques de inferencia cuando los valores de los atributos están bien distribuidos. Sin embargo, debe destacarse que esta técnica no puede evitar la fuga de información si los atributos dentro de una partición están distribuidos de manera desigual o si pertenecen a un pequeño rango de valores o significados semánticos. Al final, el GT 29 señala que la técnica L-diversity está sujeta a ataques de inferencia probabilística. |
Privacidad diferencial: Esta técnica pertenece a la familia de las técnicas de aleatorización, con un enfoque diferente. Esto es, en esta técnica se incluyen ruidos aleatorios agregados deliberadamente ex-post. La privacidad diferencial le dice al responsable del tratamiento cuánto ruido necesita agregar, y en qué forma, para obtener las garantías de privacidad necesarias. Debe aclararse que las técnicas de privacidad diferencial no cambian los datos originales y, por lo tanto, mientras que los datos originales permanezcan, el responsable del tratamiento puede identificar a las personas. |
|
Seudonimización
La seudonimización consiste en reemplazar un atributo por otro en un registro. Por lo tanto, existe una probabilidad de que la persona física sea identificada indirectamente. En consecuencia, la seudonimización cuando se usa sola no dará como resultado un conjunto de datos anónimos.
De acuerdo no lo anterior, el GT 29 precisa que la seudonimización reduce la capacidad de enlazar un conjunto de datos con la identidad original del interesado (titular de los datos); y que precisamente por ello puede ser considerada como una medida de seguridad útil, pero no como un método de anonimización.
Las técnicas de seudonimización más utilizadas son el cifrado con clave secreta, función hash, función con clave almacenada, cifrado determinista o función hash con clave de borrado de clave, descomposición en tokens. Recomendamos revisar sus características principales mencionadas por el Grupo de Trabajo del Artículo 29 en la Opinion 05/2014 sobre técnicas de Anonimización.
El GT 29 advierte sobre la importancia de elegir la técnica adecuada de anonimización y seudonimización que minimice los tres principales riesgos inherentes a todo proceso de disociación, derivados de la posibilidad potencial de identificación del titular de los datos. A continuación se describen los riesgos antes enunciados:
Singling out: posibilidad de aislar datos que identifiquen a un individuo en un conjunto, una vez llevado a cabo un proceso de anonimización.
Linkability: capacidad de vincular, al menos, dos datos referentes al mismo interesado o grupo de interesados (ya sea en la misma base de datos o en dos bases de datos diferentes).
Inference: posibilidad de deducir, con una probabilidad significativa, el valor de un atributo en un conjunto de atributos.
Dicho todo lo anterior, en la siguiente tabla se resumen los diferentes criterios aplicables a la anonimización y seudonimización:
Puntos clave | Anonimización | Seudonimización |
---|---|---|
Procedimiento de Disociación | Irreversible | Reversible |
Sujeto y Datos personales | Imposibilidad de reidentificarlos | Posibilidad de reidentificarlos |
Resultado | No son datos personales | Son datos personales |
Aplicación del RGPD | No | Sí |
A continuación os comparto la Infografía (Infografía No.3) que resume el contenido antes mencionado.
- Téngase en cuenta el derecho al olvido y el derecho a la rectificación de los datos personales en un entorno blockchain. «
- Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo de 27 de abril de 2016 relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos y por el que se deroga la Directiva 95/46/CE (Reglamento general de protección de datos). «
- Téngase en cuenta que, de acuerdo con el RGPD, un identificador puede ser un nombre, un número de identificación, datos de localización, un identificador en línea o uno o varios elementos propios de la identidad física, fisiológica, genética, psíquica, económica, cultural o social de dicha persona. «
- Article 29 Data Protection Working Party, Opinion 05/2014 on Anonymisation Techniques Adopted on 10 April 2014, page 10. «
- Agencia Española de Protección de Datos (2016). Orientaciones y garantías en los procedimientos de anonimización de datos. «
- Apartado 5 del artículo 4. «
- Tabla basada en Machanavajjhala et al., 2006. «
Este artículo ha sido investigado, analizado y redactado por las abogadas Ana Vega Suárez e Immaculada Lleberia.