TAZ-TFG-2017-2848


Comparación de algoritmos de anonimización: Mondrian y Datafly

Fernández Poza, Alejandro
Mayordomo Cámara, Elvira (dir.)

Universidad de Zaragoza, EINA, 2017
Informática e Ingeniería de Sistemas department, Lenguajes y Sistemas Informáticos area

Graduado en Ingeniería Informática

Abstract: El presente trabajo muestra una comparación de dos algoritmos para lograr la k-anonimización de un conjunto de datos. El primero es Datafly (1997-1998), un algoritmo heurístico cuyas principales herramientas son la generalización y la supresión de tuplas. El segundo algoritmo es Mondrian (2005), de desarrollo posterior, que basa su estrategia en la partición multidimensional de los datos, perdiendo en cierto modo el clásico enfoque tabular (filas-individuos y columnas-atributos). Ambos algoritmos se han implementado desde cero, en un mismo lenguaje de programación (Java) y siguiendo lo más fielmente posible la idea expresada en los trabajos originales. Todo ello para poder realizar una comparación lo más justa posible. Como ambos algoritmos tienen algunas partes sin detallar, se han tomado ciertas decisiones de diseño e implementación que podrían afectar a la comparación, por ello se describen en este trabajo para que se pueda tener en cuenta a la hora de sacar las conclusiones oportunas. Entre las medidas utilizadas están: el coste temporal asintótico, el número de combinaciones totales finales, la k-anonimización media lograda y la varianza respecto a dicha media. No se ha tenido en cuenta en la comparativa el tiempo medido durante las pruebas, ya que se han ejecutado en una máquina multitarea y la carga de la misma podría afectar a la medición por ello se puede considerar una medida menos normalizada que las indicadas. Cabe destacar el diseño e implementación de varios scripts para la herramienta MATLAB capaces de generar conjuntos de datos sintéticos con ciertas características modificables y para representar las estadísticas de los resultados obtenidos mediante gráficas. Tras las pruebas realizadas se ha podido observar como Mondrian consigue mejores resultados en general, y con mayor regularidad de tuplas en cada una de las combinaciones finales. Sin embargo, Datafly a pesar de ser uno de los primeros algoritmos de k-anonimización consigue acercarse a los resultados de Mondrian en algunos de los conjuntos de datos, dependiendo de los valores y la distribución de estos.

Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License

El registro pertenece a las siguientes colecciones:
Academic Works > Trabajos Académicos por Centro > escuela-de-ingeniería-y-arquitectura
Academic Works > End-of-grade works



Back to search

Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)