64198 20171221155213.0 TAZ-TFG-2017-2848 spa Fernández Poza, Alejandro Comparison between anonymization algorithms: Mondrian and Datafly Comparación de algoritmos de anonimización: Mondrian y Datafly Zaragoza Universidad de Zaragoza 2017 by-nc-sa Creative Commons 3.0 http://creativecommons.org/licenses/by-nc-sa/3.0/ El presente trabajo muestra una comparación de dos algoritmos para lograr la k-anonimización de un conjunto de datos. El primero es Datafly (1997-1998), un algoritmo heurístico cuyas principales herramientas son la generalización y la supresión de tuplas. El segundo algoritmo es Mondrian (2005), de desarrollo posterior, que basa su estrategia en la partición multidimensional de los datos, perdiendo en cierto modo el clásico enfoque tabular (filas-individuos y columnas-atributos). Ambos algoritmos se han implementado desde cero, en un mismo lenguaje de programación (Java) y siguiendo lo más fielmente posible la idea expresada en los trabajos originales. Todo ello para poder realizar una comparación lo más justa posible. Como ambos algoritmos tienen algunas partes sin detallar, se han tomado ciertas decisiones de diseño e implementación que podrían afectar a la comparación, por ello se describen en este trabajo para que se pueda tener en cuenta a la hora de sacar las conclusiones oportunas. Entre las medidas utilizadas están: el coste temporal asintótico, el número de combinaciones totales finales, la k-anonimización media lograda y la varianza respecto a dicha media. No se ha tenido en cuenta en la comparativa el tiempo medido durante las pruebas, ya que se han ejecutado en una máquina multitarea y la carga de la misma podría afectar a la medición por ello se puede considerar una medida menos normalizada que las indicadas. Cabe destacar el diseño e implementación de varios scripts para la herramienta MATLAB capaces de generar conjuntos de datos sintéticos con ciertas características modificables y para representar las estadísticas de los resultados obtenidos mediante gráficas. Tras las pruebas realizadas se ha podido observar como Mondrian consigue mejores resultados en general, y con mayor regularidad de tuplas en cada una de las combinaciones finales. Sin embargo, Datafly a pesar de ser uno de los primeros algoritmos de k-anonimización consigue acercarse a los resultados de Mondrian en algunos de los conjuntos de datos, dependiendo de los valores y la distribución de estos. Graduado en Ingeniería Informática Derechos regulados por licencia Creative Commons Mayordomo Cámara, Elvira dir. Universidad de Zaragoza Informática e Ingeniería de Sistemas Lenguajes y Sistemas Informáticos 679890@celes.unizar.es 1962552 http://zaguan.unizar.es/record/64198/files/TAZ-TFG-2017-2848.pdf Memoria (spa) oai:zaguan.unizar.es:64198 driver trabajos-fin-grado deposita:2017-12-21 TAZ TFG EINA