000134118 001__ 134118 000134118 005__ 20240424142044.0 000134118 037__ $$aTAZ-TFG-2024-079 000134118 041__ $$aspa 000134118 1001_ $$aVarea Palacios, Julia 000134118 24200 $$aMalware detection using machine learning techniques. 000134118 24500 $$aDetección de malware utilizando técnicas de machine learning. 000134118 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2024 000134118 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/ 000134118 520__ $$aEn la era digital actual la ciberseguridad se ha convertido en un elemento crítico para individuos, empresas e instituciones de todo el mundo. Frente al aumento del número de muestras de malware recopiladas y de su constante evolución, las técnicas de Machine Learning se presentan como una solución novedosa para la detección efectiva del malware. Este trabajo se centra en la detección de malware, identificando si una muestra es maligna o no, empleando técnicas de Machine Learning para reconocer y clasificar muestras de software maligno en sus categorías o familias correspondientes. Mediante la automatización del proceso de detección de comportamientos maliciosos en trazas de ejecución de sistemas software y aplicando modelos de Machine Learning, el propósito de este trabajo es investigar la eficacia de técnicas de Machine Learning para la detección de malware. Para llevar a cabo el proyecto, el primer paso es la selección de un dataset adecuado que contenga muestras de varias familias de malware con sus trazas de ejecución. Una vez conseguido, se comenzará el proceso de filtrado y preparado de los datos hasta obtener un dataset que se adecue a las necesidades del proyecto. Estos datos se someten a una serie de procesos de extracción de n-gramas, de creación de diccionarios y un cálculo de features para obtener características clasificatorias para cada una de las familias de malware. Para cada conjunto de features calculadas con cada valor de n se crean modelos de Machine Learning. Estos modelos emplean varios clasificadores (KNN, SVM, Gradient Boosting y Regresión Logística) y se calcularán tanto clasificadores simples (un clasificador por familia de malware) como clasificadores múltiples (un solo modelo capaz de clasificar todas las muestras). Una vez obtenidos todos los modelos se calculan métricas para realizar una comparación de todos ellos. Al analizarlos se ha observado que los resultados obtenidos por los clasificadores múltiples superan los obtenidos por los clasificadores simples. Para intentar mejorar los valores obtenidos por los modelos se implementará una mejora basada en el filtrado de categorías de interés. Se definió una categoría de interés como una categoría de llamadas al sistema asociada con comportamientos maliciosos o que hagan vulnerable al sistema. Tras analizar los nuevos resultados se observa que la totalidad de los valores devueltos mejora, tanto en los clasificadores simples como en los clasificadores múltiples. Esto demuestra que la mejora implementada es efectiva a la hora de detectar y clasificar distintas categorías de malware, independientemente del modelo utilizado para la clasificación de las mismas. Gracias a la automatización del proceso, este proyecto abre paso a poder realizar trabajos futuros, añadiendo más funcionalidades o aplicando el proceso a otros datasets.<br /><br /> 000134118 521__ $$aGraduado en Ingeniería Informática 000134118 540__ $$aDerechos regulados por licencia Creative Commons 000134118 700__ $$aÁlvarez Pérez-Aradros, Pedro Javier$$edir. 000134118 700__ $$aRaducu, Razvan$$edir. 000134118 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cLenguajes y Sistemas Informáticos 000134118 8560_ $$f786695@unizar.es 000134118 8564_ $$s1508563$$uhttps://zaguan.unizar.es/record/134118/files/TAZ-TFG-2024-079.pdf$$yMemoria (spa) 000134118 909CO $$ooai:zaguan.unizar.es:134118$$pdriver$$ptrabajos-fin-grado 000134118 950__ $$a 000134118 951__ $$adeposita:2024-04-24 000134118 980__ $$aTAZ$$bTFG$$cEINA 000134118 999__ $$a20240122120812.CREATION_DATE