TAZ-TFG-2024-079


Detección de malware utilizando técnicas de machine learning.

Varea Palacios, Julia
Álvarez Pérez-Aradros, Pedro Javier (dir.) ; Raducu, Razvan (dir.)

Universidad de Zaragoza, EINA, 2024
Departamento de Informática e Ingeniería de Sistemas, Área de Lenguajes y Sistemas Informáticos

Graduado en Ingeniería Informática

Resumen: En la era digital actual la ciberseguridad se ha convertido en un elemento crítico para individuos, empresas e instituciones de todo el mundo. Frente al aumento del número de muestras de malware recopiladas y de su constante evolución, las técnicas de Machine Learning se presentan como una solución novedosa para la detección efectiva del malware. Este trabajo se centra en la detección de malware, identificando si una muestra es maligna o no, empleando técnicas de Machine Learning para reconocer y clasificar muestras de software maligno en sus categorías o familias correspondientes. Mediante la automatización del proceso de detección de comportamientos maliciosos en trazas de ejecución de sistemas software y aplicando modelos de Machine Learning, el propósito de este trabajo es investigar la eficacia de técnicas de Machine Learning para la detección de malware. Para llevar a cabo el proyecto, el primer paso es la selección de un dataset adecuado que contenga muestras de varias familias de malware con sus trazas de ejecución. Una vez conseguido, se comenzará el proceso de filtrado y preparado de los datos hasta obtener un dataset que se adecue a las necesidades del proyecto. Estos datos se someten a una serie de procesos de extracción de n-gramas, de creación de diccionarios y un cálculo de features para obtener características clasificatorias para cada una de las familias de malware. Para cada conjunto de features calculadas con cada valor de n se crean modelos de Machine Learning. Estos modelos emplean varios clasificadores (KNN, SVM, Gradient Boosting y Regresión Logística) y se calcularán tanto clasificadores simples (un clasificador por familia de malware) como clasificadores múltiples (un solo modelo capaz de clasificar todas las muestras). Una vez obtenidos todos los modelos se calculan métricas para realizar una comparación de todos ellos. Al analizarlos se ha observado que los resultados obtenidos por los clasificadores múltiples superan los obtenidos por los clasificadores simples. Para intentar mejorar los valores obtenidos por los modelos se implementará una mejora basada en el filtrado de categorías de interés. Se definió una categoría de interés como una categoría de llamadas al sistema asociada con comportamientos maliciosos o que hagan vulnerable al sistema. Tras analizar los nuevos resultados se observa que la totalidad de los valores devueltos mejora, tanto en los clasificadores simples como en los clasificadores múltiples. Esto demuestra que la mejora implementada es efectiva a la hora de detectar y clasificar distintas categorías de malware, independientemente del modelo utilizado para la clasificación de las mismas. Gracias a la automatización del proceso, este proyecto abre paso a poder realizar trabajos futuros, añadiendo más funcionalidades o aplicando el proceso a otros datasets.


Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de grado



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)