TAZ-TFG-2023-2100


Diseño e implementación de tolerancia a fallos con baja latencia en simulación distribuida.

Vela Tambo, Javier
Arronategui Arribalzaba, Unai (dir.) ; Bañares Bañares, José Ángel (dir.)

Universidad de Zaragoza, EINA, 2023
Departamento de Informática e Ingeniería de Sistemas, Área de Arquitectura y Tecnología de Computadores

Graduado en Ingeniería Informática

Resumen: El proyecto forma parte de la investigación en torno a un simulador distribuido de sistemas de eventos discretos. La naturaleza distribuida y escalable del simulador implica la presencia de fallos, por lo tanto, es fundamental contar con mecanismos de tolerancia a fallos en el sistema. En un entorno distribuido, existe un compromiso entre las prestaciones y la tolerancia a fallos, ya que, el aumento en el número de mensajes y la sincronización, conlleva un incremento en la latencia y una reducción en el rendimiento. Obtener un rendimiento óptimo en una simulación tolerante a fallos es un desafío. Por lo tanto, el objetivo del proyecto es proponer un modelo de tolerancia a fallos original que preserve las prestaciones del sistema en ausencia de fallos. La tolerancia a fallos implementada se basa en la replicación, la cual está adaptada para la simulación conservativa. Se aprovechan los mensajes y tiempos propios de la simulación para preservar la consistencia y se desacopla la ejecución de las réplicas, lo que reduce la cantidad de mensajes y sincronización necesarios. Mediante el desacoplamiento se logra una consistencia laxa que converge tras un fallo como resultado de un algoritmo diseñado para mantener el registro del estado de la simulación. Estos mecanismos también incluyen la detección de fallos entre nodos vecinos y la recuperación en caso de fallo. Adicionalmente, el diseño incluye un proceso externo que permite la incorporación dinámica de nuevos nodos para retomar la simulación después de un fallo. Se ha logrado un rendimiento óptimo en la simulación mediante un enfoque innovador en el diseño de mecanismos de tolerancia a fallos. En ausencia de fallos, el coste adicional se limita al envío de eventos para persistir el estado en las réplicas, sin necesidad de sincronización adicional. Los resultados demuestran la eficacia de las estrategias implementadas para tolerar múltiples fallos durante la ejecución de la simulación. Además, se ha optimizado la implementación base mediante una gestión eficiente de conexiones y datos, reduciendo el tiempo de ejecución de manera significativa. Como resultado, el proyecto sienta una base sólida para futuras investigaciones y mejoras en la tolerancia a fallos de simulación distribuida.

Tipo de Trabajo Académico: Trabajo Fin de Grado
Notas: Resumen disponible también en inglés

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de grado




Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)