TAZ-TFM-2019-255

Estrategias de Deep Learning en SLAM Activo

Placed Perales, Julio Alberto
Castellanos Gómez, José Ángel (dir.)

Universidad de Zaragoza, EINA, 2019
Departamento de Informática e Ingeniería de Sistemas, Área de Ingeniería de Sistemas y Automática

Máster Universitario en Ingeniería Industrial

Resumen: El SLAM (Simultanous Localisation and Mapping) activo hace referencia al problema de controlar el movimiento de un robot que está realizando SLAM, de forma que se minimice la incertidumbre del mapa creado y de su localización. Tradicionalmente ha sido resuelto mediante filtros u otras aproximaciones que involucran procesos de decisión de Markov o algoritmos de aprendizaje por refuerzo. En éstos, es necesario (i) identificar las posibles acciones, (ii) calcular el valor futuro esperado de cada una de ellas (e.g. mediante funciones de utilidad) y (iii) ejecutar la acción óptima. En este Trabajo Fin de Máster se analiza la resolución del problema mediante redes neuronales profundas, un campo de gran auge en la actualidad donde el aprendizaje por excelencia es el supervisado, que atrae la mayoría de investigaciones y aplicaciones de la literatura. La naturaleza del problema abordado, sin embargo, hace necesario el uso de otra forma de aprendizaje automático: el aprendizaje por refuerzo profundo. Se ha analizado el potencial y las limitaciones de este marco de trabajo, empleado normalmente en entornos de simulación sencillos, donde la diferencia entre exploración y navegación y el problema de generalización (clave en el SLAM activo, puesto que la información a priori del entorno es nula) son habitualmente obviados. Se han implementado distintas aproximaciones de aprendizaje por refuerzo y refuerzo profundo basadas en Q-learning sobre el entorno de simulación Gazebo. Ambos aprendizajes y su capacidad de generalización a escenarios desconocidos se estudian en profundidad, consiguiendo que agentes entrenados naveguen por entornos totalmente desconocidos. Además, se propone la inclusión de una métrica de la matriz de covarianza en la función de recompensa, consiguiendo una reducción de entropía paulatina durante la exploración y favoreciendo acciones mucho más óptimas en términos de reducción de la in- certidumbre.