TAZ-TFG-2016-2291


Enseñando al ordenador a jugar a videojuegos mediante aprendizaje profundo por refuerzo

Sabater Bailón, Alberto
Bobed Lisbona, Carlos (dir.) ; Mena Nieto, Eduardo (dir.)

Universidad de Zaragoza, EINA, 2016
Departamento de Informática e Ingeniería de Sistemas, Área de Lenguajes y Sistemas Informáticos

Graduado en Ingeniería Informática

Resumen: Uno de los mayores aspectos a considerar a la hora de trabajar con algoritmos de Aprendizaje Automático es la relación existente entre la arquitectura de la red neuronal, la complejidad de los datos de entrenamiento, el tiempo invertido en el aprendizaje y la calidad de los resultados obtenidos. El problema que aquí se aborda es el entrenamiento de un agente para que sea capaz de jugar a videojuegos. Debido a su complejidad, este problema es tratado con grandes modelos de redes neuronales como la utilizada por el grupo Google DeepMind en el proyecto del que parte este trabajo. En él, se entrena una red neuronal profunda mediante aprendizaje por refuerzo para que aprenda a jugar a juegos de Atari 2600. Dicho entrenamiento aprende la acción óptima a realizar en cada situación tomando como entrada la pantalla de juego y la puntuación conseguida en cada momento. Se ha llevado a cabo un análisis exhaustivo de todo el proceso de aprendizaje así como de los resultados obtenidos por el mismo, con el fin de identificar posibles alternativas que conduzcan a una mejora de los resultados y/o a una mejora de la velocidad de convergencia del algoritmo. Como resultado de este análisis, se ha diseñado una nueva arquitectura de la red neuronal en la que se han usado pesos pre-entrenados. Esta inicialización de la red se ha llevado a cabo mediante la trasferencia de conocimiento de otros modelos entrenados con juegos de características similares y mediante el aprendizaje de características de forma no supervisada.Para este último caso, se ha llevado a cabo un estudio de diferentes metodologías de entrenamiento y se ha probado finalmente la eficiencia de la generación de pesos mediante K-means y autocodificadores. Como entrada de este aprendizaje no supervisado se han utilizado vídeos de diferentes partidas subidas por la comunidad a YouTube, de los que se han extraído y adaptado los frames que los componen.

Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de grado



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)