61250 20170510132220.0 TAZ-TFG-2016-2291 spa Sabater Bailón, Alberto Teaching a computer how to play videogames using Deep Reinforcement Learning Enseñando al ordenador a jugar a videojuegos mediante aprendizaje profundo por refuerzo Zaragoza Universidad de Zaragoza 2016 by-nc-sa Creative Commons 3.0 http://creativecommons.org/licenses/by-nc-sa/3.0/ Uno de los mayores aspectos a considerar a la hora de trabajar con algoritmos de Aprendizaje Automático es la relación existente entre la arquitectura de la red neuronal, la complejidad de los datos de entrenamiento, el tiempo invertido en el aprendizaje y la calidad de los resultados obtenidos. El problema que aquí se aborda es el entrenamiento de un agente para que sea capaz de jugar a videojuegos. Debido a su complejidad, este problema es tratado con grandes modelos de redes neuronales como la utilizada por el grupo Google DeepMind en el proyecto del que parte este trabajo. En él, se entrena una red neuronal profunda mediante aprendizaje por refuerzo para que aprenda a jugar a juegos de Atari 2600. Dicho entrenamiento aprende la acción óptima a realizar en cada situación tomando como entrada la pantalla de juego y la puntuación conseguida en cada momento. Se ha llevado a cabo un análisis exhaustivo de todo el proceso de aprendizaje así como de los resultados obtenidos por el mismo, con el fin de identificar posibles alternativas que conduzcan a una mejora de los resultados y/o a una mejora de la velocidad de convergencia del algoritmo. Como resultado de este análisis, se ha diseñado una nueva arquitectura de la red neuronal en la que se han usado pesos pre-entrenados. Esta inicialización de la red se ha llevado a cabo mediante la trasferencia de conocimiento de otros modelos entrenados con juegos de características similares y mediante el aprendizaje de características de forma no supervisada.Para este último caso, se ha llevado a cabo un estudio de diferentes metodologías de entrenamiento y se ha probado finalmente la eficiencia de la generación de pesos mediante K-means y autocodificadores. Como entrada de este aprendizaje no supervisado se han utilizado vídeos de diferentes partidas subidas por la comunidad a YouTube, de los que se han extraído y adaptado los frames que los componen. Graduado en Ingeniería Informática Derechos regulados por licencia Creative Commons Bobed Lisbona, Carlos dir. Mena Nieto, Eduardo dir. Universidad de Zaragoza Informática e Ingeniería de Sistemas Lenguajes y Sistemas Informáticos 546297@celes.unizar.es 2879011 http://zaguan.unizar.es/record/61250/files/TAZ-TFG-2016-2291.pdf Memoria (spa) oai:zaguan.unizar.es:61250 driver trabajos-fin-grado deposita:2017-05-10 TAZ TFG EINA