000061250 001__ 61250
000061250 005__ 20170510132220.0
000061250 037__ $$aTAZ-TFG-2016-2291
000061250 041__ $$aspa
000061250 1001_ $$aSabater Bailón, Alberto
000061250 24200 $$aTeaching a computer how to play videogames using Deep Reinforcement Learning
000061250 24500 $$aEnseñando al ordenador a jugar a videojuegos mediante aprendizaje profundo por refuerzo
000061250 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2016
000061250 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000061250 520__ $$aUno de los mayores aspectos a considerar a la hora de trabajar con algoritmos de Aprendizaje Automático es la relación existente entre la arquitectura de la red neuronal, la complejidad de los datos de entrenamiento, el tiempo invertido en el aprendizaje y la calidad de los resultados obtenidos. El problema que aquí se aborda es el entrenamiento de un agente para que sea capaz de jugar a videojuegos. Debido a su complejidad, este problema es tratado con grandes modelos de redes neuronales como la utilizada por el grupo Google DeepMind en el proyecto del que parte este trabajo. En él, se entrena una red neuronal profunda mediante aprendizaje por refuerzo para que aprenda a jugar a juegos de Atari 2600. Dicho entrenamiento aprende la acción óptima a realizar en cada situación tomando como entrada la pantalla de juego y la puntuación conseguida en cada momento. Se ha llevado a cabo un análisis exhaustivo de todo el proceso de aprendizaje así como de los resultados obtenidos por el mismo, con el fin de identificar posibles alternativas que conduzcan a una mejora de los resultados y/o a una mejora de la velocidad de convergencia del algoritmo. Como resultado de este análisis, se ha diseñado una nueva arquitectura de la red neuronal en la que se han usado pesos pre-entrenados. Esta inicialización de la red se ha llevado a cabo mediante la trasferencia de conocimiento de otros modelos entrenados con juegos de características similares y mediante el aprendizaje de características de forma no supervisada.Para este último caso, se ha llevado a cabo un estudio de diferentes metodologías de entrenamiento y se ha probado finalmente la eficiencia de la generación de pesos mediante K-means y autocodificadores. Como entrada de este aprendizaje no supervisado se han utilizado vídeos de diferentes partidas subidas por la comunidad a YouTube, de los que se han extraído y adaptado los frames que los componen.
000061250 521__ $$aGraduado en Ingeniería Informática
000061250 540__ $$aDerechos regulados por licencia Creative Commons
000061250 700__ $$aBobed Lisbona, Carlos$$edir.
000061250 700__ $$aMena Nieto, Eduardo$$edir.
000061250 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cLenguajes y Sistemas Informáticos
000061250 8560_ $$f546297@celes.unizar.es
000061250 8564_ $$s2879011$$uhttps://zaguan.unizar.es/record/61250/files/TAZ-TFG-2016-2291.pdf$$yMemoria (spa)
000061250 909CO $$ooai:zaguan.unizar.es:61250$$pdriver$$ptrabajos-fin-grado
000061250 950__ $$a
000061250 951__ $$adeposita:2017-05-10
000061250 980__ $$aTAZ$$bTFG$$cEINA