<?xml version="1.0" encoding="UTF-8"?>
<collection xmlns="http://www.loc.gov/MARC21/slim">
    <record>
        <controlfield tag="001">61250</controlfield>
        <controlfield tag="005">20170510132220.0</controlfield>
        <datafield tag="037" ind1=" " ind2=" ">
            <subfield code="a">TAZ-TFG-2016-2291</subfield>
        </datafield>
        <datafield tag="041" ind1=" " ind2=" ">
            <subfield code="a">spa</subfield>
        </datafield>
        <datafield tag="100" ind1="1" ind2=" ">
            <subfield code="a">Sabater Bailón, Alberto</subfield>
        </datafield>
        <datafield tag="242" ind1="0" ind2="0">
            <subfield code="a">Teaching a computer how to play videogames using Deep Reinforcement Learning</subfield>
        </datafield>
        <datafield tag="245" ind1="0" ind2="0">
            <subfield code="a">Enseñando al ordenador a jugar a videojuegos mediante aprendizaje profundo por refuerzo</subfield>
        </datafield>
        <datafield tag="260" ind1=" " ind2=" ">
            <subfield code="a">Zaragoza</subfield>
            <subfield code="b">Universidad de Zaragoza</subfield>
            <subfield code="c">2016</subfield>
        </datafield>
        <datafield tag="506" ind1=" " ind2=" ">
            <subfield code="a">by-nc-sa</subfield>
            <subfield code="b">Creative Commons</subfield>
            <subfield code="c">3.0</subfield>
            <subfield code="u">http://creativecommons.org/licenses/by-nc-sa/3.0/</subfield>
        </datafield>
        <datafield tag="520" ind1=" " ind2=" ">
            <subfield code="a">Uno de los mayores aspectos a considerar a la hora de trabajar con algoritmos de Aprendizaje Automático es la relación existente entre la arquitectura de la red neuronal, la complejidad de los datos de entrenamiento, el tiempo invertido en el aprendizaje y la calidad de los resultados obtenidos. El problema que aquí se aborda es el entrenamiento de un agente para que sea capaz de jugar a videojuegos. Debido a su complejidad, este problema es tratado con grandes modelos de redes neuronales como la utilizada por el grupo Google DeepMind en el proyecto del que parte este trabajo. En él, se entrena una red neuronal profunda mediante aprendizaje por refuerzo para que aprenda a jugar a juegos de Atari 2600. Dicho entrenamiento aprende la acción óptima a realizar en cada situación tomando como entrada la pantalla de juego y la puntuación conseguida en cada momento. Se ha llevado a cabo un análisis exhaustivo de todo el proceso de aprendizaje así como de los resultados obtenidos por el mismo, con el fin de identificar posibles alternativas que conduzcan a una mejora de los resultados y/o a una mejora de la velocidad de convergencia del algoritmo. Como resultado de este análisis, se ha diseñado una nueva arquitectura de la red neuronal en la que se han usado pesos pre-entrenados. Esta inicialización de la red se ha llevado a cabo mediante la trasferencia de conocimiento de otros modelos entrenados con juegos de características similares y mediante el aprendizaje de características de forma no supervisada.Para este último caso, se ha llevado a cabo un estudio de diferentes metodologías de entrenamiento y se ha probado finalmente la eficiencia de la generación de pesos mediante K-means y autocodificadores. Como entrada de este aprendizaje no supervisado se han utilizado vídeos de diferentes partidas subidas por la comunidad a YouTube, de los que se han extraído y adaptado los frames que los componen.</subfield>
        </datafield>
        <datafield tag="521" ind1=" " ind2=" ">
            <subfield code="a">Graduado en Ingeniería Informática</subfield>
        </datafield>
        <datafield tag="540" ind1=" " ind2=" ">
            <subfield code="a">Derechos regulados por licencia Creative Commons</subfield>
        </datafield>
        <datafield tag="700" ind1=" " ind2=" ">
            <subfield code="a">Bobed Lisbona, Carlos</subfield>
            <subfield code="e">dir.</subfield>
        </datafield>
        <datafield tag="700" ind1=" " ind2=" ">
            <subfield code="a">Mena Nieto, Eduardo</subfield>
            <subfield code="e">dir.</subfield>
        </datafield>
        <datafield tag="710" ind1="2" ind2=" ">
            <subfield code="a">Universidad de Zaragoza</subfield>
            <subfield code="b">Informática e Ingeniería de Sistemas</subfield>
            <subfield code="c">Lenguajes y Sistemas Informáticos</subfield>
        </datafield>
        <datafield tag="856" ind1="0" ind2=" ">
            <subfield code="f">546297@celes.unizar.es</subfield>
        </datafield>
        <datafield tag="856" ind1="4" ind2=" ">
            <subfield code="s">2879011</subfield>
            <subfield code="u">http://zaguan.unizar.es/record/61250/files/TAZ-TFG-2016-2291.pdf</subfield>
            <subfield code="y">Memoria (spa)</subfield>
        </datafield>
        <datafield tag="909" ind1="C" ind2="O">
            <subfield code="o">oai:zaguan.unizar.es:61250</subfield>
            <subfield code="p">driver</subfield>
            <subfield code="p">trabajos-fin-grado</subfield>
        </datafield>
        <datafield tag="950" ind1=" " ind2=" ">
            <subfield code="a"></subfield>
        </datafield>
        <datafield tag="951" ind1=" " ind2=" ">
            <subfield code="a">deposita:2017-05-10</subfield>
        </datafield>
        <datafield tag="980" ind1=" " ind2=" ">
            <subfield code="a">TAZ</subfield>
            <subfield code="b">TFG</subfield>
            <subfield code="c">EINA</subfield>
        </datafield>
    </record>

    
</collection>