000097635 001__ 97635 000097635 005__ 20210118122852.0 000097635 037__ $$aTAZ-TFM-2020-756 000097635 041__ $$aspa 000097635 1001_ $$aRobledo Relaño, Francisco 000097635 24200 $$aLearning and decision making under uncertainty 000097635 24500 $$aAprendizaje y toma de decisiones bajo incertidumbre 000097635 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2020 000097635 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/ 000097635 520__ $$aUna de las principales ramas de Machine Learning es Reinforcement Learning, donde un "agente" aprende a lo largo de sucesivas iteraciones de un "entorno", a través de acciones que le llevan a cambiar ese entorno y obtener recompensas. El objetivo de este campo es la creación de estrategias o políticas que optimicen las recompensas totales obtenidas. <br />De los muchos desafíos de este campo, uno de los que más destaca es el "Restless Multiarmed Bandit Problem", empleado en problemas re gestión de recursos con numerosas aplicaciones como el manejo de la carga de trabajo en servidores, la detección de canales de comunicación, gestión de sistemas de salud, etc. En él, múltiples procesos estocásticos evolucionan simultáneamente, los cuales pueden realizar en cada iteración dos acciones distintas. Trabajos previos han dado lugar a una política basada en la indexación de los estados de las cadenas de Markov que modelan estos problemas: los índices de Whittle. Bajo esta heurística, es posible reducir la dimensionalidad del problema, haciendo posible la obtención de políticas para incluso los problemas más complejos.<br />En nuestro trabajo, hemos desarrollado nuevos algoritmos para el cálculo de estos índices, basados en la simulación de dos escalas de tiempo, para obtener unas condiciones de convergencia accesibles para nuestro programa.<br /><br /> 000097635 521__ $$aMáster Universitario en Modelización e Investigación Matemática, Estadística y Computación 000097635 540__ $$aDerechos regulados por licencia Creative Commons 000097635 700__ $$aAyesta, Urtzi$$edir. 000097635 7102_ $$aUniversidad de Zaragoza$$bMétodos Estadísticos$$cEstadística e Investigación Operativa 000097635 7202_ $$aAlcalá Nalvaiz, José Tomás$$eponente 000097635 8560_ $$f794548@unizar.es 000097635 8564_ $$s1075744$$uhttps://zaguan.unizar.es/record/97635/files/TAZ-TFM-2020-756.pdf$$yMemoria (spa) 000097635 909CO $$ooai:zaguan.unizar.es:97635$$pdriver$$ptrabajos-fin-master 000097635 950__ $$a 000097635 951__ $$adeposita:2021-01-18 000097635 980__ $$aTAZ$$bTFM$$cCIEN 000097635 999__ $$a20200713084516.CREATION_DATE