000097635 001__ 97635
000097635 005__ 20210118122852.0
000097635 037__ $$aTAZ-TFM-2020-756
000097635 041__ $$aspa
000097635 1001_ $$aRobledo Relaño, Francisco
000097635 24200 $$aLearning and decision making under uncertainty
000097635 24500 $$aAprendizaje y toma de decisiones bajo incertidumbre
000097635 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2020
000097635 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000097635 520__ $$aUna de las principales ramas de Machine Learning es Reinforcement Learning, donde un "agente" aprende a lo largo de sucesivas iteraciones de un "entorno", a través de acciones que le llevan a cambiar ese entorno y obtener recompensas. El objetivo de este campo es la creación de estrategias o políticas que optimicen las recompensas totales obtenidas. <br />De los muchos desafíos de este campo, uno de los que más destaca es el "Restless Multiarmed Bandit Problem", empleado en problemas re gestión de recursos con numerosas aplicaciones como el manejo de la carga de trabajo en servidores, la detección de canales de comunicación, gestión de sistemas de salud, etc. En él, múltiples procesos estocásticos evolucionan simultáneamente, los cuales pueden realizar en cada iteración dos acciones distintas. Trabajos previos han dado lugar a una política basada en la indexación de los estados de las cadenas de Markov que modelan estos problemas: los índices de Whittle. Bajo esta heurística, es posible reducir la dimensionalidad del problema, haciendo posible la obtención de políticas para incluso los problemas más complejos.<br />En nuestro trabajo, hemos desarrollado nuevos algoritmos para el cálculo de estos índices, basados en la simulación de dos escalas de tiempo, para obtener unas condiciones de convergencia accesibles para nuestro programa.<br /><br />
000097635 521__ $$aMáster Universitario en Modelización e Investigación Matemática, Estadística y Computación
000097635 540__ $$aDerechos regulados por licencia Creative Commons
000097635 700__ $$aAyesta, Urtzi$$edir.
000097635 7102_ $$aUniversidad de Zaragoza$$bMétodos Estadísticos$$cEstadística e Investigación Operativa
000097635 7202_ $$aAlcalá Nalvaiz, José Tomás$$eponente
000097635 8560_ $$f794548@unizar.es
000097635 8564_ $$s1075744$$uhttps://zaguan.unizar.es/record/97635/files/TAZ-TFM-2020-756.pdf$$yMemoria (spa)
000097635 909CO $$ooai:zaguan.unizar.es:97635$$pdriver$$ptrabajos-fin-master
000097635 950__ $$a
000097635 951__ $$adeposita:2021-01-18
000097635 980__ $$aTAZ$$bTFM$$cCIEN
000097635 999__ $$a20200713084516.CREATION_DATE