Resumen: Una de las principales ramas de Machine Learning es Reinforcement Learning, donde un "agente" aprende a lo largo de sucesivas iteraciones de un "entorno", a través de acciones que le llevan a cambiar ese entorno y obtener recompensas. El objetivo de este campo es la creación de estrategias o políticas que optimicen las recompensas totales obtenidas. De los muchos desafíos de este campo, uno de los que más destaca es el "Restless Multiarmed Bandit Problem", empleado en problemas re gestión de recursos con numerosas aplicaciones como el manejo de la carga de trabajo en servidores, la detección de canales de comunicación, gestión de sistemas de salud, etc. En él, múltiples procesos estocásticos evolucionan simultáneamente, los cuales pueden realizar en cada iteración dos acciones distintas. Trabajos previos han dado lugar a una política basada en la indexación de los estados de las cadenas de Markov que modelan estos problemas: los índices de Whittle. Bajo esta heurística, es posible reducir la dimensionalidad del problema, haciendo posible la obtención de políticas para incluso los problemas más complejos. En nuestro trabajo, hemos desarrollado nuevos algoritmos para el cálculo de estos índices, basados en la simulación de dos escalas de tiempo, para obtener unas condiciones de convergencia accesibles para nuestro programa.