000112250 001__ 112250
000112250 005__ 20220510091958.0
000112250 037__ $$aTAZ-TFM-2021-1521
000112250 041__ $$aspa
000112250 1001_ $$aSimón Tena, Alberto Fernando
000112250 24200 $$aRobot control by Deep Reinforcement Learning techniques
000112250 24500 $$aControl de robots mediante algoritmos de aprendizaje por refuerzo profundo
000112250 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2021
000112250 500__ $$aResumen disponible también en inglés
000112250 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000112250 520__ $$aResumen: El objetivo  de  este  proyecto  consiste  en  investigar  el  estado  del  arte  en  técnicas  de aprendizaje por refuerzo profundo con el objetivo de controlar un brazo robótico virtual de 7 juntas modelado con un sistema real. A partir del estudio de los postulados del aprendizaje por refuerzo o Reinforcement Learning, se abordan los algoritmos más recientes, como Soft Actor Critic, Proximal Policy Optimizationo, Twin Delayed DDPG, entre otros, que aproximan las funciones Bellman que determinan la política del robot mediante el uso de redes neuronales y técnicas de aprendizaje automático profundo o Deep Machine Learning. Se establece una aproximación práctica de estos algoritmos en su versión aplicable a entornos continuos, que constituyen las entradas y salidas del brazo robótico, encargado de aprender a alcanzar una posición determinada sin ningún tipo de supervisión humana. Paso a paso, se escoge el algoritmo que mejor resuelve este tipo de problemas, antes de abordar los parámetros óptimos y el tamaño de sendas redes neuronal para el actor y el crítico que mejor se adaptan a este tipo de problemas. Abstract: The aim of this project is to explore the state of the art in Deep Reinforcement Learning Techniques in order control a realistic 7-joints robotic arm. Following the study of classic Reinforcement Learning (from now on, RL) techniques, and due the complexity of the environment, we junp to cutting-edge algorithms Soft Actor Critic, Proximal Policy Optimization or Twin Delayed DDPG, among others, using techniques from Deep Machine Learning to solve Bellman functions and implement their policy. There is a practical approach in order to apply those algorithms to a continous-state environment of actions and observations where a virtualised robot has to learn how to reach a target position with no supervision at all. Step by step, best algorithm is selected and tested in order to find optimal dimensions of both actor and critic Neural Networks.<br />
000112250 521__ $$aMáster Universitario en Ingeniería Electrónica
000112250 540__ $$aDerechos regulados por licencia Creative Commons
000112250 700__ $$aMartínez Cantín, Rubén$$edir.
000112250 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cIngeniería de Sistemas y Automática
000112250 8560_ $$f530996@unizar.es
000112250 8564_ $$s5819471$$uhttps://zaguan.unizar.es/record/112250/files/TAZ-TFM-2021-1521.pdf$$yMemoria (spa)
000112250 909CO $$ooai:zaguan.unizar.es:112250$$pdriver$$ptrabajos-fin-master
000112250 950__ $$a
000112250 951__ $$adeposita:2022-05-10
000112250 980__ $$aTAZ$$bTFM$$cEINA
000112250 999__ $$a20211126121615.CREATION_DATE