TAZ-TFM-2021-1521


Control de robots mediante algoritmos de aprendizaje por refuerzo profundo

Simón Tena, Alberto Fernando
Martínez Cantín, Rubén (dir.)

Universidad de Zaragoza, EINA, 2021
Departamento de Informática e Ingeniería de Sistemas, Área de Ingeniería de Sistemas y Automática

Máster Universitario en Ingeniería Electrónica

Resumen: Resumen: El objetivo de este proyecto consiste en investigar el estado del arte en técnicas de aprendizaje por refuerzo profundo con el objetivo de controlar un brazo robótico virtual de 7 juntas modelado con un sistema real. A partir del estudio de los postulados del aprendizaje por refuerzo o Reinforcement Learning, se abordan los algoritmos más recientes, como Soft Actor Critic, Proximal Policy Optimizationo, Twin Delayed DDPG, entre otros, que aproximan las funciones Bellman que determinan la política del robot mediante el uso de redes neuronales y técnicas de aprendizaje automático profundo o Deep Machine Learning. Se establece una aproximación práctica de estos algoritmos en su versión aplicable a entornos continuos, que constituyen las entradas y salidas del brazo robótico, encargado de aprender a alcanzar una posición determinada sin ningún tipo de supervisión humana. Paso a paso, se escoge el algoritmo que mejor resuelve este tipo de problemas, antes de abordar los parámetros óptimos y el tamaño de sendas redes neuronal para el actor y el crítico que mejor se adaptan a este tipo de problemas. Abstract: The aim of this project is to explore the state of the art in Deep Reinforcement Learning Techniques in order control a realistic 7-joints robotic arm. Following the study of classic Reinforcement Learning (from now on, RL) techniques, and due the complexity of the environment, we junp to cutting-edge algorithms Soft Actor Critic, Proximal Policy Optimization or Twin Delayed DDPG, among others, using techniques from Deep Machine Learning to solve Bellman functions and implement their policy. There is a practical approach in order to apply those algorithms to a continous-state environment of actions and observations where a virtualised robot has to learn how to reach a target position with no supervision at all. Step by step, best algorithm is selected and tested in order to find optimal dimensions of both actor and critic Neural Networks.

Tipo de Trabajo Académico: Trabajo Fin de Master
Notas: Resumen disponible también en inglés

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de máster




Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)