Resumen: Las cámaras de eventos son sensores de visión bio-inspirados cuya salida muestra cambios en la intensidad luminosa de la escena en vez de las imágenes RGB estándares de las cámaras tradicionales. Estas cámaras ofrecen grandes ventajas tales como un gran rango dinámico, no tienen distorsión por movimiento y su latencia de procesado es de microsegundos. Estas características hacen que sea una tecnología muy prometedora para diversas aplicaciones en el ámbito por ejemplo de la robótica o la vídeo-vigilancia. En particular este trabajo se centra en estudiar como utilizar este tipo de cámaras para reconocimiento de acciones, ya que potencialmente estas cámaras pueden ofrecer ventajas como ser capaces de captar movimientos a alta velocidad y con baja iluminación. Todavía hay pocos trabajos e investigaciones sobre esta aplicación de la tecnología de eventos, y por tanto el trabajo se centra en los siguientes puntos: - Comprobar el funcionamiento de los métodos estándares para el reconocimiento de acciones en imágenes con las cámaras de eventos. - Proponer métodos o mejoras sobre estos métodos tradicionales tanto en la representación de eventos como en el procesamiento de los eventos. - Realizar pruebas de reconocimiento de acciones en escenarios donde cámaras tradicionales tienen problemas para obtener información significativa. En este proyecto, en primer lugar se ha estudiado el funcionamiento de esta tecnología y datos y sistemas existentes para reconocimiento de acciones, con datos de eventos o imagen convencional. A continuación se ha diseñado, implementado y evaluado un sistema para reconocimiento de acciones a partir de información de eventos. Las fases principales de este sistema son las siguientes. La codificación de los eventos en frames, donde nos centramos en evaluar dos representaciones, que se proponen en la literatura actual disponible: representación de eventos por tiempo y por eventos. Un clasificador que predice la acción dado uno o varios frames de eventos. En particular se han implementado dos variaciones del sistema, con un clasificador que evalua los frames de forma individual y otro que clasifica grupos de frames. Preprocesado y postprocesado de los frames. Se han propuesto dos estrategias de preprocesado de los frames antes de pasar al clasificador, y dos métodos de post-procesamiento para conseguir una predicción final más robusta, uno simple de consenso entre frames y otro de consenso ponderado buscando un método que posiblemente se adapte mejor a la evolución del movimiento. Distintas configuraciones de estas fases se han evaluado sobre un modelo de red neuronal sencilla, que se establecerá como una red de arquitectura base para tener resultados de manera rápida y poder sacar conclusiones. La configuración que da mejores resultados, se ha evaluado de manera más exhaustiva con una arquitectura de red neuronal mucho más compleja, una red Resnet50V2, para ver mejor el posible alcance de los resultados. Como principal resultado de este trabajo, se ha conseguido proponer un sistema adaptado a los datos de eventos que mejora el rendimiento respecto a procedimientos estándar para procesado de imagen convencional. En particular, se ha concluido que la representación de eventos por eventos es más robusta y mejor que la de por tiempo, debido a que no muestra las inconsistencias en la ejecución de movimientos, y que es esencial incorporar información de la evolución del movimiento.