Resumen: La creación de música mediante tecnologías de Aprendizaje Profundo comprende una serie de técnicas y aplicaciones que van desde el análisis musical hasta la producción. En esta tesis doctoral se abordan distintas aplicaciones que, en su conjunto, forman parte y tienen como objetivos la mejora del flujo de trabajo de profesionales de la música como compositores o productores musicales y la democratización de la música para hacerla más accesible a todos los públicos. Es relevante recalcar que, a pesar de la automatización que puedan significar los modelos utilizados en esta tesis y en otros trabajos de referencia, es siempre necesaria la supervisión de humanos, dado que el propósito de estas técnicas es el de potenciar la creatividad de las personas. En esta tesis doctoral se presentan distintos temas relacionados con el proceso de creación musical, desde el análisis, que es el primer paso, pasando por la composición hasta la producción. Cada uno de estos grupos contiene distintos temas de investigación que tratan de resolver varios problemas como por ejemplo el análisis de la estructura formal de piezas musicales como técnica dentro del análisis musical, o la restauración de audio y extración de sonidos relacionadas con la producción de audio. Primero, se abordan técnicas relativas al análisis musical. Dentro de estas técnicas se encuentra, entre otros, el análisis de la estructura de piezas musicales o análisis formal. Este paso es de vital importancia para entender la música, desde el estilo de un compositor determinado hasta las estructuras que conforman un tipo de pieza como puede ser la conocida forma sonata. Bajo este marco, abordaremos el análisis formal de canciones de pop desde la señal de audio teniendo como objetivo principal la segmentación de dichas canciones en base a su estructura. En segundo lugar, se presenta un software de código abierto que contiene la implementación de diversas técnicas del estado del arte relativas al análisis musical incluyendo algoritmos de estimación de tonalidad, o a la composición musical simbólica mediante la implementación de varios tokenizers que convierten la entrada de música en ficheros MIDI a tokens que alimentan modelos de composición. Además, incluye diversos tipos de ficheros de salida como protobuf y JSON para poder trabajar con dicho software en proyectos de investigación o comerciales. Para finalizar, se abordan dos técnicas relativas a la producción musical. La primera de ellas está relacionada a la restauración de audio, en concreto, de pistas de voz cantada. Mediante novedosas técnicas de modelos de difusión, podemos restaurar las pistas de voz que estén deterioradas por algún proceso como el clipping o saturación, o incrementar su ancho de banda. Para evitar la necesidad de reentrenar el modelo para cada degradación, se presentarán técnicas de muestreo posterior o posterior sampling y se optimizará el número de etapas durante el proceso de muestreo. Estas técnicas son de vital importancia en estudios de grabación donde la calidad musical debe de cumplir unos estándares para poder ser comercialiaza. Por otro lado, se aborda la extracción de sonidos, tanto de un canal como de dos canales, emulando el sistema auditivo humano. Utilizando una función de pérdida específica, podemos reducir el tiempo estimado de llegada de la señal. Para señales de un solo canal, utilizaremos un modelo fundacional del audio o audio foundation model para mejorar la calidad de la extracción cuando utilizamos un enrollment clue, o pista de referencia del sonido que se quiere extraer. Esta tecnología es importante en aparatos auditivos para personas con déficits auditivos, aplicaciones de realidad virtual y para productores musicales a la hora de hacer remezclas de canciones. Como conclusión, en esta tesis se presentan diversos temas dentro del marco de las tecnologías musicales utilizando varias técnicas de aprendizaje profundo. Dado que el proceso de creación musical precisa de un estudio del lenguaje y análisis musical exhaustivo, en esta tesis se presentan técnicas que van en la línea de la democratización de la música para hacerla más accesible a cualquier público. Pese a que cada tecnología es estudiada de forma independiente, en el futuro, se pueden consolidar como un solo modelo end-to-end que ayude a las personas a crear música de una forma más creativa y accesible para todos los públicos. -------------------------- The creation of music using Deep Learning technologies encompasses a range of techniques and applications, from musical analysis to production. This doctoral thesis addresses various applications that collectively aim to enhance the workflow of music professionals such as composers or music producers, and to democratize music to make it more accessible to all audiences. It is important to emphasize that, despite the automation that the models used in this thesis and other reference works may imply, human supervision is always necessary, as the purpose of these techniques is to enhance people's creativity. This doctoral thesis presents different topics related to the musical creation process, starting from analysis, which is the first step, through composition to production. Each of these groups contains various research topics that seek to solve several problems, such as analyzing the formal structure of musical pieces as a technique within musical analysis, or audio restoration and sound extraction related to audio production. First, techniques for musical analysis are addressed, including the analysis of the structure of musical pieces, also known as formal analysis. This step is crucial for understanding music, from the style of a particular composer to the structures that comprise a type of piece, such as the well-known sonata form. Within this framework, we will address the formal analysis of pop songs from the audio signal, with the main objective of segmenting these songs based on their structure. Secondly, an open-source software is presented that contains the implementation of various state-of-the-art techniques related to musical analysis, including tonality estimation algorithms, or symbolic musical composition through the implementation of various tokenizers that convert music input in MIDI files to tokens that feed composition models. Additionally, it includes various types of output files such as protobuf and JSON to allow working with this software in research or commercial projects. Finally, two techniques related to musical production are addressed. The first one is related to audio restoration, specifically for voice tracks. Using novel diffusion model techniques, we can restore voice tracks that are degraded by processes such as clipping or saturation, or increase their bandwidth. To avoid the need to retrain the model for each degradation, posterior sampling techniques will be presented, and the number of steps during the sampling process will be optimized. These techniques are vital in recording studies where musical quality must meet certain standards to be marketable. On the other hand, sound extraction is addressed, both from a single channel and from two channels, emulating the human auditory system. By using a specific loss function, we can reduce the estimated arrival time of the signal. For single-channel signals, we will use an audio foundation model to improve the quality of extraction when using an enrollment clue, or reference track of the sound to be extracted. This technology is important in hearing aids for people with hearing deficits, virtual reality applications, and for music producers when remixing songs. In conclusion, this thesis presents various topics within the framework of music technologies using several deep learning techniques. Since the process of musical creation requires a thorough study of language and musical analysis, this thesis presents techniques aimed at democratizing music to make it more accessible to any audience. Although each technology is studied independently, in the future, they can be consolidated into a single end-to-end model that helps people create music in a more creative and accessible way for all audiences.
Área de conocimiento: Ingeniería y Arquitectura Nota: Presentado: 24 03 2025 Nota: Tesis-Univ. Zaragoza, , 2025
Aportación del TFG/M a la Sostenibilidad: Desarrollar infraestructuras resilientes, promover la industrialización inclusiva y sostenible, y fomentar la innovación.