Resumen: Las redes neuronales han experimentado un desarrollo importante en los últimos años, especialmente en el procesado natural del lenguaje mediante el uso de una arquitectura llamada Transformer, la cual ha impulsado el desarrollo de herramientas como Chat-GPT o BERT Large. Dado que la música se puede representar en formato MIDI, y consecuentemente en tokens, el equipo de Microsoft Asia desarrolló Museformer basándose en la arquitectura Transformer y realizando unas variaciones dentro de la misma para poder componer música de forma más precisa mediante el uso de dos tipos de mecanismos de atención, fino y grueso. La atención fina se encarga de relacionar compases dentro de la canción y la atención gruesa de generar variación dentro de la pieza, además de reducir la complejidad computacional del mecanismo de atención. Mediante un entrenamiento en una base de datos MIDI amplia, se pueden inferir canciones a partir de ruido en la entrada. Para finalizar se describe de forma teórica cómo debería implementarse un condicionamiento a la red para poder introducir texto en la entrada en vez de ruido para indicarle el estilo, género, artista, etc.