Resumen: El realce de voz es un campo muy importante en el procesamiento de señales, que busca mejorar la claridad y la claridad del habla en entornos ruidosos. Esta investigación es crucial para aplicaciones como llamadas telefónicas, audífonos y sistemas controlados por voz, donde una comunicación de calidad es esencial. Sin embargo, los métodos existentes a menudo tienen dificultades con condiciones de ruido complejas y variables, lo que lleva a una reducción de la calidad y la inteligibilidad del habla. Los avances recientes en redes neuronales profundas, como las redes convolucionales y las redes neuronales recurrentes, han demostrado mejoras significativas en el manejo de estos desafíos. Estas redes pueden aprender patrones en el habla y el ruido, ofreciendo soluciones más robustas. No obstante, aún presentan limitaciones, incluyendo alto coste computacional y dificultades para adaptarse a entornos de ruido diversos. El objetivo principal de esta investigación es desarrollar un nuevo método de mejora del habla utilizando redes residuales anchas o \textit{Wide Residual Networks}. Este nuevo enfoque pretende superar las técnicas actuales proporcionando una mejor calidad e inteligibilidad del habla, equilibrando la complejidad computacional. El objetivo es crear un procedimiento de mejora del habla más efectivo que pueda integrarse en cualquier sistema, asegurando una comunicación más nítida y natural en entornos diversos y ruidosos. La arquitectura propuesta procesa el logaritmo de la magnitude del espectrograma, mejorando la calidad del habla a través de una serie de capas convolucionales y bloques residuales. Los resultados experimentales demuestran que las WRNs superan significativamente a los métodos existentes, como el Error de Predicción Ponderado (WPE) basado en RNN-LSTM, especialmente en el habla reverberada en campo lejano a través de varios tamaños de habitación. Esta tesis además se centra en mejorar la interpretabilidad de los modelos de aprendizaje profundo utilizados para la mejora del habla. Los métodos tradicionales de redes neuronales a menudo actúan como "cajas negras," lo que dificulta entender cómo procesan y mejoran las señales de habla. Este problema se aborda introduciendo arquitecturas y técnicas innovadoras para visualizar e interpretar el proceso de mejora. La tesis presenta las redes residuales con canales constantes (CCRN) y las redes residuales con canales constantes y camino de estado (CCRN-State). Estas arquitecturas tienen como objetivo mejorar la calidad del habla manteniendo una comprensión clara de los procesos de la red. Se introduce la Supervisión Progresiva como una técnica para monitorear el proceso de mejora en cada bloque de la red. Este método asegura mejoras incrementales en la calidad del habla y ayuda a identificar etapas críticas que impactan significativamente el resultado final. Los resultados experimentales muestran que estos métodos no solo mejoran la calidad del habla, sino que también proporcionan valiosas perspectivas sobre el funcionamiento interno de la red, llevando a un mejor equilibrio entre rendimiento e interpretabilidad. Integrar técnicas de visualización en arquitecturas de aprendizaje profundo puede mejorar significativamente tanto la interpretabilidad como la efectividad de los modelos de mejora del habla. Por último la tesis explora el desarrollo y la aplicación de estrategias de pérdida progresiva para mejorar la calidad del habla a través del aprendizaje profundo. El enfoque implica el uso de métodos de Mejora Progresiva del Habla (PSE), que mejoran la claridad del habla refinando incrementalmente el proceso de mejora. La investigación introduce dos arquitecturas principales: redes convolucionales progresivas (P-CNN) y redes residuales progresivas (P-ResNet). Estas arquitecturas utilizan funciones de coste novedosas como la progresión ponderada (WP) y la progresión uniforme (UP) para reducir sistemáticamente el ruido y la reverberación. Las evaluaciones experimentales demuestran que los métodos PSE superan a los enfoques tradicionales, particularmente en entornos ruidosos y reverberantes. La tesis destaca la efectividad de las estrategias progresivas en la estabilización del proceso de entrenamiento, asegurando un rendimiento robusto en diferentes condiciones y estableciendo un nuevo estándar para las tecnologías de mejora del habla.