Resumen: El desarrollo de nuevos algoritmos para la construcción de modelos predictivos con mayor capacidad de discriminación ha sido una línea de investigación destacada en los últimos años. En problemas de clasificación binaria, la capacidad de predicción de los modelos puede cuantificarse a través de la curva ROC o métricas derivadas de ella. La tesis se enfoca en la estimación y aplicación de modelos de clasificación binaria en el campo de la salud, utilizando criterios de optimalidad derivados de la curva ROC, con el objetivo de mejorar la capacidad predictiva y la utilidad clínica de estos modelos. Para ello, se desarrollan y proponen nuevos enfoques no paramétricos para la combinación de biomarcadores continuos, bajo la maximización del índice de Youden. Esta métrica es preferida por su neutralidad y utilidad tanto en determinar la capacidad discriminativa del modelo como en seleccionar el punto de corte óptimo, aspecto crucial para la aplicación práctica de estos modelos en el entorno clínico real. Además, no ha recibido tanta atención en la literatura como la optimización del AUC, lo que hace interesante el desarrollo y análisis de enfoques que optimicen esta métrica. Los algoritmos propuestos parten de estudios previos de la literatura que maximizan el AUC, aprovechando sus ventajas y abordando sus limitaciones. En particular, se fundamentan en propiedades de la curva ROC, como la invarianza ante transformaciones monótonas. Se propone un algoritmo paso a paso que maximiza el índice de Youden, utilizando las sugerencias de búsqueda de Pepe et al. La idea general es seleccionar la mejor combinación lineal de dos variables en cada iteración, añadiendo una nueva variable en cada paso. De esta forma, el enfoque propuesto es computacionalmente abordable, considerando la estimación de un solo parámetro en cada paso. Por otro lado, se presentan los algoritmos Min-Max-Median (MMM) y Min-Max-IQR (MMIQR), que amplían el enfoque min-max al incorporar una nueva estadística de resumen, como la mediana o el rango intercuartílico. Estos métodos buscan capturar la heterogeneidad de los biomarcadores de manera eficiente, reduciendo la dimensionalidad del problema y permitiendo una evaluación más precisa de la capacidad predictiva de los modelos. Los algoritmos propuestos (paso a paso, MMM, MMIQR) fueron comparados exhaustivamente en un amplio rango de escenarios simulados y datos reales. La comparación incluyó técnicas paramétricas y no paramétricas tipo Kernel del índice de Youden, el algoritmo paso a paso de Yin y Tian, el enfoque min-max, y algoritmos de Machine Learning (ML) como la regresión logística y el XGBoost. Se simularon muestras con diferentes características (diferentes medias, correlaciones entre biomarcadores, tamaños de muestra, etc.), determinando el modelo óptimo y validándolo sobre otras muestras de la misma distribución subyacente, obteniendo el índice de Youden alcanzado. Los resultados del estudio mostraron que el enfoque paso a paso superaba a los demás métodos en escenarios simulados con distribuciones marginales no normales y en el conjunto de datos reales de cáncer de próstata, donde se presentan asimetrías en las variables. La principal limitación del algoritmo paso a paso es el tiempo computacional que requiere. Aunque es computacionalmente abordable, este tiempo es significativamente mayor que el de otros enfoques comparados, aumentando con el número de biomarcadores. Los enfoques de ML superaron en rendimiento a los enfoques MMM/MMIQR en escenarios con biomarcadores de diferentes capacidades predictivas. Sin embargo, los enfoques propuestos superaron a los de ML en escenarios de biomarcadores con la misma capacidad predictiva y diferentes matrices de covarianza. Además, en escenarios con biomarcadores independientes, los enfoques propuestos funcionan mejor que el enfoque min-max. El trabajo de investigación realizado en estos estudios dio lugar a la creación de la librería SLModels en R, que incorpora los algoritmos propuestos (paso a paso, MMM, MMIQR) así como el enfoque min-max, bajo maximización del índice de Youden. Asimismo, la tesis aborda la estimación y aplicación de modelos en problemas reales de salud, abarcando temas como la predicción de la gravedad en pacientes hospitalizados con COVID-19, la optimización de estrategias de cribado del cáncer colorrectal, el desarrollo de estándares de crecimiento fetal para embarazos gemelares y la evaluación de la asociación entre el riesgo genético y el desarrollo de adenomas colorrectales. En todos estos estudios, se seleccionó el modelo más adecuado según la tipología de datos y el objetivo del estudio, abordando también aspectos de utilidad clínica para la ayuda a la toma de decisiones. Se desarrollaron enfoques lineales interpretables y herramientas, y se realizaron análisis del punto de corte óptimo considerando diferentes criterios. Los resultados de estos estudios resultan en mejoras tangibles en la atención médica y la salud pública. Artículos del compendio de la tesis: Aznar-Gimeno, R., Esteban, L. M., del-Hoyo-Alonso, R., Borque-Fernando, Á., & Sanz, G. (2022). A Stepwise Algorithm for Linearly Combining Biomarkers under Youden Index Maximization. Mathematics, 10(8), 1221. Aznar-Gimeno, R., Esteban, L. M., Sanz, G., del-Hoyo-Alonso, R., & Savirón-Cornudella, R. (2021). Incorporating a new summary statistic into the min¿max approach: a min¿max¿median, min¿max¿IQR combination of biomarkers for maximising the youden index. Mathematics, 9(19), 2497. Aznar-Gimeno, R., Esteban, L. M., Sanz, G., & del-Hoyo-Alonso, R. (2023). Comparing the Min¿Max¿Median/IQR Approach with the Min¿Max Approach, Logistic Regression and XGBoost, Maximising the Youden Index. Symmetry, 15(3), 756. Aznar-Gimeno, R., Esteban, L. M., Labata-Lezaun, G., del-Hoyo-Alonso, R., Abadia-Gallego, D., Paño-Pardo, J. R., Esquillor-Rodrigo M. J., Lanas, Á., & Serrano, M. T. (2021). A clinical decision web to predict ICU admission or death for patients hospitalised with COVID-19 using machine learning algorithms. International Journal of Environmental Research and Public Health, 18(16), 8677. Savirón-Cornudella, R., Esteban, L. M., Aznar-Gimeno, R., Pérez-López, F. R., Ezquerro, M. C., Pérez, P. D., Maza, J. M., Sanz, G., Larraz, B. C., & Tajada-Duaso, M. (2020). A cohort study of fetal growth in twin pregnancies by chorionicity: comparison with European and American standards. European Journal of Obstetrics & Gynecology and Reproductive Biology, 253, 238-248. Gargallo-Puyuelo, C. J., Aznar-Gimeno, R., Carrera-Lasfuentes, P., Lanas, A., Ferrandez, A., Quintero, E., Carrillo, M., Alonso-Abreu, I., Esteban L. M., de la Vega Rodrigálvarez-Chamarro M., Del Hoyo-Alonso, R., & García-González, M. A. (2022). Predictive Value of Genetic Risk Scores in the Development of Colorectal Adenomas. Digestive Diseases and Sciences, 67(8), 4049-4058. Aznar-Gimeno, R., Carrera-Lasfuentes, P., del-Hoyo-Alonso, R., Doblaré, M., & Lanas, Á. (2021). Evidence-based selection on the appropriate FIT cut-off point in CRC screening programs in the COVID pandemic. Frontiers in medicine, 8, 712040.
Área de conocimiento: Ciencias Nota: Presentado: 14 06 2024 Nota: Tesis-Univ. Zaragoza, , 2024
Aportación del TFG/M a la Sostenibilidad: Garantizar una vida saludable y promover el bienestar para todos y todas en todas las edades. Fomentar el crecimiento económico sostenido, inclusivo y sostenible, el empleo pleno y productivo, y el trabajo decente para todos. Desarrollar infraestructuras resilientes, promover la industrialización inclusiva y sostenible, y fomentar la innovación.