Estudio de la reproducibilidad e interpretabilidad de los métodos más precisos del TADPOLE Challenge para el diagnóstico y pronóstico de la enfermedad de Alzheimer

Ferraz García, Francisco Hernández Giménez, Mónica Mayordomo Cámara, Elvira Estudio de la reproducibilidad e interpretabilidad de los métodos más precisos del TADPOLE Challenge para el diagnóstico y pronóstico de la enfermedad de Alzheimer

2020

El 15 de junio de 2017, el EuroPOND Consortium y ADNI lanzaron The Alzheimer’s Disease Prediction Of Longitudinal Evolution (TADPOLE) Challenge. Este reto tiene como objetivo identificar qué personas empezarán a mostrar síntomas en un plazo de 1 a 5 años elegidas en un grupo de edad de riesgo de padecer la enfermedad. Para ello, se propuso utilizar un conjunto de mediciones longitudinales realizadas sobre los pacientes prevalecientes de ADNI, con el fin de realizar predicciones de aquellas mediciones futuras más relevantes para el diagnóstico de la enfermedad. Las predicciones del TADPOLE Challenge se centran sobre el diagnóstico clínico, una clasificación en tres grupos dependientes del nivel de deterioro cerebral por probable enfermedad de Alzheimer (CN, MCI y AD); la puntuación ADAS‐Cog13, resultante de un exámen psicológico frecuentemente utilizado en ensayos clínicos; y el volumen de los ventrículos del cerebro, estimado a partir de imágenes por resonancia magnética (MRI). Gracias al TADPOLE Challenge se han desarrollado una serie de métodos de aprendizaje automático que han proporcionado unos resultados muy precisos en dos de las tres mediciones propuestas: el diagnóstico clínico y el volumen de los ventrículos. Por el contrario, las mejores estimaciones de la puntuación ADAS‐ Cog13 fueron poco mejores que una estimación aleatoria. El objetivo de este Trabajo de Final de Grado es reproducir los resultados de los tres mejores métodos del TADPOLE Challenge en la predicción del diagnóstico clínico, de la forma más fiel posible dada la escasa información disponible de los mismos. Además, utilizaremos métodos de Inteligencia Artificial Interpretable para comprender por qué estos algoritmos obtienen los mejores resultados en esta tarea, para obtener información relevante para su mejora, y para establecer su fiabilidad y plantear su posible uso en la práctica clínica. Adicionalmente, se probará la efectividad de los métodos desarrollados para el pronóstico de la puntuación de ADAS‐Cog13 y la predicción del volumen de los ventrículos. En particular, se han implementado dos sistemas: un Gradient Booster y un Random Forest, y se ha utilizado un sistema de Support Vector Machines diseñado por los autores para el reto. Mediante el aumento de los datos originales y la optimización de los hiperparámetros, se ha conseguido reproducir e incluso superar los resultados de los métodos ganadores del reto tanto en la predicción del diagnóstico clínico como del volúmen de los ventrículos, con una precisión del 96% y del 91%, respectivamente. En comparación con las métricas del reto, hemos obtenido un mAUC (área bajo la curva característica operativa del receptor) de 97.6 en el problema de diagnóstico, superando el mAUC de 93.1 obtenido por el método ganador, mientras que para el volúmen de los ventrículos obtenemos un MAE (error absoluto medio) de 0.27, superando el 0.45 de referencia. Mediante el uso de dos algoritmos del estado del arte en interpretabilidad (SHAP y LIME) se ha demostrado la fiabilidad de los modelos, comparando los atributos que usan para obtener el diagnóstico con los utilizados en la práctica clínica, y se han señalado los motivos por los que los sistemas podrían fallar, proponiendo soluciones para aumentar la capacidad de generalización de los modelos.