A Systematic Review of Cross-Population Shifts in Medical Imaging Analysis with Deep Learning

Musa, Aminu; Onwualu, Peter; Hernández, Mónica; Prasad, Rajesh
doi:10.3390/bdcc10030076
000170384 001__ 170384
000170384 005__ 20260420103354.0
000170384 0247_ $$2doi$$a10.3390/bdcc10030076
000170384 0248_ $$2sideral$$a148868
000170384 037__ $$aART-2026-148868
000170384 041__ $$aeng
000170384 100__ $$aMusa, Aminu
000170384 245__ $$aA Systematic Review of Cross-Population Shifts in Medical Imaging Analysis with Deep Learning
000170384 260__ $$c2026
000170384 5060_ $$aAccess copy available to the general public$$fUnrestricted
000170384 5203_ $$aDeep learning has achieved expert-level performance in medical imaging analysis. However, models often fail to generalize across patient populations due to cross-population domain shifts, distributional differences arising from demographic variability, variations in imaging protocols, scanner hardware, and differences in disease prevalence. This challenge limits the real-world deployment and can increase health inequities. This review systematically examines the nature, causes, and impact of cross-population domain shift in deep learning-based medical imaging analysis. We analyzed 50 peer-reviewed studies from 2020 to 2025, evaluating the proposed methodologies for handling population shifts, the datasets employed, and the metrics used to assess performance. Our findings demonstrate that performance degradation ranged from 10–25% when models were tested on unseen populations, emphasizing the substantial impact of domain shifts on model generalizability. The literature reveals that mitigation strategies broadly fall into two categories: data-centric approaches, such as augmentation and harmonization, and model-centric approaches, including domain adaptation, transfer learning, adversarial learning, multi-task learning, and continual learning. While domain adaptation and transfer learning are the most widely used, their performance gains across populations remain modest, ranging from 5–15%, and are not supported by external validation. Our synthesis reveals a significant reliance on large, publicly available datasets from limited regions, with an underrepresentation of data from low- and middle-income countries. Evaluation practices are inconsistent, with few studies employing standardized external test sets. This review provides a structured taxonomy of mitigation techniques, a refined analysis of domain shift characteristics, and an in-depth critique of methodological challenges. We highlight the urgent need for more geographically and demographically inclusive datasets, adaptable modeling techniques, and standardized evaluation protocols to enable accurate and equitable AI-driven diagnostics across diverse populations. Finally, we outline future research directions to guide the development of robust, generalizable, and fair models for medical imaging analysis.

El aprendizaje profundo ha alcanzado un rendimiento de nivel experto en el análisis de imágenes médicas. Sin embargo, los modelos a menudo no logran generalizar entre poblaciones de pacientes debido a cambios de dominio entre poblaciones, diferencias de distribución derivadas de la variabilidad demográfica, variaciones en los protocolos de imagen, el hardware del escáner y diferencias en la prevalencia de enfermedades. Este desafío limita la implementación en el mundo real y puede aumentar las inequidades en salud. Esta revisión examina sistemáticamente la naturaleza, las causas y el impacto de los cambios de dominio entre poblaciones en el análisis de imágenes médicas basado en aprendizaje profundo. Analizamos 50 estudios revisados por pares de 2020 a 2025, evaluando las metodologías propuestas para manejar los cambios de población, los conjuntos de datos empleados y las métricas utilizadas para evaluar el rendimiento. Nuestros hallazgos demuestran que la degradación del rendimiento osciló entre el 10 % y el 25 % cuando los modelos se probaron en poblaciones no vistas, lo que enfatiza el impacto sustancial de los cambios de dominio en la generalización del modelo. La literatura revela que las estrategias de mitigación se dividen en dos categorías principales: enfoques centrados en datos, como la ampliación y la armonización, y enfoques centrados en modelos, que incluyen la adaptación de dominio, el aprendizaje por transferencia, el aprendizaje adversario, el aprendizaje multitarea y el aprendizaje continuo. Si bien la adaptación de dominio y el aprendizaje por transferencia son los más utilizados, sus mejoras de rendimiento en diferentes poblaciones siguen siendo modestas, oscilando entre el 5 % y el 15 %, y carecen de validación externa. Nuestra síntesis revela una dependencia significativa de grandes conjuntos de datos públicos procedentes de regiones limitadas, con una escasa representación de datos de países de ingresos bajos y medios. Las prácticas de evaluación son inconsistentes, y pocos estudios emplean conjuntos de prueba externos estandarizados. Esta revisión proporciona una taxonomía estructurada de las técnicas de mitigación, un análisis refinado de las características del cambio de dominio y una crítica exhaustiva de los desafíos metodológicos. Destacamos la necesidad urgente de contar con conjuntos de datos más inclusivos desde el punto de vista geográfico y demográfico, técnicas de modelado adaptables y protocolos de evaluación estandarizados para permitir diagnósticos precisos y equitativos basados en IA en diversas poblaciones. Por último, describimos las futuras líneas de investigación para guiar el desarrollo de modelos robustos, generalizables y justos para el análisis de imágenes médicas.
000170384 536__ $$9info:eu-repo/grantAgreement/ES/DGA/B50-24$$9info:eu-repo/grantAgreement/ES/DGA/COS2MOS research group$$9info:eu-repo/grantAgreement/ES/DGA/T64-23R$$9info:eu-repo/grantAgreement/ES/ISCIII/RD24-0007-0022$$9info:eu-repo/grantAgreement/ES/MICINN/PID2022-138703OB-I00
000170384 540__ $$9info:eu-repo/semantics/openAccess$$aby$$uhttps://creativecommons.org/licenses/by/4.0/deed.es
000170384 655_4 $$ainfo:eu-repo/semantics/article$$vinfo:eu-repo/semantics/publishedVersion
000170384 700__ $$aPrasad, Rajesh
000170384 700__ $$aOnwualu, Peter
000170384 700__ $$0(orcid)0000-0003-1270-5852$$aHernández, Mónica$$uUniversidad de Zaragoza
000170384 7102_ $$15007$$2570$$aUniversidad de Zaragoza$$bDpto. Informát.Ingenie.Sistms.$$cÁrea Lenguajes y Sistemas Inf.
000170384 773__ $$g10, 3 (2026), 34$$tBig Data and Cognitive Computing$$x2504-2289
000170384 8564_ $$s1386957$$uhttps://zaguan.unizar.es/record/170384/files/texto_completo.pdf$$yVersión publicada
000170384 8564_ $$s2481175$$uhttps://zaguan.unizar.es/record/170384/files/texto_completo.jpg?subformat=icon$$xicon$$yVersión publicada
000170384 909CO $$ooai:zaguan.unizar.es:170384$$particulos$$pdriver
000170384 951__ $$a2026-04-18-10:48:29
000170384 980__ $$aARTICLE
Repositorio Institucional de Documentos