Resumen: In recent years, deep learning methods have become the most effective approach for tool segmentation in endoscopic images, achieving the state of the art on the available public benchmarks. However, these methods present some challenges that hinder their direct deployment in real world scenarios. This work explores how to solve two of the most common challenges: real-time and memory restrictions and false positives in frames with no tools. To cope with the first case, we show how to adapt an efficient general purpose semantic segmentation model. Then, we study how to cope with the common issue of only training on images with at least one tool. Then, when images of endoscopic procedures without tools are processed, there are a lot of false positives. To solve this, we propose to add an extra classification head that performs binary frame classification, to identify frames with no tools present. Finally, we present a thorough comparison of this approach with current state of the art on different benchmarks, including real medical practice recordings, demonstrating similar accuracy with much lower computational requirements.
En los últimos años, los métodos de aprendizaje profundo se han convertido en el enfoque más efectivo para la segmentación de herramientas en imágenes endoscópicas, alcanzando el estado del arte en los puntos de referencia públicos disponibles. Sin embargo, estos métodos presentan algunos desafíos que dificultan su implementación directa en escenarios del mundo real. Este trabajo explora cómo resolver dos de los desafíos más comunes: restricciones de memoria y tiempo real y falsos positivos en marcos sin herramientas. Para hacer frente al primer caso, mostramos cómo adaptar un modelo eficiente de segmentación semántica de propósito general. Luego, estudiamos cómo lidiar con el problema común de solo entrenar en imágenes con al menos una herramienta. Entonces, cuando se procesan imágenes de procedimientos endoscópicos sin herramientas, hay muchos falsos positivos. Para resolver esto, Proponemos agregar un cabezal de clasificación adicional que realice la clasificación de marcos binarios, para identificar marcos sin herramientas presentes. Finalmente, presentamos una comparación exhaustiva de este enfoque con el estado actual del arte en diferentes puntos de referencia, incluidas las grabaciones de prácticas médicas reales, que demuestran una precisión similar con requisitos computacionales mucho más bajos. Idioma: Inglés Año: 2022 Publicado en: Proceedings of Machine Learning Research 2022 (2022), [17 pp.] ISSN: 2640-3498 Originalmente disponible en: Texto completo de la revista