Efficient tool segmentation for endoscopic videos in the wild

Tomasini, Clara (Universidad de Zaragoza) ; Alonso, Iñigo ; Riazuelo, Luis (Universidad de Zaragoza) ; Murillo, A.C. (Universidad de Zaragoza)
Efficient tool segmentation for endoscopic videos in the wild
Resumen: In recent years, deep learning methods have become the most effective approach for tool segmentation in endoscopic images, achieving the state of the art on the available public benchmarks. However, these methods present some challenges that hinder their direct deployment in real world scenarios. This work explores how to solve two of the most common challenges: real-time and memory restrictions and false positives in frames with no tools. To cope with the first case, we show how to adapt an efficient general purpose semantic segmentation model. Then, we study how to cope with the common issue of only training on images with at least one tool. Then, when images of endoscopic procedures without tools are processed, there are a lot of false positives. To solve this, we propose to add an extra classification head that performs binary frame classification, to identify frames with no tools present. Finally, we present a thorough comparison of this approach with current state of the art on different benchmarks, including real medical practice recordings, demonstrating similar accuracy with much lower computational requirements.

En los últimos años, los métodos de aprendizaje profundo se han convertido en el enfoque más efectivo para la segmentación de herramientas en imágenes endoscópicas, alcanzando el estado del arte en los puntos de referencia públicos disponibles. Sin embargo, estos métodos presentan algunos desafíos que dificultan su implementación directa en escenarios del mundo real. Este trabajo explora cómo resolver dos de los desafíos más comunes: restricciones de memoria y tiempo real y falsos positivos en marcos sin herramientas. Para hacer frente al primer caso, mostramos cómo adaptar un modelo eficiente de segmentación semántica de propósito general. Luego, estudiamos cómo lidiar con el problema común de solo entrenar en imágenes con al menos una herramienta. Entonces, cuando se procesan imágenes de procedimientos endoscópicos sin herramientas, hay muchos falsos positivos. Para resolver esto, Proponemos agregar un cabezal de clasificación adicional que realice la clasificación de marcos binarios, para identificar marcos sin herramientas presentes. Finalmente, presentamos una comparación exhaustiva de este enfoque con el estado actual del arte en diferentes puntos de referencia, incluidas las grabaciones de prácticas médicas reales, que demuestran una precisión similar con requisitos computacionales mucho más bajos.

Idioma: Inglés
Año: 2022
Publicado en: Proceedings of Machine Learning Research 2022 (2022), [17 pp.]
ISSN: 2640-3498

Originalmente disponible en: Texto completo de la revista

Tipo y forma: Artículo (Versión definitiva)
Área (Departamento): Área Ingen.Sistemas y Automát. (Dpto. Informát.Ingenie.Sistms.)

Derechos Reservados Derechos reservados por el editor de la revista


Exportado de SIDERAL (2024-07-05-12:45:34)


Visitas y descargas

Este artículo se encuentra en las siguientes colecciones:
Artículos



 Registro creado el 2022-04-25, última modificación el 2024-07-05


Versión publicada:
 PDF
Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)