Abstract: La reconstrucción 3D densa a partir de secuencias monoculares es una tecnología clave para varias aplicaciones y todavía un problema de investigación abierto. Este trabajo aprovecha resultados recientes en estimación de profundidad a partir de una sola vista utilizando CNN (Redes neuronales convolucionales) y los fusiona con la estimación de un método directo multi-vista. Ambas aproximaciones muestran fortalezas complementarias. Primero, los métodos basados en múltiples vistas son muy precisos en zonas con mucha textura en secuencias de alto paralaje. Segundo, el método que estima la profundidad a partir de una imagen captura muy bien la estructura local, incluidas las áreas sin textura, aunque carece de coherencia global. La fusión de estas dos estimaciones que proponemos tiene varios retos. En primer lugar, las dos profundidades están relacionadas por una deformación no rígida que depende en el contenido de la imagen. Y en segundo, la selección de los puntos de alta precisión del método multi-vista puede ser complicada en configuraciones de bajo paralaje. Presentamos una contribución a los dos problemas. Nuestros resultados en los conjuntos de datos públicos de NYU y TUM muestran que nuestro algoritmo mejora a las dos aproximaciones por separado.