Resumen: El trabajo consiste en el estudio de las diferentes posibilidades que se dan en la búsqueda y la recuperación de información multimedia, estudiando las diferentes técnicas de segmentación de video y medidas de similitud para la selección de escenas. Se ha implementado un sistema de segmentación semántica, indexado y búsqueda multimodal, que permite realizar consultas mediante una entrada de texto. Y finalmente, el sistema permite crear nuevos vídeos en base a los segmentos de video localizados mediante búsquedas. Para ello se ha utilizado la red neuronal CLIP, basada en pre-entrenamiento contrastivo de pares imagen-texto, la base de datos Milvus, y librerías como OpenCV para la extracción de metadatos.