Representación mediante clusters de similaridad semántica, generada con modelos de lenguaje.

Pérez Blasco, Alberto Garrido Picazo, Piedad Representación mediante clusters de similaridad semántica, generada con modelos de lenguaje.

2022

Este Trabajo de Fin de Grado (TFG), trata de obtener documentos de una fuente de internet, para posteriormente clasificarlos en clústeres dependiendo de su similaridad semántica y represen- tarlos, de tal modo que se pueda analizar su parecido. Para ello, se utilizarán modelos de lenguaje que tratarán de entender el contexto del documento, generando los embeddings asociados. Como documentos de entrada, se utilizarán papers de caracter cientı́fico-técnicos y para la salida, se deberán visualizar los distintos clústeres, ya que es la mejor forma de hacer referencia al conjunto de documentos de entrada, debido a que de otra forma, es difı́cil visualizar la relación entre los documentos descargados (aprox. 800). Finalmente, se obtendrá un “topic” que sirva para describir cada clúster. Al ser un TFG orientado a la investigación, el desarrollo del mismo tuvo varias fases, siendo éstas la de formación en conocimientos básicos relacionados con las tecnologı́as, la de investigación de las opciones que existı́an en cada apartado y finalmente la de implementación, fase en la que se desarrolló el proyecto con tecnologı́as como KNIME, Jupyter Notebook, Python, Conda...