Procesamiento de texto manuscrito I Segmentación a nivel de palabras, indexación y clustering

El trabajo  Fin de Grado de Nerea Romera Vicente, tiene como objetivo proponer una solución que permita la segmentación e indexación de palabras extraídas de textos manuscritos. La motivación de este proyecto surge dada la escasa investigación que existe sobre el tema. En la actualidad, el único proceso de digitalización que se ha llevado a cabo con algunos textos manuscritos es escaneado/fotografía de los mismos con ayuda de escáneres occipitales que respetan las condiciones naturales de los libros. Este proceso de digitalización se realizó con la premisa de poner a disposición de expertos en la materia todo el contenido histórico para facilitar su análisis. No obstante, a pesar del cambio de soporte, el proceso sigue siendo totalmente manual. Por tanto, se considera este proyecto como una oportunidad para poner la tecnología a disposición de la historia, creando una herramienta que tenga la capacidad de mejorar las características de las imágenes, a través de una fase de pre-procesamiento, para posteriormente efectuar una segmentación de los textos en líneas y palabras. Los resultados de la segmentación se guardaran en una base de datos que contendrá un archivo de imagen, así como una referencia a la ubicación de las palabras (acta de la que provienen, línea en la que se sitúa, y posición en la línea). Con esto, se espera que en trabajos posteriores se alimente la herramienta de un algoritmo dinámico de agrupamiento para que el tiempo de trabajo de paleógrafos e historiadores disminuya notablemente.

DESCARGAR RECURSO