Named Entity Recognition for Spanish language

and applications in technology forecasting. 2015/07/01

Autores

Raúl Gutiérrez, Andrés Castillo, Víctor Bucheli, Oswaldo Solarte

Fecha de publicación

2015-07-01

Revista

Revista Antioqueña de las Ciencias Computacionales, Volumen 5, Número 2

Resumen

El reconocimiento de entidades nombradas se puede ver como un modelo gráfico probabilístico que permite la representación de la independencia condicional como una secuencia de etiquetado. En este artículo se propone un modelo para el reconocimiento de entidades nomabradas en el idioma español, usando Campos aleatorios condicionales (CRF). Los experimientos se hicieron con base en los corpus Conll-2002 y Ancora, para las pruebas se tuvo en cuenta algunas medidas como presicion, recall y F-measure. Respecto a la medida F-measure se obtuvo un rendimiento de 80% usando el Conll-2002, 59% para Ancora. Por último, se presenta caso de aplicación para la vigilancia tecnológica, con el fin de identificar la información y los patrones en el tema del cáncer. Se discuten los resultados de acuerdo con el desempeño de modelo y la información útil para apoyar el proceso de Vigilancia tecnológica.

Abstract

Named Entity Recognition (NER) is a main task into Natural Language Processing. On the one hand, supporting the extraction of the information on unstructured data. On the other hand, The NER is a probabilistic graphical model that allows us to represent the conditional independency assumptions into the sequential labelling. In this paper, we propose a discriminative graphical model by using linear-chain Conditional Random Fields (CRFs). We present the experiments based on the Conll-2002 shared task and Ancora corpus according to the following criteria: recall, precision and F-score. Our contributions in this work are the following: first, we tested our baseline on the CoNLL-2002 shared task obtaining 80% F1-measure, and 59% F1-measure on AnCora corpus respectively. Finally, the application Vigtech allow us to identify information and patterns in the cancer topic, we discuss the results according to the model performance and the useful information to support the forecasting process.

PDF