Volume 20 : Number 1 : Paper 5

April 2017 Special issue devoted to Natural Language Processing plus one regular paper
Title:
Evaluation of Potential Spanish Text Markers on Social Posts as Features for Polarity Classification

Authors and Affiliations:
Edgar Casasola Murillo, Universidad de Costa Rica, Escuela de Ciencias de la Computación, San Pedro, Costa Rica, 11501
Jorge Antonio Leoni de León, Universidad de Costa Rica, Departamento de Lingüística, San Pedro, Costa Rica, 11501
Gabriela Marín Raventós, Universidad de Costa Rica, CITIC San José, Costa Rica, 10501

Abstract:
This work describes the identification and evaluation process of potential text markers for sentiment analysis. Evaluation of the markers and its use as part of the feature extraction process from plain text that is needed for sentiment analysis is presented. Evaluation of text marker obtained as a result of systematic analysis from a corpus over a second one allowed us to identify that emphasized positive words are strong indicators for positive text. The second corpus allowed us to evaluate the relation between the polarity of emphasized words and the text they appear in. Evaluation of the markers for polarity detection task in combination with a polarized dictionary produced polarity classification average precision of 56% using only three markers.
This are promising results compared to the top 69% obtained using more features and specialized dictionaries for the same task.

Spanish Abstract:
Este trabajo describe el proceso de identificación y evaluación de posibles marcadores de texto para análisis de sentimiento. Se presenta la evaluación de los marcadores y su uso como parte del proceso de extracción de características para análisis de sentimiento.
La evaluación de los marcadores de texto que obtenidos como resultado del análisis sistemático de un corpus sobre un segundo corpus permitió identificar que las palabras positivas con énfasis son fuertes indicadores para identificación de texto positivo. El segundo corpus nos permitió evaluar la relación existente entre la polaridad de las palabras con énfasis y el texto en que aparecen. La evaluación de los marcadores en combinación con un diccionario de polaridad permitieron obtener una precisión del 56%
usando solo tres marcadores. Este es un resultado prometedor si se compara con el 69% que se logra obtener para la misma tarea con un número mayor de características y varios diccionarios especializados.

DOI: http://dx.doi.org/10.19153/cleiej.20.1.5

Keywords:
Information Retrieval, Natural Language Processing, Sentiment Analysis, Feature Vectors, Text Classification.

Spanish Keywords:
Recuperación de información, Procesamiento de lenguaje natural, Análisis de sentimiento, Vectores de características, Clasificación de texto.

Received 2016-04-04, Revised 2016-06-20 , Editor: Gerardo Sierra, César Aguilar
Full paper, 12 pages [ PDF, 343 Kb ]