Volume 20 : Number 1 : Paper 3

April 2017 Special issue devoted to Natural Language Processing plus one regular paper
Title:
Trending Topic Extraction Using Topic Models and Biterm Discrimination

Authors and Affiliations:
Minor Eduardo Quesada Grosso, Universidad de Costa Rica, Escuela de Ciencias de la Computación, San Pedro, Costa Rica, 11501
Edgar Casasola Murillo, Universidad de Costa Rica, Escuela de Ciencias de la Computación, San Pedro, Costa Rica, 11501
Jorge Antonio Leoni de León, Universidad de Costa Rica, Departamento de Lingüística, San Pedro, Costa Rica, 11501

Abstract:
Mining and exploitation of data in social networks has been the focus of many efforts, but despite the resources and energy invested, still remains a lot for doing given its complexity, which requires the adoption of a multidisciplinary approach.
Specifically, on what concerns to this research, the content of the texts published regularly, and at a very rapid pace, at sites of microblogs (eg Twitter.com) can be used to analyze global and local trends. These trends are marked by microblogs emerging topics that are distinguished from others by a sudden and accelerated rate of posts related to the same topic; in other words, by an increment of popularity in relatively short periods, a day or a few hours, for example Wanner et al.
The problem, then, is twofold, first to extract the topics, then to identify which of those topics are trending.
A recent solution, known as Bursty Biterm Topic Model (BBTM) is an algorithm for identifying trending topics, with a good level of performance in Twitter, but it requires great amount of computer processing. Hence, this research aims to evaluate if it is possible to reduce the amount of processing required and getting equally good results. This reduction carry out by a discrimination of co-occurrences of words (biterms) used by BBTM to model trending topics. In contrast to our previous work, in this research, we carry on a more complete and exhaustive set of experiments.

Spanish Abstract:
La minería y explotación de datos contenidos en las redes sociales ha sido foco de múltiples esfuerzos. Sin embargo, a pesar de los recursos y energía invertidos aún queda mucho por hacer dada su complejidad. Específicamente, esta investigación se centra en el contenido de los textos publicados regularmente, en los sitios de microblogs (por ejemplo, en Twitter.com) los cuales pueden ser utilizados para analizar tendencias. Estas ultimas son marcadas por temas emergentes que se distinguen de los demás por un súbito y acelerado aumento de publicaciones relacionadas al mismo tema; en otras palabras, por un incremento de popularidad en periodos relativamente cortos, de un día o de unas cuantas horas. En consecuencia, el problema es doble, primero extraer los temas sobre los cuáles se escribe y luego identificar cuáles de esos temas son tendencia. Una solución reciente, conocida como Bursty Biterm Topic Model (BBTM) es un algoritmo que utiliza coocurrencia de palabras (bitérminos) para identificación de temas emergentes y que cuenta con un buen nivel de resultados en Twitter. Sin embargo, su complejidad computacional es alta y requiere de una considerable cantidad de procesamiento computacional. De ahí, que esta investigación busca evaluar si es posible reducir la cantidad de procesamiento requerido y obtener resultados cuya calidad sean igualmente buenos.
Esta reducción es llevada a cabo por una discriminación de las coocurrencias de palabras (bitérminos) utilizadas por BBTM para modelar los temas emergentes. En contraste al trabajo realizado previamente, en esta investigación, se llevan a cabo experimentos más completos y exhaustivos.

DOI: http://dx.doi.org/10.19153/cleiej.20.1.3

Keywords:
Trending topics, topic models, short text, NLP, Natural Language Processing, topic extraction.

Spanish Keywords:
Temas emergentes, modelos de temas, texto corto, procesamiento de leguaje natural, extracción de temas, detección de tendencias.

Received 2016-04-04, Revised 2016-06-20 , Editor: Gerardo Sierra, César Aguilar
Full paper, 13 pages [ PDF, 1062 Kb ]