CategorizadorPlugin

Español

Plugin Categorizador by zylk

Descripción

Se trata de un plugin de caracter experimental que permite la categorización automática de textos en base a un modelo ajustado al sector correspondiente y generado mediante el uso de un algoritmo NLP (Natural Language Processing).

Glosario

  • Topic: un topic consiste en una colección de palabras clave dominantes y representativas. Mirando estas palabras clave sería posible identificar el tema del texto.
  • Modelo: un modelo es la suma de los diferentes topics comunes identificados y extraídos de un conjunto de textos.

Hitos valorados

  • Ampliar la selección de modelos disponibles
  • Habilitar compatiblidad con inglés
  • Mejorar la generación de topics
  • Integración con la sección de Wiki de Liferay

Notas

  • El plugin ha sido desarrollado por zylk.net
  • El plugin es software libre (AGPL) y no tiene características restringidas.
  • Está desarrollado para Liferay 7.2.
  • Si encuentras algún error, tienes alguna sugerencia o quieres colaborar, puedes contactar con nosotros through this link.

Documentación técnica

Instalación

Para instalar el plugin solo necesitas desplegar el archivo JAR de manera estandar, es decir, copiándolo en la carpeta deploy de Liferay.

El plugin está compuesto por un portlet, Categorizador, que se añade automáticamente como opción al Panel de Control.

Configuración

Configurar el plugin es muy sencillo. Todo lo que hay que hacer es acceder en el menú al portlet del Categorizador, y veremos un seleccionable con una lista de modelos.

Bastaría con seleccionar el que se desee utilizar como base para las categorizaciones y pulsar el botón. Tras unos instantes, si todo va bien, veremos un aviso indicando que el modelo se ha generado correctamente y se ha generado el vocabulario que utilizará el plugin.

Podemos verificar la creación del vocabulario accediendo a la sección Categorización del menú de Liferay y seleccionando la opción Categorías. Ahí veremos que se ha generado un nuevo vocabulario, de nombre Categorizador-ZN.

Si comprobamos el contenido veremos que se ha generado una lista de categorias (tantas como topics contuviera el modelo seleccionado).

  • Alterar el vocabulario o las categorías podría provocar problemas en el funcionamiento del plugin
  • Las categorías se generan en base a las palabras que conforman un topic (por ejemplo, el caso de la captura cada topic está definido por 3 palabras). De ahí que cada categoría se componga de una "unión" de varias palabras.

Categorización de un texto

Una vez seleccionado un modelo, todo el proceso para asignar las categorías es automático. Basta con crear o actualizar algún contenido que esté en español.

  • Actualmente el plugin sólo es compatible con Contenido Web y Entradas de blog (estas últimas deben estar en castellano)

Por ejemplo, con un Contenido Web, basta con que tenga asociada traducción al español

De esa manera, una vez creado o actualizado, se asociarán al mismo las categorías que el plugin haya evaluado como centrales en ese texto.

En el caso de las entradas de blog, es necesario que se encuentren en español, ya que los blogs no disponen de traducciones asociadas.

Igualmente, una vez creada o actualizada la entrada, se asignarán las categorías que el plugin haya valorado como apropiadas.

English

Plugin Category generator by zylk

Description

This is an experimental plugin that allows an automatic categorization based on models generated through a NLP (Natural Language Processing) algorithm.

Glosary

  • Topic: a topic consists of a collection of key words both dominant and representative. Looking at these words, we could identify the theme of a text.
  • Model: a model is the sum of the different common topics identified and extracted from a collection of texts.

Road map

  • Larger selection of available models
  • Compatibility with english
  • Improve topic generation
  • Integration with the Wiki section

Notes

  • The plugin has been developed by zylk.net
  • The plugin is open software (AGPL), free and features are not restricted
  • If you find any error, want to suggest any improvement, or want to collaborate in any way you can contact us through this link.

Technical documentation

Installation

To install the plugin you only need to deploy the JAR file in the standard way, that is, copying them in Liferay deploy directory.

The plugin contains a single portlet Categorizador, that is automatically added as a new option to the Control Panel.

Configuration

Setting up the plugin is pretty simple. All you need to do is access the Categorizador option in the menu and you'll see a dropdown menu with a list of available models.

You just need to choose the model you wish to use as basis for the categorization and press the button. After a few seconds, if everything went alright, you'll see an alert indicating that the model has been loaded correctly and the vocabulary and the categories that the plugin will use have been generated.

We can verify the creation of the vocabulary going to the Categorization section in Liferay's menu and choosing Categories. There we will see that a new vocabulary, named Categorizador-ZN has been generated.

If we check its contents we'll see that a list of categories have been created (as many as topics has the selected model).

  • Modifying the vocabulary or the categories in any way may cause issues with the plugin.
  • The categories are generated based on the words that conform a topic (for example, in the image case each topic is defined by 3 words). That's the reason each category is composed by the "joining" of several words.

Categorizing a text

Once a model has been selected, all the process to assing categories to the content is automatic. You only need to create or update a content that contains a spanish translation.

  • Right now the plugin is only compatible with Web Content and Blog Entries (the last one must be in spanish).

For example, in the case of a Web Content the only requirement is that it needs to have a spanish translation associated.

That way, once created or updated, the categories that the plugin has evaluated as fitting for the text will be associated.

When working with blog entries, on the other side, it's necessary for them to be in spanish, since they don't have a localization option.

Once again, once created or updated the entry, the corresponding categories will be associated.