Modelos analíticos de clasificación de texto

Modelos analíticos de clasificación de texto

La clasificación de documentos es un proceso que busca facilitar la búsqueda y recuperación de la información. De acuerdo con (Lévano, 2011) la clasificación permite la agrupación de los documentos sobre un mismo tema a partir de características similares, donde un documento puede pertenecer a una sola clase o a varias clases. La clasificación se puede realizar de manera manual o automatizada; la clasificación automatizada es realizada por sistemas de computó y se divide en dos etapas, de entrenamiento y reconocimiento. En la etapa de entrenamiento se utiliza un conjunto de documentos para la construcción del modelo y en la etapa de reconocimiento se realiza la clasificación. 

Existen diferentes métodos computacionales (Godoy Viera, enero-abril 2017) que permiten dicha gestión como son Support vector machine (svm), K-means (k-m), K-nearest neighbors (k-nn) , Naive Bayes (nb), Self-organizing maps (som), Latent semantic indexing (lsi), Hierarchical agglomerative clustering (hac), Decision trees (dt) , Artificial neural network (ann), Association rules (ar) , Case-based reasoning (cbr) , Maximum entropy classifier (mec) , Multinomial naive Bayes (mnb), entre otros.

Descubrimiento de conocimientos en Textos

De acuerdo con (Justicia de la Torre, 2017), durante los últimos años, se han realizado operaciones sobre documentos tales como catalogación, se han generado referencias, índices, se han extraído términos relevantes y resúmenes con el fin de agilizar las búsquedas de información sobre ellos sin tener que volver a leer y estudiar el documento. Se han ido construyendo herramientas que facilitan el interrogatorio sobre un conjunto de documentos, pudiendo formular preguntas con el fin de localizar la respuesta en dichos documentos. 
La consideración de datos no estructurados de bases de datos hace emerger una serie de problemas que necesitan un tratamiento adicional, pudiendo requerir algún método o proceso que los trate convenientemente. Dichos problemas son: 
La falta de estructura del texto. Incluso en lenguajes como el HTML, el texto sigue siendo carente de una estructura homogénea procesable de forma automática sin que se produzca pérdida de información. 
La naturaleza heterogénea y distribuida de los documentos. 
El multilingüismo.
El análisis de texto depende del contexto y del dominio de la aplicación.
El proceso de descubrimiento de conocimiento en textos implicará diferentes ámbitos de conocimiento, como son: Recuperación de Información, Extracción de Información, Procesamiento del Lenguaje Natural y Minería de Datos. 
De acuerdo con (Goebel & Gruenwald, 1999), las fases para el proceso de descubrimiento de textos son:
Fase 1: Desarrollar y comprender el dominio de la aplicación 
Fase 2: Adquirir el conjunto de datos inicial.
Fase 3: Integrar y comprobar el conjunto de datos.
Fase 4: Limpiar, procesar y transformar los datos.
Fase 5: Desarrollar el modelo y construir la hipótesis.
Fase 6: Elegir los algoritmos de minería adecuados.
Fase 7: Interpretar y visualizar los resultados.
Fase 8: Verificar y probar los resultados.
Fase 9: Uso y mantenimiento del conocimiento descubierto. 


Imagne tomada de http://www.monempresarial.com/es/2018/12/21/aprofitar-la-revolucio-de-lia-en-lanalitica-de-dades/

Diversas investigaciones tienen como fin aportar soluciones a los problemas de procesamiento y organización de información digital, desarrollando métodos enfocados a facilitar y agilizar actividades tales como la indización de documentos, creación automatizada de tesauros, identificación de semejanza entre documentos, categorización, clasificación, generación de resúmenes automáticos, búsqueda de información en texto completo, extracción de información, identificación de relaciones y términos, entre otras. Las investigaciones proponen métodos y técnicas basados en; reconocimiento de patrones, aprendizaje de máquina, métodos estadísticos, técnicas de procesamiento de Lenguaje Natural, y métodos de redes neuronales artificiales (Contreras Barrera, 2016).

Buenos esta es una de las inducciones de trabajo del cual debo investigar, para determinar cuál es el mejor  método de clasificación de texto que se podrían aplicar a mi proyecto de profundización.

Bibliografía

Justicia de la Torre, M. (2017). Nuevas Técnicas de Minería de Textos: Aplicaciones. Granada, España: Universidad de Granada. Tesis Doctorales.
Lévano, G. (2011). Clasificación de colecciones. Perú: Ministerio de Educación.
Godoy Viera, A. (enero-abril 2017). Técnicas de aprendizaje máquinas para la minería de texto. Investigación Bibliotecológica, 103-126.
Goebel, M., & Gruenwald, L. (1999). A survey of data mining and knowledge discovery software tools. CM SIGKDD Explorations Newsletter, 20-33.


Comentarios

  1. Muy interesante, me gustaris conocer mas sobre el proceso de eleccion del algoritmo adecuado que expones en el paso 6

    ResponderEliminar

Publicar un comentario

Entradas populares de este blog

Minería de Texto en posible propuesta de grado

Opinión UML

Impresiones Orange - Minería de Datos