Algoritmos de clasificacion por vecindad

ALGORITMOS DE CLASIFICACION POR VECINDAD

Abstract

La cantidad excesiva de documentos en lenguaje natural disponibles en formato electrónico hace imposible su análisis. Una solución propuesta a este problema son los sistemas de extracción de información, los cuales permiten estructurar datos relevantes a un dominio específico en los documentos. En otras palabras, la extracción de información convierte el problema de analizar una colección de textos en consultar una base de datos, siendo esto último más rápido de realizar además de hacer más factible encontrar una relación entre los datos. Generalmente, en la construcción de estos sistemas se emplean una variedad de recursos lingüísticos, el resultado son sistemas con un alto costo de portabilidad a nuevos dominios e idiomas. En este trabajo se presenta un enfoque diferente al tradicional para construir sistemas

k-Vecinos Más Cercanos

k–Vecinos más cercanos (k-NN, por sus siglas en inglés) es uno de los métodos de aprendizaje basados en instancias más básicos, pero con resultados aceptables en tareas que involucran el análisis de texto En resumen, este algoritmo no tiene una fase de entrenamiento fuera de línea, por lo tanto, el principal cálculo se da en línea cuando se localizan los vecinos más cercanos. La idea en el algoritmo es almacenar el conjunto de entrenamiento, de modo tal que para clasificar una nueva instancia, se busca en los ejemplos almacenados casos similares y se asigna la clase más probable en éstos.

Una visión general de los elementos y procesos necesarios dentro de la clasificación automática de textos

Los modelos ocultos de Markov (HMMs, por sus siglas en inglés) son la base de esta aproximación, en esta estructura se representa el conocimiento necesario para extraer los fragmentos relevantes de los textos (i.e. los patrones de extracción son representados por HMMs). Aquí, generalmente los nodos representan tokens o elementos característicos de éstos, y los enlaces representan sus relaciones, además cada enlace tiene asociada una probabilidad de ocurrencia obtenida de los datos de entrenamiento (figura anterior. En resumen, la relevancia del método es que aprovecha la estructura intrínseca de algunos textos, por lo tanto es adecuado para textos semi estructurados (SE), además de que los fragmentos de texto obtenidos son exactos.

Referencias

· T. Joachims. Text categorization with support vector machines: Learning with many relevant features. In Proceedings of the Tenth European Conference on Machine Learning (ECML’98), Lecture Notes in Computer Science, Number 1398, pp. 137-142, 1998.

· Y. Yang and J. Pedersen. A comparative study on feature selection in text categorization. In Proceedings of the 14th International Conference on Machine Learning, pp. 412-420, 1997.

· T. Yang and X. Liu. A re-examination of text categorization methods. In Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval, Berkeley, CA, pp. 42-49, 1999.




    Responder

    Introduce tus datos o haz clic en un icono para iniciar sesión:

    Logo de WordPress.com

    Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

    Imagen de Twitter

    Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

    Foto de Facebook

    Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

    Google+ photo

    Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

    Conectando a %s



A %d blogueros les gusta esto: