Posts Tagged ‘Add new tag’

ALGORITMOS DE CLASIFICACION POR VECINDAD

Abstract

La cantidad excesiva de documentos en lenguaje natural disponibles en formato electrónico hace imposible su análisis. Una solución propuesta a este problema son los sistemas de extracción de información, los cuales permiten estructurar datos relevantes a un dominio específico en los documentos. En otras palabras, la extracción de información convierte el problema de analizar una colección de textos en consultar una base de datos, siendo esto último más rápido de realizar además de hacer más factible encontrar una relación entre los datos. Generalmente, en la construcción de estos sistemas se emplean una variedad de recursos lingüísticos, el resultado son sistemas con un alto costo de portabilidad a nuevos dominios e idiomas. En este trabajo se presenta un enfoque diferente al tradicional para construir sistemas

k-Vecinos Más Cercanos

k–Vecinos más cercanos (k-NN, por sus siglas en inglés) es uno de los métodos de aprendizaje basados en instancias más básicos, pero con resultados aceptables en tareas que involucran el análisis de texto En resumen, este algoritmo no tiene una fase de entrenamiento fuera de línea, por lo tanto, el principal cálculo se da en línea cuando se localizan los vecinos más cercanos. La idea en el algoritmo es almacenar el conjunto de entrenamiento, de modo tal que para clasificar una nueva instancia, se busca en los ejemplos almacenados casos similares y se asigna la clase más probable en éstos.

Una visión general de los elementos y procesos necesarios dentro de la clasificación automática de textos

Los modelos ocultos de Markov (HMMs, por sus siglas en inglés) son la base de esta aproximación, en esta estructura se representa el conocimiento necesario para extraer los fragmentos relevantes de los textos (i.e. los patrones de extracción son representados por HMMs). Aquí, generalmente los nodos representan tokens o elementos característicos de éstos, y los enlaces representan sus relaciones, además cada enlace tiene asociada una probabilidad de ocurrencia obtenida de los datos de entrenamiento (figura anterior. En resumen, la relevancia del método es que aprovecha la estructura intrínseca de algunos textos, por lo tanto es adecuado para textos semi estructurados (SE), además de que los fragmentos de texto obtenidos son exactos.

Referencias

· T. Joachims. Text categorization with support vector machines: Learning with many relevant features. In Proceedings of the Tenth European Conference on Machine Learning (ECML’98), Lecture Notes in Computer Science, Number 1398, pp. 137-142, 1998.

· Y. Yang and J. Pedersen. A comparative study on feature selection in text categorization. In Proceedings of the 14th International Conference on Machine Learning, pp. 412-420, 1997.

· T. Yang and X. Liu. A re-examination of text categorization methods. In Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval, Berkeley, CA, pp. 42-49, 1999.

Anuncios

Redes Bayesianas

Las Redes Bayesianas son un grafo acíclico dirigido que consta de nodos que representan las variables aleatorias y los arcos son las dependencias probabilísticas de cada variable, las redes bayesianas son un conjunto de variables aleatorias representadas en un grafo dirigido, el arco entre dos variables x e y, significa una influencia directa de x sobre y.

 

Los nodos son cualquier variable como por ejemplo variables que se pueden medir, variables latentes o hipótesis. Las redes bayesianas son utilizadas para sistemas expertos y se pueden utilizar diversos tipos de algoritmos para recopilar conocimiento par a estos sistemas.

 

Figura 1. Ejemplo de una red bayesiana [1]

 

 

Los nodos representan variables aleatorias y los arcos las relaciones de dependencia. En esta red observamos que [1]:

  • Caries es una causa directa de Dolor y Huecos
  • Dolor y Huecos son condicionalmente independientes dada Caries
  • Tiempo es independiente de las restantes variables

 

Existen diferentes tipos de redes bayesianas [2]:

 

  • Naive Bayes = bayes “ingenuo” o Idiot’s Bayes

Forma de “V” => 2 ^ n estados en el nodo inferior

 

  • DBNs = Redes Bayesianas Dinámicas

Cambian con el tiempo (t, t+1, t+2…)

Lo pasado en t, tiene relación con lo que suceda en t+1

 

  • Redes Gaussianas = distribución gaussiana

Para nodos con variables continuas

 

  • Cadenas de Markov = subconjunto de las RB

 

Aplicaciones

Las redes bayesianas tienen múltiples aplicaciones, se puede aplicar este modelo en empresas que necesiten diagnosticar problemas o fallos o también para minería de datos.

A continuación tenemos algunos campos en donde podemos aplicar las redes bayesianas [3]:

 

 

  • Prevención del fraude
  • Prevención del abandono de clientes
  • Blanqueo de dinero
  • Marketing personalizado
  • Mantenimiento preventivo
  • Clasificación de datos estelares

Aplicaciones en empresas [1]:

 

  • Microsoft: Answer Wizard (Office), diagnostico de problemas de impresora.
  • Intel: Diagnostico de fallos de procesadores
  • HP: Diagnostico de problemas de impresora
  • Nasa: Ayuda a la decisión de misiones espaciales

 Por: Auliria Torres

Referencias

 

[1] José L. Ruiz Reina, Introducción a las Redes Bayesianas, Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla, disponible en:

http://www.cs.us.es/cursos/ia2-2005/temas/tema-08.pdf

[2] Álvaro Marín Illera, Sistemas Expertos, Redes Bayesianas y sus aplicaciones, Semana ESIDE, Abril 2005, Universidad de Deusto, disponible en:

http://www.e-ghost.deusto.es/docs/2005/conferencias/Bayes05.pdf

 

[3] Red bayesiana, disponible en: http://es.wikipedia.org/wiki/Red_bayesiana

 

[4] Jorge Luís Guevara Díaz, Redes Bayesianas, disponible en: http://jorge.sistemasyservidores.com/si_2008i/clases/claseiarazonamientoprobabilistico.pdf

 

[5] Carlos López de Castilla Vásquez, Clasificadores Por Redes Bayesianas, Universidad de Puerto Rico, disponible en:

http://grad.uprm.edu/tesis/lopezdecastilla.pdf