Algoritmos de clasificación por vecindad

Los algoritmos de clasificación por vecindad se ubican dentro de las técnicas de clasificación supervisada.

Las reglas de clasificación por vecindad están basadas en la búsqueda de un conjunto de los k prototipos más cercanos al patrón a clasificar [1].

La regla de clasificación por los k vecinos más cercanos o simplemente k-NN (k nearest neighbors) establece que un nuevo caso será clasificado en la clase donde sus vecinos a quienes representa son los más cercanos.

Regla del vecino más próximo. Considerando un espacio de representación, el caso a ser clasificado tomará la clase que esté más cerca dentro de ese espacio.

Regla de los K vecinos más próximos (K-NN). El nuevo caso a ser clasificado se ubicará en la clase con más votos en el contexto de los K vecinos más cerca del conjunto de entrenamiento.

Variantes del algoritmo K-NN

  • Regla K-NN con rechazo. Se toma en cuenta un nivel fijado con anterioridad que sirve como referencia para que cuando una clase tiene un mayor número de votos que ese nivel, entonces la clase podrá ser asignada. Ese nivel puede tomar un valor entre K/M y K, K es el número de vecinos más próximos y M es el total de clases.
  • Regla K-NN por distancia media. Un caso es clasificado en una clase si es que el valor de la distancia media es el menor con respecto al de las otras clases.
  • Clasificador de la distancia mínima. Primero se selecciona un representante para cada clase. Luego, la tarea consiste en clasificar al nuevo caso en la clase cuyo vecino es el más cercano al nuevo caso.

Además, dentro de los algoritmos de clasificación supervisada existen otros como los de tipo estadístico: el análisis discriminante y el de Naive-Bayes, y según también a la superficie de separación como es el caso del Perceptrón.

El análisis discriminante es una técnica estadística multivariante cuya finalidad es analizar si existen diferencias significativas entre grupos de objetos respecto a un conjunto de variables medidas sobre los mismos para, en el caso de que existan, explicar en qué sentido se dan y proporcionar procedimientos de clasificación sistemática de nuevas observaciones de origen desconocido en uno de los grupos analizados [4].

El de Naive-Bayes es una de las técnicas más populares para clasificar texto. Bayes es un clasificador empleado para representar distribuciones conjuntas de modo que permitan calcular la probabilidad a posteriori de un conjunto de clases dado un conjunto de características obtenidas de la información, y así clasificar los datos en la clase más probable [3].

El de Perceptrón es un tipo de red neuronal con aprendizaje de manera supervisada. La redes de Neuronas son unos excelentes clasificadores y está demostrado que clasifican mejor que otros clasificadores como: árboles de decisión, vecinos próximos, etc.

Fuente:
[1] http://iie.fing.edu.uy/ense/asign/recpat/material/tema3_00-01/node6.html
[2] Aprendizaje Automático: conceptos básicos y avanzados (2006), Basilio Sierra Araujo.
[3] http://supervisadaextraccionrecuperacioninformacion.iespana.es/
[4] http://ciberconta.unizar.es/leccion/discri/inicio.html


  1. Interesante artículo. No he incursionado aún en los clasificadores por vecindad, actualmente curso Machine Learning como postgrado en mi universidad, pero hasta ahora solo he visto condiciones de generalización estadística (minimizar error de entrenamiento, consistencia con teorema de equivalencia, etc). Espero mas adelante crear un perceptrón para hacer algunas pruebas de clasificación.

    Saludos!




Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s



A %d blogueros les gusta esto: