Árboles de Clasificación

Los Árboles de clasificación, o también llamados modelos basados en árboles, se fundamentan en el principio de “divide y vencerás”, construyendo un árbol que en cada nodo establece unas condiciones sobre un atributo, dividiendo así el conjunto de casos en subconjuntos que cumplen cada condición. Los subconjuntos se vuelven a dividir añadiendo nuevos niveles al árbol hasta detenerse mediante algún criterio.

· Reglas de Clasificación: las reglas con cláusulas de lógica proposicional donde las premisas son condiciones sobre los atributos de los ejemplos y el consecuente es una etiqueta con la clase que se le asignará en caso de que se aplique la regla.

Los árboles de clasificación presentan dos ventajas fundamentales respecto a las redes neuronales.

La primera, es que el conocimiento que se extraiga el árbol se puede representar de forma inteligible mediante reglas de decisión.

La segunda es que obedece a un criterio estadístico, puesto que para llegar a la solución establece distribuciones de probabilidad sobre las categorías de las clases en cada uno de sus nodos.

También, existen opciones de mejoras de estos modelos, en donde elegir es mucho más reducido que el de redes neuronales, este proceso implica tener dos grandes grupos de algoritmos de “poda” del árbol, la pre-poda y la post-poda

En la pre-poda se van aplicando criterios al desarrollo del árbol, y si aplicamos algún tipo de condición que varié esos criterios, estaríamos frenando el desarrollo del árbol, por lo que evitaríamos un sobre entrenamiento que se podría dar, al presentársele casos nuevos que debilitarían sus capacidad de generalización.

La post-poda, es el otro criterio, y el más usado ya que permite un desarrollo total del árbol hasta conseguir nodos homogéneos, para luego eliminarse utilizando algún criterio.

Estos algoritmos se enfocan en la capacidad de disminuir el (overfitting) o sobreentrenamiento de un árbol, sin perder indirectamente la capacidad de generalización, que puedes enfrentarse a nuevos casos de una manera eficiente.

Una ventaja que presenta sobre otros métodos es que la forma de representar el conocimiento es más sencilla. En lugar de usar el conjunto de variables para tomar una decisión, se trata de usar diferentes subconjuntos de las variables, para diferentes niveles del árbol (reglas de decisión).

Ventajas:

Los árboles de clasificación, poseen:

· La regla de asignación son simples y legibles, por tanto la interpretación de resultados es directa e intuitiva.

· Es robusta frente a datos típicos u observaciones mal etiquetadas.

· Es válida sea cual fuera la naturaleza de las variables explicativas: continuas, binarias nominales.

· Es una técnica no paramétrica que tiene en cuenta las interacciones que pueden existir entre los datos.

· Es rápido computacionalmente.

Desventajas:

Se puede mencionar como:

· Las reglas de asignación son inestables.

· Dificultad para elegir el árbol óptimo.

· Ausencia de una función global de las variables y como consecuencia pérdida de la representación geométrica.

· Los árboles de clasificación requieren un gran número de datos para asegurarse que la cantidad de las observaciones de los nodos hoja es significativa.

Elaborado por: Juan Pablo Pizarro.




    Responder

    Introduce tus datos o haz clic en un icono para iniciar sesión:

    Logo de WordPress.com

    Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

    Imagen de Twitter

    Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

    Foto de Facebook

    Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

    Google+ photo

    Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

    Conectando a %s



A %d blogueros les gusta esto: