Clasificación en el entorno del aprendizaje automático

Si bien es cierto que muchas de las cosas que observamos en películas futuristas son simplemente el producto de la imaginación de los productores, también tienen una contraparte realista pues existen muchas entidades, organizaciones, departamentos gubernamentales (especialmente de países desarrollados) que basándose en este tipo de ideas, invierten mucho tiempo y dinero en construir prototipos de robots y/o máquinas con características de ordenadores con la finalidad de superar la frontera de simples máquinas programables, a máquinas pensantes.

Cuando era pequeño me preguntaba ¿Cómo harán los robots? ¿Las computadoras lo saben todo? ¿Algún día podremos tener como un amigo a un robot, o al menos una computadora con la cual se pueda conversar? ¿Cómo lo harán?

Bueno para responder a la mayoría de preguntas aunque sea de una forma rápida, sencilla y quizá un poco imprecisa utilizaré algún navegador web y alguno de los diferentes buscadores disponibles, pero específicamente para la última pregunta responderé con algunos elementos que se nos ha indicado en la materia de Inteligencia Artificial Avanzada.

CLASIFICACIÓN:

1. Reconocimiento de formas

1.1. Aproximaciones paramétricas: Se tienen un conocimiento a priori acerca de la forma funcional de las distribuciones de probabilidad de cada clase sobre el espacio de representación.

1.2. Aproximaciones no paramétricas: No supone ninguna forma de las distribuciones de probabilidad sobre el espacio de representación, de modo que el único conocimiento a priori será el correspondiente a la información inducida a partir del conjunto de muestras.

2. Reconocimiento de patrones

2.1. Clasificación supervisada: Parte de un conjunto de objetos descritos por un vector de características y la clase a la que pertenece cada uno de ellos; a este conjunto de objetos de los que conocemos la clase a la que pertenecen se los denomina “conjunto de entrenamiento” o “conjunto de aprendizaje”.

2.2. Clasificación no supervisada: Enfoca la clasificación como el descubrimiento de clases del problema. Los objetos únicamente vienen descritos por un vector de características.

3. Situaciones dentro del problema clasificatorio

3.1. Clases que definen el problema son separables: Cuando todos los objetos con las mismas características pertenecen a la misma clase.

3.2. Clases que definen el problema no son separables: Cuando dos o más objetos con las mismas características pertenecen a diferentes clases.

4. Evaluación de clasificadores

4.1. Tasa de error: nos da una idea de porcentaje de objetos nuevos, de los cuales no sabemos su clase.

4.2. Rapidez: con la que el clasificador construye el modelo o con la que clasifica objetos nuevos.

4.3. Interpretabilidad del modelo: Cuan fácil resulta el entender el modelo construido.

4.4. Simplicidad del modelo: Construcción de modelos eficientes, sin complejidades.

5. Construcción de modelos de clasificación

5.1. Modelización hacia adelante (forward): Empieza desde el modelo más simple posible, aumentando paso a paso, la complejidad del modelo hasta el cumplimiento de algún criterio preestablecido.

5.2. Modelización hacia atrás (backward): Empieza desde el modelo más complejo posible, disminuyendo, paso a paso, la complejidad del modelo hasta el cumplimiento de algún criterio preestablecido.

5.3. Modelización paso a paso (stepwise): Empieza desde el modelo más simple o complejo posible; planteando en cada paso tanto el aumento como diminución de la complejidad del modelo.

MÉTODOS DE VALIDACIÓN:

Método H (Holdout): Particiona el conjunto de casos en dos grupos: 1) Entrenamiento: está conformado por las dos terceras partes y es usado para inducir un modelo clasificatorio.2) Testeo: es conformado por la última tercer parte y se lo utiliza para estimar la tasa de error verdadera.

Método de remuestreo (random subsampling): Es una variante del método H, y se fundamenta en aplicar el método H múltiples veces (variando el criterio de selección del grupo de entrenamiento y el de testeo), y se calcula el error en base a la media de las tasas de error obtenidas.

Método de validación cruzada (cross-validation): Se basa en la partición de la muestra en K subconjuntos, aproximadamente del mismo tamaño, donde K – 1 subconjuntos constituyen el grupo de entrenamiento y el restante el grupo de testeo.

Método de Bootstraping: En un conjunto de casos de cardinalidad N, se escoge una muestra aleatoria con reemplazamiento del mismo tamaño como grupo de entrenamiento, dejando los casos no seleccionados como grupo de testeo. (El muestreo con reemplazamiento consiste en extraer elementos de una población de forma que, tras cada extracción, el elemento extraído se vuelve a introducir y puede volver a ser seleccionado.)




    Deja un comentario