Aprendizaje por Refuerzo

APRENDIZAJE POR REFUERZO

Existen algunas formas de aprendizaje de los agentes inteligentes, el aprendizaje entra en juego cuando el agente observa sus iteraciones con el mundo y sus procesos de toma de decisiones. Existen tres formas de aprendizaje: Aprendizaje supervisado, no supervisado y el aprendizaje por refuerzo.

El aprendizaje por refuerzo consiste en aprender a decidir, ante una situación determinada, que acción es la más adecuad para lograr un objetivo. Consta de dos componentes. Componente selectiva que involucra la selección de la mejor acción a ejecutar de entre varias opciones y la componente asociativa, en el sentido de que las alternativas encontradas se asocian a situaciones particulares en que se tomaron.

El aprendizaje por refuerzo es adecuado cuando no existe un conocimiento “a priori” del entorno o este es demasiado complejo como para utilizar otros métodos.

MODELO DE APRENDIZAJE POR REFUERZO

Un agente hardware y software está conectado a su entorno vía percepción y acción. En cada instante el agente recibe desde l entorno a través de sensores el estado en el que se encuentra, s; entonces el agente decide ejecutar una acción, a , que genera como salida. Esta salida cambia el estado del entorno a s’, que es transmitido al agente junto a una señal de refuerzo r. esta señal informa al agente de la utilidad de ejecutar la acción a, desde el estado s para lograr un objetivo concreto. Este modelo se ilustra en la siguiente figura:

Figura1. Modelo de Aprendizaje por Refuerzo

El aprendizaje puede ser pasivo y activo.

En el aprendizaje pasivo la política del agente está fijada y la tarea es aprender las utilidades de los estados (o parejas estado acción) mientras que el aprendizaje activo el agente debe aprender también que hacer. El esfuerzo activo además de recoger información del entorno utilizará ésta para tomar decisiones sobre la siguiente acción a realizar.

El objeto del aprendizaje mediante el refuerzo es un comportamiento que permite resolver problemas óptimamente. Un comportamiento no es más que un conjunto de acciones que se realizan para resolver un problema y política al conjunto de acciones que se realizan en cada situación para resolver un problema.

Debido a que se produce una señal de esfuerzo. Esta se divide en inmediata o retardada

REFUERZO INMEDIATO

En éste refuerzo se obtiene una crítica para cada acción efectuada justo después de su realización. La información que aporta el refuerzo inmediato es local a cada acción tomada. Debe aprenderse una acción a realizar en cada situación para obtener un refuerzo positivo después de su ejecución.

Existen diversos algoritmos para el aprendizaje por refuerzo inmediato como:

  • ALGORITMO LINEAL DE PREMIO-CASTIGO
  • ALGORITMO LINEAL DE REFUERZO – INACCION

ü REFUERZO RETARDADO

Este refuerzo es más complicado ya que no tenemos una crítica para cada acción sino una estimación global del comportamiento. Se presenta cuando no se completa la secuencia de acciones empleadas para resolver el problema

Al ejecutar una acción el refuerzo no solo depende de ella sino también de las realizadas anteriormente.

REFUERZO PASIVO

Solo tenemos una estimación global del comportamiento y no una crítica para cada acción realizada, con lo cual el problema se complica. El esfuerzo obtenido al ejecutar una acción no depende únicamente de ella sino también de las realizadas anteriormente. El entorno genera las transiciones y el agente las percibe.

BIBLIOGRAFIA

MoMORENO A., Armengol E, Béjar J., Sánchez M., “Aprendizaje Automático”, 1994

Dr COOK Peter, “Intelligent Systems-Fusion, Tracking and Control”, 2003

RUSELL Stuart, NORVING Peter , “Inteligencia Artificia Un Enfoque Moderno”

BAARAUJO Basilo, “Aprendizaje Automático: Conceptos Básicos y Avanzados” ,2006

http://www.fleifel.net/ia/robotsyaprendizaje.php

http://www.cs.us.es/~delia/sia/html98-99/pag-alumnos/web10/indice.html




    Responder

    Introduce tus datos o haz clic en un icono para iniciar sesión:

    Logo de WordPress.com

    Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

    Imagen de Twitter

    Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

    Foto de Facebook

    Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

    Google+ photo

    Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

    Conectando a %s



A %d blogueros les gusta esto: