Redes Bayesianas

REDES BAYESIANAS

Figura 1. Redes Bayesianas

El estudio de las redes bayesianas son diseñadas con el fin de hallar las relaciones de dependencia e independencia entre todas las variables que conforman un dominio de estudio. De ésta manera permite realizar predicciones sobre el comportamiento de cualquiera de las variables desconocidas a partir de los valores de las otras variables conocidas.

Es un grafo acíclico dirigido en el que cada nodo representa una variable aleatoria y cada arco una dependencia probabilística. Proveen una forma compacta de representar el conocimiento y métodos flexibles de razonamiento.

Una red bayesiana tiene dos componentes principales: cualitativo y cuantitativo.

ü En el campo cualitativo tenemos un grafo acíclico dirigido en el que cada nodo corresponde a un atributo (variable), y arcos dirigidos implicando que toda variable es condicionalmente independiente de todos sus no descendientes en la red siempre que se conozcan los valores de sus inmediatos predecesores

ü En el campo cuantitativo cada nodo tiene asociada la distribución de probabilidad de esa variable teniendo en cuenta sus padres en el grafo.

Existen distintos tipos de Redes Bayesianas:

  • Naive Bayes
  • DBNs = Redes Bayesianas Dinámicas: Cambian con el tiempo (t, t+1, t+2…) y lo pasado en t, tiene relación con lo que suceda en t+1
  • Redes Gaussianas = distribución gaussiana: Para nodos con variables contínuas
  • Cadenas de Markov = subconjunto de las RB: Ejemplos: aire acondicionado

Aprendizaje en las Redes Bayesianas

Aprendizaje Paramétrico

En éste tipo de aprendizaje, dada la estructura, obtenemos las probabilidades asociadas. Aprende las probabilidades de la red en base a casos dados, por ejemplo un archivo pasado con los valores de cada variable.

Existen distintos algoritmos de aprendizaje, entre ellos:

  • EM (Expansión-Maximización): No necesita datos completos para el aprendizaje. Este contiene 2 fases:
  • Expansión: calculo de todas las probabilidades posibles por toda la red.
  • Maximización: se escoge la mayor probabilidad
  • ML (Maximum Likelihood): Necesita de datos completos para poder aprender. Es parecido al EM, pero sin la primera fase , es decir sin expansión.

Aprendizaje Estructural.

Consiste en encontrar las relaciones de dependencia entre las variables, de manera que se pueda determinar la topología o estructura de la red bayesiana. De acuerdo al tipo de estructura, podemos dividir métodos de aprendizaje en:

  • Aprendizaje de arboles
  • Aprendizaje de poliarboles
  • Aprendizaje de redes interconectadas

Estos algoritmos son capaces de aprender enlaces. También los podríamos clasificar en dos tipos de aprendizaje:

ü Basados en tests de independencia (algoritmos PC, NPC…)

Puntuación y búsqueda (Score & Search)

Aplicaciones:

Las Naive Bayes son aplicadas en la minería de datos Naive Bayes puede hacer predicciones para problemas multiclase, en los cuales hay varios resultados posibles. Por ejemplo, se puede construir un modelo para averiguar si un cliente en una organizaci;on o empresa será fiel o cambiará de proveedores. Se aplica tambien a un dominio médico e industrial, lo cuál permiten el uso de tiempo absoluto.

ž

Bibliografía

LOPEZ Carlos. CLASIFICADORES POR REDES BAYESIANAS [Consultado en línea]. Disponible en: http://grad.uprm.edu/tesis/lopezdecastilla.pdf

RUIZ José. Introducción a las Redes Bayesianas [Consultado en línea]. Disponible en: http://jorge.sistemasyservidores.com/si_2008i/clases/claseiarazonamientoprobabilistico.pdf

ROCHE Francisco. METODOS PARA OBTENER CONOCIMIENTO UTILIZANDO REDES BAYESIANAS Y PROCESOS DE APRENDIZAJE CON ALGORITMOS EVOLUTIVOS. [Consultado en línea]. Disponible en: http://www.lsi.us.es/docs/doctorado/memorias/TESINA-Roche.pdf

Las redes neuronales pretenden imitar el funcionamiento del conjunto de neuronas que funcionan y forman el cerebro humano. Alan Turing fue el primero en estudiar el cerebro como una forma de ver el mundo de la computación. Quienes han realizado estudios, investigaciones y ha podido modelar una red neuronal y, se acredita la creación de redes neuronales para otros fines que no sea solo el biológico, son Warren McCulloch y Walter Pitts. Estos dos investigadores propusieron un modelo matemático de neurona. La meta principal era obtener información referente al funcionamiento y comportamiento del cerebro. El modelo consistía en proporcionar a cada neurona de un conjunto de datos de entrada y salida, para activar la neurona era necesario calcular la suma de los productos de cada una de las entradas y, la salida en cambio, es una función, resultado de la activación. El recurso principal de este modelo son los pesos que se proporciona a cada entrada, es decir, los pesos de las conexiones entre neuronas. Si los pesos llegan a variar, el resultado de las salidas se modificará. Por lo tanto, el valor de los pesos de cada entrada es directamente proporcional al resultado de las salidas del modelo. A finales del siglo XIX se logró una mayor claridad sobre el trabajo del cerebro debido a las investigaciones de Ramón y Cajal en España y Sherrington en Inglaterra. El primero trabajó en la anatomía de las neuronas y el segundo en los puntos de conexión de las mismas o sinapsis.

Aproximadamente en el cerebro hay 50.000 neuronas por cada milímetro del cerebro, y billones de neuronas en todo el sistema neuronal. El tamaño y forma de las neuronas varía, lo que no varía son las partes de las cuales se compone, soma de la neurona, dendritas y axón. Se puede decir que la creación de redes neuronales y sus diferentes interpretaciones en cuanto a modelos, se puede aplicar en el campo informático y que ha servido en la mejora de procesos de sistemas computacionales complejos, como se comportan y la experiencia que adquieren estos en base a la información recibida y procesada. En el campo de la medina, ha servido para obtener información del comportamiento del cerebro y mejorar los diagnósticos de las diferentes anomalías que se generan en él. Seguir leyendo »

El sistema de neuronas biológico está compuesto por neuronas de entrada (censores) conectados a una compleja red de neuronas “calculadoras” (neuronas ocultas), las cuales, a su vez, están conectadas a las neuronas de salidas que controlan, por ejemplo, los músculos.

Para ver artículo completo ir al siguiente enlace: http://robpau007.wordpress.com/2008/08/08/redes-neuronales/

El análisis de clusters es una colección de métodos estadísticos que permiten agrupar casos sobre los cuales se miden diferentes variables o características.

Los clusters deben ser hallados in información previa y serán sugeridos únicamente por la propia esencia de los datos.

Existen dos métodos de bloques de clustering: los jerárquicos y los no jerárquicos o particionales.

Para ver artículo completo ir a: http://techi322.wordpress.com/2008/08/08/clasificacion-analisis-de-clusters/

REDES NEURONALES (RNA)

Introducción

Las Redes Neuronales surgieron del movimiento conexionista, que nació junto con la Inteligencia Artificial (IA) simbólica o tradicional. Esto fue hacia los años 50, con algunos de los primeros ordenadores de la época y las posibilidades que ofrecían. La IA simbólica se basa en que todo conocimiento se puede representar mediante combinaciones de símbolos, derivadas de otras combinaciones que representan verdades incuestionables o axiomas. Así pues, la IA tradicional asume que el conocimiento es independiente de la estructura que maneje los símbolos, siempre y cuando la ‘máquina’ realice algunas operaciones básicas entre ellos [2].

Definición

Una red neuronal artificial (Artificial Neural Network, ANN), es un procesador masivamente paralelo distribuido que es propenso por naturaleza a almacenar conocimiento experimental y hacerlo disponible para su uso. Este mecanismo se parece al cerebro en dos aspectos:

 

1.      El conocimiento es adquirido por la red a través de un proceso que se denomina aprendizaje.

2.      El conocimiento se almacena mediante la modificación de la fuerza o peso sináptico de las distintas uniones entre neuronas [1].


 ELEMENTOS BÁSICOS QUE COMPONEN UNA RED NEURONAL.

A continuación se puede ver, en la Figura, un esquema de una red neuronal:

La misma está constituida por neuronas interconectadas y arregladas en tres capas (esto último puede variar). Los datos ingresan por medio de la “capa de entrada”, pasan a través de la “capa oculta” y salen por la “capa de salida”. Cabe mencionar que la capa oculta puede estar constituida por varias capas.

Los elementos que permiten clasificar los diferentes tipos de redes son los siguientes aspectos:

  • Número y disposición de las neuronas.
  • No-linealidad presente en cada neurona.
  • Red de Interconexión.
  • Algoritmo de entrenamiento.
  • Comportamiento estático y dinámico [3].

 

VENTAJAS QUE OFRECEN LAS REDES NEURONALES

 

Debido a su constitución y a sus fundamentos, las redes neuronales artificiales presentan un gran número de características semejantes a las del cerebro. Por ejemplo, son capaces de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de abstraer características esenciales a partir de entradas que representan información irrelevante, etc. Esto hace que ofrezcan numerosas ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas. Entre las ventajas se incluyen:

 

Aprendizaje Adaptativo. Capacidad de aprender a realizar tareas basadas en un entrenamiento o en una experiencia inicial.

 

Auto-organización. Una red neuronal puede crear su propia organización o representación de la información que recibe mediante una etapa de aprendizaje.

 

Tolerancia a fallos. La destrucción parcial de una red conduce a una degradación de su estructura; sin embargo, algunas capacidades de la red se pueden retener, incluso sufriendo un gran daño.

 

Operación en tiempo real. Los cómputos neuronales pueden ser realizados en paralelo; para esto se diseñan y fabrican máquinas con hardware especial para obtener esta capacidad.

 

Fácil inserción dentro de la tecnología existente. Se pueden obtener chips especializados para redes neuronales que mejoran su capacidad en ciertas tareas. Ello facilitará la integración modular en los sistemas existentes [4].

 

Por: Lourdes Morocho

REFERENCIAS:

[1]  Blanco, Vega Ricardo, Extracción de Reglas de Redes Neuronales Artificiales, Universidad Politécnica de Valencia, Departamento de Sistemas Informáticos y Computación, tomado de PresentaER.pps, disponible en: http://www.dsic.upv.es/~rblanco

[2]  Introducción a las Redes Neuronales, Xavier Padern disponible en:

http://www.redcientifica.com/doc/doc199903310003.html

 

[3] Aprendizaje Automático: conceptos básicos y avanzados (2006), Basilio Sierra Araujo.

[4] Universidad Tecnológica Nacional – Facultad Regional Rosario Departamento de Ingeniería Química Grupo de Investigación Aplicada a la Ingeniería Química (GIAIQ). Redes Neuronales: Conceptos Básicos y Aplicaciones.pdf

 

Modelos Ocultos de Markov

Un modelo oculto de Markov o HMM (por sus siglas del inglés, Hidden Markov Model), es un proceso por el cual se observa el comportamiento del sistema de manera indirecta pues los estados del mismo permanecen ocultos para el observador.

 

El objetivo principal es encontrar los valores desconocidos a partir de parámetros observables, estos modelos describen un proceso de probabilidad el cual produce una secuencia de parámetros observables, se denominan ocultos por que existe probabilidades ocultas que afectan al resto de estados observados.

 

Un modelo oculto de Markov es un conjunto finito de estados probabilísticos, en el que el estado esta conectado a otro por un arco de transición, en donde cada arco tiene diversas probabilidades que pueden cambiar en algún instante del tiempo, entonces se puede decir que el sistema se encuentra en uno de los posibles estados y habrá un cambio de un estado a otro en intervalos iguales de tiempo.

 

Figura 1. Ejemplo de un modelo de Markov [1]

 

Probabilidad de que el día permanezca, lluvioso, nubloso soleado

 

Cada estado (S + 1) depende del estado anterior S y no del progreso del sistema.

 

Tipos de HMM

Los modelos ocultos de Markov se clasifican según la función de la matriz de distribuciones de probabilidad de emisión, estos son:

 

 

HMM discretos

En este modelo las observaciones son vectores de símbolos de un alfabeto finito con M + 1 elementos diferentes, en este caso se define el número de símbolo observables M, el conjunto de estados, y las probabilidades que definen el modelo oculto de Markov.

 

HMM continuos

Las probabilidades que dominan la emisión de los parámetros observables están definidas sobre espacios de observación continuos, se restringe la forma de distribuciones para obtener un número manejable de parámetro a estimar.

 

 

HMM semicontinuos

Para aplicar este modelo se debe realizar un entrenamiento a varios modelos con bases de datos limitadas, estos modelos al igual que los continuos se realizan a partir de combinaciones de distribuciones probabilísticas. La diferencia de estos modelos es que las funciones base son comunes en todos los modelos.

 Autor: Auliria Torres

Referencias

[1] Luís Miguel Bergasa Pascual, Introducción a los modelos ocultos de Markov, Departamento de electrónica, Universidad de Alcalá, disponible en: http://www.depeca.uah.es/docencia/doctorado/cursos04_05/82854/docus/HMM.pdf

 

[2] Redes Neuronales y Modelos Ocultos de Markov, disponible en: http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/clemente_f_e/capitulo2.pdf

 

[3] Basilio Sierra Araujo, Aprendizaje Automático: Conceptos básicos y avanzados.

Redes Bayesianas

Las Redes Bayesianas son un grafo acíclico dirigido que consta de nodos que representan las variables aleatorias y los arcos son las dependencias probabilísticas de cada variable, las redes bayesianas son un conjunto de variables aleatorias representadas en un grafo dirigido, el arco entre dos variables x e y, significa una influencia directa de x sobre y.

 

Los nodos son cualquier variable como por ejemplo variables que se pueden medir, variables latentes o hipótesis. Las redes bayesianas son utilizadas para sistemas expertos y se pueden utilizar diversos tipos de algoritmos para recopilar conocimiento par a estos sistemas.

 

Figura 1. Ejemplo de una red bayesiana [1]

 

 

Los nodos representan variables aleatorias y los arcos las relaciones de dependencia. En esta red observamos que [1]:

  • Caries es una causa directa de Dolor y Huecos
  • Dolor y Huecos son condicionalmente independientes dada Caries
  • Tiempo es independiente de las restantes variables

 

Existen diferentes tipos de redes bayesianas [2]:

 

  • Naive Bayes = bayes “ingenuo” o Idiot’s Bayes

Forma de “V” => 2 ^ n estados en el nodo inferior

 

  • DBNs = Redes Bayesianas Dinámicas

Cambian con el tiempo (t, t+1, t+2…)

Lo pasado en t, tiene relación con lo que suceda en t+1

 

  • Redes Gaussianas = distribución gaussiana

Para nodos con variables continuas

 

  • Cadenas de Markov = subconjunto de las RB

 

Aplicaciones

Las redes bayesianas tienen múltiples aplicaciones, se puede aplicar este modelo en empresas que necesiten diagnosticar problemas o fallos o también para minería de datos.

A continuación tenemos algunos campos en donde podemos aplicar las redes bayesianas [3]:

 

 

  • Prevención del fraude
  • Prevención del abandono de clientes
  • Blanqueo de dinero
  • Marketing personalizado
  • Mantenimiento preventivo
  • Clasificación de datos estelares

Aplicaciones en empresas [1]:

 

  • Microsoft: Answer Wizard (Office), diagnostico de problemas de impresora.
  • Intel: Diagnostico de fallos de procesadores
  • HP: Diagnostico de problemas de impresora
  • Nasa: Ayuda a la decisión de misiones espaciales

 Por: Auliria Torres

Referencias

 

[1] José L. Ruiz Reina, Introducción a las Redes Bayesianas, Dpto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla, disponible en:

http://www.cs.us.es/cursos/ia2-2005/temas/tema-08.pdf

[2] Álvaro Marín Illera, Sistemas Expertos, Redes Bayesianas y sus aplicaciones, Semana ESIDE, Abril 2005, Universidad de Deusto, disponible en:

http://www.e-ghost.deusto.es/docs/2005/conferencias/Bayes05.pdf

 

[3] Red bayesiana, disponible en: http://es.wikipedia.org/wiki/Red_bayesiana

 

[4] Jorge Luís Guevara Díaz, Redes Bayesianas, disponible en: http://jorge.sistemasyservidores.com/si_2008i/clases/claseiarazonamientoprobabilistico.pdf

 

[5] Carlos López de Castilla Vásquez, Clasificadores Por Redes Bayesianas, Universidad de Puerto Rico, disponible en:

http://grad.uprm.edu/tesis/lopezdecastilla.pdf

 

 

Tipos de Conocimientos

Conocimiento común.- Es el conocimiento que se crear de forma cotidiana sin la necesidad de una planificación de una manera instintiva.
Conocimiento científico.- Es un conocimiento que implica mayor grado de comprensión y entendimiento y se esta en la capacidad de explicarlo.
Conocimiento empírico.- Este conocimiento carece de precisión y de valor científico.
Conocimiento directo.- Este conocimiento se basa en la observación de hechos, acciones en las presesiones diarias.
Conocimiento proposicional.- Este conocimiento se refiere a dos cosas el sujeto y el conocimiento, el sujeto es representado por símbolos y el conocimiento da valor a la preposicion.

Tipos de Conocimiento

El conocimiento es un conjunto de datos, los cuales en conjunto constituyen información sobre un hecho. El conocimiento se forma de la información obtenida a lo largo del tiempo sobre como funcionan las cosas.

Existen dos tipo de conocimiento: el explícito y el tácito.

El conocimiento explícito: Este conocimiento se lo puede expresar en palabras y números, puede ser fácilmente transmitido y compartido en forma de representaciones en medios codificados, fórmulas científicas o principios globales o universales.

El conocimiento tácito: está muy personalizado y su formalización es compleja. Por lo que es difícil de transmitir ya que no ha adoptado una forma explícita. [1]

En el “modelo de ciclos de producción del conocimiento”, se expresan los siguientes procesos de conversión del conocimiento:

1.    De tácito a tácito (Proceso de socialización): Los individuos adquieren nuevos conocimientos directamente de otros.
2.    De tácito a explícito (Proceso de externalización): El conocimiento se articula de una manera tangible a través del dialogo.
3.    De explícito a explícito (Proceso de combinación): Se combinan diferentes formas de conocimiento explícito mediante documentos o bases de datos.
4.    De explícito a tácito (Proceso de internalización): Los individuos internalizan el conocimiento de los documentos en su propia experiencia.[1]

La gestión del conocimiento tiene principalmente los siguientes objetivos:

Identificar, recoger y organizar el conocimiento existente.
Facilitar la creación del nuevo conocimiento.
Iniciar la innovación a través de la reutilización y apoyo de la habilidad de la gente a través de organizaciones para producir un realzado funcionamiento de negocio. [2]

La gestión del conocimiento es la base para el desarrollo de la sociedad, nos permite incrementar las investigaciones en todos lo campos existentes y ampliar las fronteras del saber.

Referencias
[1] Luís Alvarado Acuña, La Gestión del Conocimiento y la utilización de las Tecnologías de la Información y de las comunicaciones en la creación de valor en los proyectos de Innovación, disponible en:
http://www.monografias.com/trabajos12/lagc/lagc.shtml#INNOVAC

[2] Juan Carrión Maroto,  INTRODUCCIÓN CONCEPTUAL A LA GESTIÓN DEL CONOCIMIENTO disponible en: http://www.gestiondelconocimiento.com/introduccion.htm

Los Modelos Ocultos de Markov (HMM) representan un proceso en el cual se refleja un alto grado de probabilidades, probabilidades que generan una secuencia de acciones o eventos que se pueden observar, lo que no ocurre con el proceso de probabilidad utilizado, este no es observable, pero sí afecta directamente a la secuencia de acciones que lo son. Los Modelos Ocultos de Markov pueden ser definidos como un modelo de un proceso, el cual genera una secuencia de acciones o eventos de un dominio específico.

La principal meta de los HMM es identificar los valores desconocidos u ocultos de la secuencia de acciones generada a partir de valores o parámetros observables. “Un HMM se puede considerar como la red bayesiana dinámica más simple”. Los valores que se obtengan, son analizados y sus resultados pueden ser utilizados para desarrollarlas distintas aplicaciones como: reconocimiento de patrones, Traducción automática, Bioinformática, etc.

Según el desarrollo de dichas aplicaciones o el análisis que se requiera se utiliza una arquitectura de Modelos Ocultos de Markov. Esta arquitectura viene dada por el número de estados (variable aleatoria) que lo componen y las transiciones o conexiones entre los estados. De igual manera ocurre en las redes neuronales, su arquitectura depende mucho del número de neuronas (estados) y las transiciones entre estas (conexiones sinápticas). Existen dos modelos principales que representan la arquitectura de un HMM: Modelos HMM de izquierda a derecha y Modelos HMM ergódicos.

En los modelos de izquierda a derecha, los elementos o las probabilidades que genera las acciones o eventos deben cumplir con una condición Aij = 0, donde j<i. Esto significa que, si el modelo se encuentra en un determinado tiempo (t), en el siguiente instante (t+1), el modelo permanecerá con el mismo valor de probabilidad Aii, de no ocurrir esto, el modelo pasará a un estado j-ésino con una probabilidad Aij. Este modelo es idóneo para aquellas aplicaciones en los cuales se sigue un proceso secuencial, por ejemplo: la identificación de blancos aéreos, en los cuales se utiliza una secuencia de entrenamiento para cada objetivo basados en un conjunto de observaciones almacenadas en un array.

Lo contrario ocurre con los modelos ergódicos, estos pueden evolucionar desde cualquier estado a otro en un número finito de transiciones, todas las transiciones son posibles. Este modelo es aplicado en proceso en los cuales se produce una toma de decisiones, otro ejemplo claro, es el reconocimiento de gestos, en el cual se utiliza una base de entrenamiento construida en base a la información obtenida de los gestos, esta base se ajusta a los valores, se la interrelaciona y se obtiene los resultados.

Los modelos deben ser seleccionados según la aplicación, deben ser ejecutados adecuadamente y cumplir con las condiciones que en cada modelo se estimen pertinentes.

Autores:

Daniel Valdivieso

Diego Guamán

« Página anteriorPágina siguiente »