WEB MINING

 

 INTRODUCCIÓN

Hoy en día, la abundancia de datos en Internet y la necesidad de información que tienen las empresas, instituciones y especialmente la UTPL se enfrentan a un entorno caracterizado por niveles crecientes de complejidad, globalidad, y cambios rápidos y profundos como resultado del acelerado avance tecnológico. Para contrarrestar y adaptarse a estos cambios las organizaciones deben prestar atención al término Web Mining, que es una de las extensiones del data mining, consiste en aplicar las técnicas de minería de datos a documentos y servicios para extraer información de la Web.


La mayor ventaja de esta herramienta es que utiliza diversas técnicas avanzadas de exploración de datos, además de permitir la reutilización de procesos ya ejecutados con anterioridad y la combinación de los mismos para su posterior comparación; todo esto llevado a cabo sin un alto grado de complejidad.[1]


Estas técnicas se basan en sistemas independientes de búsqueda que utilizan a la red de redes como medio de recolección de datos, para luego poder analizar y procesar éstos, con el único propósito de producir información significativa y por ende generar estrategias competitivas, para de este modo mantener el estado del arte de la información.


EXPLOTACIÓN DE DATOS DEL WEB MINING: CONTENIDO, ESTRUCTURA Y USO.
El web mining se divide en tres dominios que comprenden el contenido del sitio, la estructura de navegación y el comportamiento de los usuarios:

Categorias_WM

Fig. 1: Categorías de la Minería Web.
Fuente: Román Ulises, Alarcón Luis, 2005

 

Minería de Contenido Web (WCM)

Este proceso se centra en la recogida de datos e identificación de patrones relativos a los contenidos de la web. Existen dos estrategias para la extracción del conocimiento:

  • Minería de páginas web

Extrae patrones directamente de los contenidos existentes en las páginas. Estos documentos web pueden ser: texto libre, información procedente de bases de datos generadas en páginas con formato html, páginas escritas en xml, elementos multimedia y cualquier otro tipo de contenido presente en la web.

La principal técnica de inteligencia artificial que se utiliza para realizar esta tarea es la utilización de técnicas de recupero de información. [1]

  • Minería de resultados de búsqueda

Consiste en identificar patrones de comportamiento y características comunes en los archivos de sucesos de los servidores Web.

La WCM tiene dos aproximaciones: basada en agentes y la de base de datos. La aproximación basada en agentes comprende el desarrollo de sistemas de inteligencia artificial sofisticados que pueden actuar autónomamente o semi-autónomamente en nombre de un usuario particular, descubrir y organizar la información Web; además esta aproximación se organiza en tres categorías:

  • Los agentes de búsqueda inteligentes.
  • Los de filtrado y/o categorización de información.
  • Los de personalización.

La aproximación basada en base de datos, tiene como objetivo integrar y organizar los datos heterogéneos y semi-estructurados de la web para cambiarlos en conjuntos de recursos alto nivel más estructurado, mediante la utilización de técnicas estándar de consulta a bases de datos y técnicas de minería de datos. Está aproximación contiene dos categorías:

  • Bases de datos multinivel
  • Nivel más bajo, contiene información primitiva semi-estructurada como documentos hipertextos.
  • Nivel más alto, aquí se extraen meta datos o generalizaciones de niveles más bajos, los cuales son organizados en conjuntos estructurados como las bases de datos relacionales.

  • Sistemas de consulta web

Estos sistemas utilizan tanto lenguajes estándar de consulta (SQL), como el procesamiento de lenguaje natural.

 

Minería de Estructura Web(WSM)

Trata de revelar como están relacionados los hipervínculos entre las distintas páginas para generar un informe estructural sobre la página y el sitio web. La minería de estructura web, además nos proporciona información acerca de si los usuarios encuentran la información, si la estructura del sitio es demasiado ancha o demasiado profunda, si los elementos están colocados en los lugares adecuados dentro de la página, si la navegación se entiende, cuáles son las secciones menos visitadas y su relación con el lugar que ocupan en la página principal. [2]

Típicamente tiene en cuenta dos tipos de enlaces: estáticos y dinámicos. La herramienta para realizar la WSM es la utilización de grafos, la cual nos permite reflejar el movimiento entre enlaces al navegar de una página a otra y así tener una mejor visión del conocimiento obtenido.

Minería de Uso Web (WUM)

Utiliza los archivos de sucesos de los servidores Web para indagar cómo la gente accede y usa los sitios web, con el fin de descubrir patrones de comportamiento navegacional comunes entre los mismos. Los datos de uso contienen los datos registrados en los logs de acceso a los servidores Web, logs de los servidores proxy, logs de browsers (Navegador), sesiones y transacciones de usuario, clicks de ratón y desplazamientos, y cualquier otro dato generado por la interacción entre el usuario y la web.

  • Análisis de la secuencia de navegación

Este proceso empieza con los ficheros log de usuarios que se almacenan como ficheros de texto en un directorio determinado por el servidor web. Estos ficheros se generan mediante un estándar específico del protoloco HTTP que numerosos servidores web utilizan y está formado por los siguientes campos, aunque algunos de ellos varían dependiendo del servidor web:

  • Numero IP o nombre del host remoto que realiza el acceso.
  • Nombre del usuario que accede remotamente.
  • Nombre de usuario bajo el cual se ha autentificado.
  • Fecha y hora en la que el usuario realiza la solicitud del servicio.
  • La solicitud como se realizó exactamente por el cliente.
  • El código de estado HTTP que se devolvió al cliente.
  • La cantidad de información (en bytes) que se transfiere. [3]

Una vez recolectados los datos del fichero log se procede a realizar una tarea de limpieza que incluye los siguientes pasos: filtrado, identificación de usuarios y determinación de sesiones.

Filtrado

Consiste en eliminar registros que no son necesarios, como los log de solicitudes de imágenes que son solamente parte de la página HTML que las contiene, por lo tanto los accesos a ficheros cuyas extensiones son ’.gif’, ’.jpeg’, ’.png’, también son eliminadas. En una primera instancia el filtrado da como resultado datos a nivel de página web.

Identificación de usuarios

En este paso se lleva a cabo dos niveles de identificación, en el primer nivel se identifican las peticiones de páginas realizadas por el mismo usuario durante una visita. El segundo nivel radica en reconocer a un usuario dentro de sus múltiples visitas a un determinado sitio web, con la finalidad de poder analizar el comportamiento del usuario a lo largo de días, meses o años.

Una estrategia óptima de solución para la identificación de usuario sería mediante un “nombre de usuario” y “contraseña”, pero como se conoce la navegación web se lleva a cabo normalmente de forma anónima, por lo resulta bastante complicado reconocer a un mismo usuario entre los diferentes servicios a los que accede dentro de una misma sesión y mucho mas compleja resulta cuando se tiene en cuenta la evolución temporal.

Determinación de sesiones

Considera una serie de servicios solicitados por un mismo usuario a una única visita al sitio o portal web. Las sesiones son un factor importante ya a través de ellas se puede conocer la percepción del usuario con respecto a su visita al portal.

La mejor solución para realizar esta actividad es mediante una aplicación que cree un identificador de sesión la primera vez que un determinado usuario acceda al portal.

  • Técnicas de extracción de datos en el WUM

Las técnicas más usadas para esto son: redes de neuronas artificiales (ANN), algoritmos genéticos y lógica difusa.

Redes de neuronas artificiales (ANN): son modelos predecibles, no lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.

Algoritmos genéticos: son técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución. [4]

Lógica difusa: es utilizada como soporte de otra técnica en función de lo poco estructurado de la información, la utilización de rangos difusos nos facilita a descubrir comportamientos comunes en forma más rápida.

Además este tipo de minería web tiene muchas aplicaciones, que van desde mejorar el diseño del sitio web hasta optimizar las relaciones entre usuario y los responsables del sitio web.

REFERENCIAS

[1] Merlino Hernán, Ambiente de integración de herramientas para exploración de datos centrados en la web, 2005

[Consultada: 21-05-2007] Disponible en Internet

http://www.itba.edu.ar/capis/webcapis/tesisdemagister/merlino- tesisdemagister.pdf

 

[2] Web mining en el diseño de sitios web

[Consultada: 21-05-2007] Disponedle en Internet

http://www.webtaller.com/maletin/articulos/web-mining-diseno-sitios-web-1.php

 

[3] Martín Guerrero José David, Determinación de tendencias en un portal web utilizando técnicas no supervisadas Aplicación a sistemas de recomendaciones basados en filtrado colaborativo, 2004

[Consultada: 21-05-2007] Disponible en Internet

http://www.uv.es/jdmg/tesis_jdmartin.pdf

 

[4] Izaurieta Fernando, Saavedra Carlos, Redes neuronales artificiales, Universidad de Concepción de Chile

[Consultada: 05-05-2007] Disponible en Internet

http://www.uta.cl/revistas/charlas/volumen16/Indice/Ch-csaavedra.pdf




    Responder

    Introduce tus datos o haz clic en un icono para iniciar sesión:

    Logo de WordPress.com

    Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

    Imagen de Twitter

    Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

    Foto de Facebook

    Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

    Google+ photo

    Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

    Conectando a %s



A %d blogueros les gusta esto: