sábado, 24 de abril de 2010


DATA WARE HOUSE

Un Almacén de Datos (o Data Warehouse) es una gran colección de datos que recoge información de múltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones -es decir, en el análisis de la información- en vez de en su captura. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los almacenes de datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la toma de decisiones.

Data Warehousing

Data Warehousing es el proceso que facilita la creación y explotación de un Almacén de Datos.

Los Sistemas de Data Warehousing incluyen funcionalidades como:

* Integración de bases de datos heterogéneas (relacionales, documentales, geográficas, archivos, etc.)
* Ejecución de consultas complejas no predefinidas visualizando el resultado en forma gráfica y en diferentes niveles de agrupamiento y totalización de datos.
* Agrupamiento y desagrupamiento de datos en forma interactiva.
* Análisis del problema en términos de dimensiones.
* Control de calidad de datos.

Características del Almacén de Datos

* Organizado en torno a temas. La información se clasifica en base a los aspectos que son de interés para la empresa.
* Integrado. Es el aspecto más importante. La integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.
* Dependiente del tiempo. Esta dependencia aparece de tres formas:
o La información representa los datos sobre un horizonte largo de tiempo.
o Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo (día, semana, mes, etc.).
o La información, una vez registrada correctamente, no puede ser actualizada.

* No volátil. El Almacén de Datos sólo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.

Arquitectura Data Warehouse


La estructura básica de la arquitectura Data Warehouse incluye:

1. Datos operacionales. Origen de datos para el componente de almacenamiento físico del Almacén de Datos.
2. Extracción de datos. Selección sistemática de datos operacionales usados para formar parte del Almacén de Datos.
3. Transformación de datos. Procesos para sumarizar y realizar cambios en los datos operacionales.
4. Carga de datos. Inserción de datos en el Almacén.
5. Almacén. Almacenamiento físico de datos de al arquitectura Data Warehouse.
6. Herramienta de acceso. Herramientas que proveen acceso a los datos.

Estructura lógica del Almacén de Datos

La estructura lógica de un Almacén de Datos está compuesta por los siguientes niveles:

* Metadatos. Describen la estructura de los datos contenidos en el almacén.
o Están en una dimensión distinta al resto de niveles.

* Datos detallados actuales. Obtenidos directamente del procesado de los datos.
o Forman el nivel más bajo de detalle.
o Ocupan mucho espacio.
o Se almacenan en disco, para facilitar el acceso.

* Datos detallados históricos. Igual que los anteriores, pero con datos correspondientes al pasado.
o Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente.

* Datos ligeramente resumidos. Primer nivel de agregación de los datos detallados actuales.
o Corresponden a consultas habituales.
o Se almacenan en disco.

* Datos muy resumidos. Son el nivel más alto de agregación.
o Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rápidamente.
o Suelen estar separados del Almacén de datos, formando Supermercados de Datos (Data Marts).

Estructura física del Almacén de Datos

La estructura física puede presentar cualquiera de las siguientes configuraciones:

* Arquitectura centralizada. Todo el Almacén de datos se encuentra en un único servidor.
* Arquitectura distribuida. Los datos del Almacén se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lógicos.
* Arquitectura distribuida por niveles. Refleja la estructura lógica del Almacén, asignando los servidores en función del nivel de agregación de los datos que contienen. Un servidor está dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos.
Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).

Software Data Warehouse

* Red Brick Warehouse
* Essbase
* Pilot Decission Support Suite
* Microsoft SQL Server

5 comentarios:

  1. Cubo Olap
    Es una manera de organizar los datos contenidos en una base de datos para que se ajusten al modo que tienen los usuarios de analizarlos: en categorías jerárquicas y en valores de resumen previamente calculados.
    Proporciona sólo los resultados resumidos de los informes, en vez de una gran cantidad de registros individuales, para que sea posible analizar muchos datos que no podrían manejar los recursos del sistema. Ademas es multidimensional o estructura de cubo, puesto que puede almacenar mayor cantidad informacion, por ejemplo un cubo pude tener datos de un cliente que compra una cierta de cantidad de productos y cuanto compra por mes, en cambio en tabla solo se tiene el cliente y la cantidad del producto.

    ResponderEliminar
  2. Ventaja Principal del Data Warehouse:
    Es la forma en que va almacenado la información (cubos relacionales), de esta forma la información es homogénea y fiables, permitiendo la realización de consultas y por supuesto su tratamiento de forma jerarquerizada.

    Principales aportes de un Data Warehouse
    • Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en información integrada y global del negocio.
    • Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de dicha información.
    • Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.
    • Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente.
    • Supone una optimización tecnológica y económica en entornos de Centro de Información, estadística o de generación de informes con retornos de la inversión espectaculares.

    ResponderEliminar
  3. PORQUE ES IMPORTANTE EL TIEMPO EN EL DATA WAREHOUSE

    * Toda la información de la data Warehouse es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En otras palabras, en el ambiente operacional, cuando usted accede a una unidad de información, usted espera que los valores requeridos se obtengan a partir del momento de acceso. Como la información en el data Warehouse es solicitada en cualquier momento, los datos encontrados en el depósito se llaman de "tiempo variante".

    * La Informacion almacenada sirve para realizar análisis de tendencias, y para toma de decisiones que afectan el desempeño de la organización.

    ResponderEliminar
  4. Desventajas del Data Ware House

    a) No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que puede requerir. En cualquier caso la tendencia de los productos actuales (junto con los avances del hardware) es la de solventar este problema convirtiendo la desventaja en una ventaja.
    b) Requiere de continua limpieza, transformación e integración de datos. Mantenimento.
    c) En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que pretende una organización.
    d) Una vez implementado puede ser complicado añadir nuevas fuentes de datos.

    ResponderEliminar
  5. Objetivos Principales de un Data Warehouse
    *Hacer que la información de la organización sea accesible, los contenidos del Data Warehouse deben ser entendibles y navegables, entendible significa que los niveles de la información sean correctos y obvios, navegables se refiere al hecho de reconocer el destino en la pantalla y llegar a donde queramos con solo un clic.

    *Hacer que la información de la organización sea consistente, esto quiere decir que la información debe ser de alta calidad, que toda la información debe ser contabilizada y completada.

    *Proporciona información adaptable y elástica, debe proporcionar información correcta, esta diseñado para los cambios continuos. Cuando se le hacen nuevas preguntas al Data Warehouse, los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data Warehouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen.

    *Proteger los valores de la información, el Data Warehouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos, aún después de haber dejado el Data Warehouse.

    ResponderEliminar