Almacén de datos

Conjunto de información que atesora una empresa a fin de tomar decisiones más eficientes y gestionar mejor sus actividades. En la actividad empresarial moderna, los almacenes de datos, también conocidos por su denominación inglesa Data Warehouse (DW), son elementos imprescindibles para la adopción de decisiones por parte de la cúpula directiva y para la comunicación de la compañía con sus clientes. A la vez, estos almacenes de datos pueden ser empleados para técnicas de minería de los mismos.

Generalmente, en las empresas, los DW se han construido a partir de los datos transaccionales de las mismas. Cada vez que se realiza una venta, para emitir la correspondiente factura es necesario recabar del cliente una serie de datos que pueden incorporarse a una base, lo que proporciona conocimiento sobre una faceta de la actividad de esa compañía. Naturalmente, puede archivarse otro tipo de información, como, por ejemplo, la relativa a campañas periódicas o a la venta de determinados productos. Ello indica que los datos disponibles en el almacén, para un uso más eficiente de ellos, deben estar clasificados de forma temática.

Por otra parte, el conjunto de datos disponible debe ser no volátil (sólo se produce la carga de datos y su consulta), integrado e histórico, lo cual significa que los datos deben estar valorados de acuerdo con el tiempo.

Los componentes de un almacén de datos son el metadata, el middleware, el API y los mecanismos de extracción y carga. El metadata tiene como objeto exponer la estructuración de los datos disponibles, con lo que expresa cuáles de ellos son los idóneos para cada programa que se les aplique. El middleware garantiza la conexión entre todos los componentes del almacén de datos. Por su parte, el API (Application Programmer Interface) es, como su nombre indica, un elemento que sirve para conectar un programa con otro o bien máquinas diferentes, asegurando así la eficiencia y comunicación de todo el sistema informático.

Los mecanismos de extracción se basan en técnicas OLAP, acrónimo de los términos ingleses On Line Analytical Processing, las cuales se fundamentan en acudir a consultas de unas estructuras multidimensionales, que se llaman cubos OLAP. La estructura admite la realización de análisis tipo Top Down, los cuales se basan en la posibilidad de reformulación de una consulta, según los datos obtenidos de la misma.

Por su parte, los mecanismos de carga se desarrollan según dos técnicas: por acumulación simple, en la que, como su nombre indica, los datos se van añadiendo sin más requisitos o mediante rolling, cuando la información se va adicionando por niveles.

Funcionalmente, un almacén de datos está estructurado según los siguientes cuatro grandes bloques:

Operacional:está constituido por los datos que se han suministrado al almacén en el proceso de carga de los mismos. Para una buena eficiencia de este nivel, es preciso que dichos datos estén “limpios”, es decir que sean exactos y que se hallen actualizados.

Almacén: en él se depositan los datos anteriores, gobernados por la metadata. Además de los datos introducidos en la carga, puede disponer de otros, derivados de los anteriores y logrados mediante la aplicación de un determinado programa.

Departamentos:cada división de la empresa determina el tipo de datos que necesita. El conjunto de los mismos se denomina Data Mart. Así, por ejemplo, hay un Data Mart para el departamento de compras y otro distinto para el departamento de ventas. Por ello, la exigencia de que los datos del almacén estén estructurados de forma temática.

Individuo: es el resultado de elaborar consecuencias a partir del nivel anterior y puede considerarse como el objetivo último del almacén de datos, ya que constituirá la base para la toma de decisiones.

En resumen, los almacenes de datos poseen una información a disposición de la empresa y que, convenientemente estructurada y procesada, proporciona información a distintos niveles, permitiendo así una mejor gestión y una herramienta de valor inestimable, que sirve de apoyo eficaz a la toma de decisiones por parte de los órganos rectores de la empresa. El buen funcionamiento de estos DW exige, como ya se ha dicho, la pureza de los datos, existiendo en algunos casos programas de limpieza automática de ellos.