La nueva información hace posible las nuevas ideas. Zig Ziglar
La Habana, Cuba. – Para la comunidad informática, un almacén de datos o repositorio de datos (data warehouse) es una colección de datos orientada a un determinado ámbito, integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se usa para realizar informes y análisis de datos y se considera un componente fundamental de la inteligencia empresarial.
Es, sobre todo, un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos. El almacenamiento de los datos no debe realizarse con datos de uso cotidiano. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sea necesario.
El concepto de data warehouse se originó en 1988 con el trabajo de los investigadores de IBM, Barry Devlin y Paul Murphy aunque el término fue acuñado por William, Bill, H. Inmon , al que se conoce como el padre de los data warehouse. Éste los define en términos de las características del repositorio de datos:
- Orientado a temas: Los datos en la base de datos se organizan de manera que todos los elementos relativos al mismo, evento u objeto del mundo real queden unidos entre sí.
- Variante en el tiempo: Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se generen reflejen en esas variaciones.
- No volátil: La información no se modifica ni se elimina, una vez almacenado un dato, este se convierte en información de sólo lectura, y se mantiene para futuras consultas.
- Integrado: La base de datos contiene los datos de todos los sistemas operacionales de la organización, y éstos deben ser consistentes.
Otra definición es la que otro reconocido autor, Ralph Kimball, define a los data warehouse, como «Un almacén de datos que extrae, limpia, conforma y entrega una fuente de datos dimensional para la consulta y el análisis».
En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:
- Integración de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organización y que con frecuencia tendrán diferentes estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un análisis comprensivo de toda la organización en el almacén de datos.
- Separación de los datos usados en operaciones diarias de los que se utilizan en el almacén de datos para los propósitos de divulgación, ayuda en la toma de decisiones, análisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podrían entorpecerse entre sí.
- Hacer análisis e informes sobre datos estructurados y semiestructurados de varias fuentes, como transacciones de puntos de venta, automatización de mercadotecnia, gestión de relaciones con los clientes y otros.
Periódicamente, se importan datos al almacén de datos desde los distintos sistemas de la entidad para su transformación posterior. Es práctica común normalizar los datos antes de combinarlos en el data warehouse mediante herramientas de extracción, transformación y carga. Esas herramientas leen los datos primarios, realizan el proceso de transformación al almacén de datos (filtración, adaptación, cambios de formato y otros.) y escriben en el almacén.
¿Cuáles son las ventajas y desventajas de los data warehouse?
Hay varias ventajas por las que es recomendable usar un almacén de datos. Algunas de ellas son:
- Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a los usuarios finales
- Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la decisión tales como informes de tendencias: Por ejemplo: obtener los elementos que generaron la mayoría de las ventas en un área en particular en los últimos dos años; informes de excepción, informes que muestren los resultados reales frente a los objetivos planificados.
- Los almacenes de datos pueden trabajar en conjunto con otros sistemas y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestión de relaciones con clientes.
Utilizar data warehouse también tiene algunas desventajas, somo son:
- A lo largo de su ciclo de vida generan altos costos. El almacén de datos no suele ser estático. Los costos de mantenimiento son elevados.
- Los almacenes de datos pueden quedar obsoletos relativamente pronto.
- En ocasiones, ante una petición de información los data warehouse devuelven una información que no es la óptima, los que puede suponer una pérdida para la organización.
- A menudo existe una delgada línea entre los almacenes de datos y los sistemas operacionales. Hay que determinar qué funcionalidades de estos se pueden aprovechar y cuáles se deben implementar en el data warehouse, resulta costoso implementar operaciones no necesarias o dejar de implementar alguna que sí vaya a necesitarse.
¿Qué tipos de data warehouse existen?
Se pueden diferenciar tres categorías principales de data warehouse. En primer lugar, los almacenes de datos de empresas, son depósitos de datos centralizados que permiten orientar las decisiones de la empresa. Los datos son organizados y presentados de manera uniforme. También permiten clasificar los datos en según su tema.
La segunda categoría principal es la de los data stores operacionales. Aquí los datos se actualizan en tiempo real, lo que los hace muy útiles para actividades cotidianas como el registro de informes y de empleados.
Por último, un data mart es una subcategoría de data warehouse y está concebida para empresas de sectores de la venta o las finanzas. Los datos pueden ser recolectados desde diversas fuentes.
¿Quién utiliza un data warehouse?
Los data warehouse deben ser utilizados por todas las entidades que deban tratar grandes volúmenes de datos o que recolectan datos de múltiples fuentes. Son utilizados también por organizaciones que desean acceder con mayor facilidad a sus datos. Para cualquier entidad que busque asistencia en la toma de decisiones, los almacenes de datos resultan pertinentes. Ese es también el caso de quien busca gestionar informes, gráficos y diagramas a partir de datos.
Los data warehouse tienen su lugar en cualquier actividad. Sin embargo, son utilizados de formas muy diferentes según el sector de que se trate, algunos ejemplos ilustran esa afirmación. En la aeronáutica, por ejemplo, las compañías aéreas los utilizan para analizar la rentabilidad de los trayectos, o para proponer promociones personalizadas. Los bancos usan los almacenes de datos para gestionar recursos, realizar estudios de mercado o para analizar el desempeño de sus diferentes productos. En el área de la salud, permiten predecir los resultados de un tratamiento o generar informes sobre pacientes.
El sector público utiliza esta tecnología para recolectar datos, analizar informes epidemiológicos o analizar el impacto de políticas de salud. En el campo de las compañías de seguros, se utiliza para analizar las tendencias del mercado o el comportamiento de los clientes. Las cadenas de negocios explotan los data warehouse para distribución, mercadotecnia, inventario, logística, comprender a los consumidores y optimizar los precios o lanzar campañas publicitarias personalizadas. Por último, en el área del turismo y la hotelería, las campañas publicitarias y promocionales pueden basarse sobre las preferencias y los hábitos de los viajeros.
Llegado a este punto, para ir cerrando el círculo, sería interesante conocer las relaciones que existen entre tres conceptos muy usados hoy en día, data warehouse, el procesamiento de grandes volúmenes de datos, big data y la Inteligencia Empresarial (business intelligence).
Los tres conceptos están interconectados, cada vez más entidades utilicen el análisis generado por ese tipo de tecnologías para tener una visión más analítica de su actividad y de esa forma tomar las mejores decisiones. Se trata de tres conceptos diferentes que tienen en común una nueva manera de relacionarse con los datos, siempre teniendo en cuenta la existencia de un gran volumen de información en varios formatos que puede contribuir a la toma de decisiones estratégicas. El objetivo final de cualquiera de esas tecnologías es ofrecer una base sólida para la toma de decisiones, pero la forma en que se utiliza es la que marcará la diferencia.
Se denomina big data a la gestión de grandes volúmenes de datos, que poseen una gran variedad, complejidad, velocidad de crecimiento y no son estructurados. Es un tipo de tecnología que permite analizar los datos en tiempo real, éstos y pueden provenir de diferentes fuentes y formatos, tales como mensajería instantánea, presentaciones, registros de grabaciones, imágenes, mensajes de correo electrónico y otros. Para que se tenga una idea de la importancia de la gestión de grandes volúmenes de datos, les digo que esa área crece cada año, alrededor de un 40%. Pero, siempre hay un pero, se da la paradoja de que cuanto mayor es su evolución, mayor es la escasez de profesionales cualificados para satisfacer esa demanda.
Por otro lado, un data warehouse, como ya se ha dicho, almacena datos consolidados que provienen de diversas fuentes o sistemas de la entidad. Se trata de datos, que tienen como objetivo principal ser precisos y de alta calidad para así ayudar a la toma de decisiones de la entidad. Se trata de conseguir tener todos los datos juntos para después poder dividirlos para hacer un análisis de determinados sectores o estrategias.
Por último, la inteligencia empresarial (business intelligence) es una especie de “cuello de botella” de los datos tomados del almacén de datos, que ayudan a la toma de decisiones. La Inteligencia empresarial transforma los datos en información útil para analizar no sólo para los negocios, sino también para las principales estrategias corporativas. Esos tres conceptos están interconectados y la perspectiva es que, cada vez lo estén más.
Resumo todo lo dicho de la siguiente forma: un data warehouse es una base de datos centralizada que se utiliza para almacenar, organizar y analizar grandes volúmenes de datos. Está diseñado para facilitar la toma de decisiones empresariales al proporcionar una visión integral y coherente de los datos de una organización.
Algunas de sus características clave son: 1. Integración de los datos: Los data warehouse integran elementos de diversas fuentes, como sistemas transaccionales, archivos planos y bases de datos externas. Eso permite tener una vista única y coherente de los datos en un solo lugar. 2. Estructura optimizada: Los datos en un almacén de datos se estructuran y organizan de manera específica para facilitar el análisis. 3. Orientado a temas: Un data warehouse se enfoca en temas o áreas de interés específicas para la organización, como ventas, mercadotecnia o inventario. Eso permite un análisis profundo y detallado de cada tema de interés. 4. Soporte para consultas complejas: Los almacenes de datos se diseñan para manejar consultas analíticas complejas que involucran grandes volúmenes de datos. 5. Datos históricos: Los data warehouses almacenan datos históricos de la organización, lo que permite realizar análisis comparativos y tendencias a lo largo del tiempo.
Algunas de sus ventajas son: 1. Mejora en la calidad de las decisiones empresariales al basarse en datos consolidados y confiables. 2. Mayor eficiencia en la generación de informes y análisis de datos. 3. Facilita la identificación de patrones, tendencias y relaciones entre los datos. 4. Permite un acceso más rápido y fácil a los datos para los usuarios y 5. Proporciona una visión integral de la organización al integrar datos de diferentes fuentes.