Compartir

Por: Carlos del Porto Blanco

¡Los datos! ¡los datos! ¡los datos!, gritó con impaciencia. No puedo hacer ladrillos sin arcilla. Sherlock Holmes.

Un lago de datos es un sistema o biblioteca de datos almacenados en formato en bruto. Habitualmente, es un único repositorio de elementos que incluye copias sin ningún tratamiento de los datos del sistema, sensores, datos sociales y otros. También puede haber datos con algún nivel de transformación que ya fueron usados para tareas como la generación de informes, visualización, analítica avanzada y aprendizaje automático. Un lago de datos puede incluir datos estructurados de bases de datos relacionales, datos semiestructurados (CSV, logs, XML), datos sin estructurar (correos electrónicos, documentos, PDF) y datos binarios (imágenes, audio, vídeo).

Una de las definiciones de lago de datos es la siguiente: repositorio central de datos que ayuda a abordar los problemas relacionados con los silos de datos. Es importante destacar que un lago de datos almacena grandes cantidades de elementos sin procesar, en su formato original. Ese formato podría ser estructurado, no estructurado o semiestructurado.

James Dixon, quien fuera director de tecnología en la compañía Pentaho, acuñó el término en 2011 para diferenciarlo de un data mart, que es un repositorio más pequeño de atributos interesantes obtenidos a partir de datos en bruto. Un estudio de la consultora PwC sostiene que los lagos de datos pueden “acabar con los silos de datos”. En su estudio examen sobre los lagos de datos observaron que las empresas estaban empezando a extraer datos y colocarlos para su análisis en un único repositorio. Empresas como Google, Oracle, Microsoft, Teradata, Cloudera, MongoDB, Amazon y otras, ya usaban el término en 2016.

A diferencia de un lago de datos, un almacén de datos brinda capacidades de gestión de datos y almacena datos aquellos procesados y filtrados que ya han sido tratados para casos de uso o preguntas de negocio predefinidos. Los almacenes y los lagos de datos a menudo se complementan entre sí. Por ejemplo, si se necesita responder a una pregunta de negocios, se procesan datos en brutos almacenados en un lago de datos; se realiza un análisis de mayor alcance que implica extraer, depurar, transformarlos y entonces se almacenan acumulan en un almacén de datos.

 

Se muestran algunos detalles comparativos entre soluciones de lago de datos y de almacén de datos.

 

Lago de datos Almacén de datos
Datos Cualquier tipo de datos de cualquier fuente Relacional o estructurado
Esquema Esquema de lectura (tiempo de análisis) esquema de escritura (predefinido)
Costo de almacenamiento Menor costo –escala de petabytes– Mayor costo –escala de terabytes–
Calidad de datos Datos curados o no curados Datos curados
Usuarios Científicos de datos, desarrolladores de datos y analistas de negocio Analistas de negocio
Analíticas Aprendizaje profundo, analíticas predictivas, descubrimiento/perfiles de datos Informes por lotes, inteligencia empresarial, visualizaciones

Elementos fundamentales en una solución de lago de datos

  • Movimiento de datos: permiten importar cualquier tipo de datos de múltiples fuentes en su formato nativo. Eso permite facilita que se escalar escale en el volumen de los datos según sea necesario, sin tener que definir estructuras, esquemas, ni transformaciones de estos, lo cual permite posibilita ahorros.
  • Almacenar y catalogar datos de manera segura: almacena datos estructurados, semiestructurados y no estructurados de una variedad de fuentes, tales como datos de negocios, CRM o ERP, dispositivos de internet de las cosas, redes sociales digitales, e incluso datos históricos de sistemas heredados. Los lagos de datos permiten capturar datos por lotes y en streaming, al tiempo que aplica gobernanza, seguridad y control sobre ellos. Los elementos se pueden consultar directamente o se pueden incorporarse a un almacén de datos con las herramientas adecuadas.
  • Analíticas y aprendizaje profundo: permiten el acceso a la información de acuerdo con roles para operar analíticas y análisis de aprendizaje profundo, sin necesidad de pasar los datos a una base de datos analítica separada. Además, los lagos de datos permiten propician la combinar combinación de elementos históricos con otros en tiempo real, para refinar los modelos de aprendizaje profundo o analíticas predictivas para en aras de que se brinden brindar mejores y nuevos resultados.

 

Cómo funcionan los lagos de datos

 

Un lago de datos tiene tres características fundamentales:

  1. Una zona de landing para sus datos crudos
  2. Una zona de staging en la que los datos se transforman para lograr un objetivo analítico
  3. Una zona de exploración de datos donde éstos son usados por analíticas y aplicaciones y para que se alimenten alimentar modelos de aprendizaje profundo.

Muestro un ejemplo de casos de uso de lago de datos en el comercio minorista, para que se entienda mejor el funcionamiento de esta tecnología.

 

Un lago de datos que almacene los datos de ventas a largo plazo conjuntamente con datos no estructurados tales como secuencias de clics en el sitio web, clima, noticias, y datos micro/macroeconómicos. Cuando se tienen Tener esos datos almacenados juntos y accesibles, se facilita que un científico de datos combine esas diferentes fuentes de información en un modelo que podría pronosticar la demanda de un producto o línea de productos específicos. Esa información se podría usar como entradas para el sistema de gestión financiero – contable minorista, con el  a fin de ajustar los planes de producción.

 

Las organizaciones que generan valor empresarial de forma exitosa a partir de sus datos tendrían ventajas sobre la competencia. Esas entidades pueden realizar nuevos tipos de análisis, aplicar aprendizaje automático sobre nuevas fuentes de información tales como: archivos de registro, datos de secuencias de clics, redes sociales y dispositivos conectados a Internet almacenados en lagos de datos. Eso ayuda a identificar oportunidades de crecimiento empresarial en menos tiempo y permite actuar logrando logra que se atraigan y retengan atraer y retener clientes, que se potencie potenciar la productividad, se mantengan mantener dispositivos de manera proactiva y se tomen tomar decisiones informadas.

 

A medida que las organizaciones crean lagos de datos y una plataforma de análisis de ellos, tendrán que considerar una serie de capacidades clave, entre las cuales se incluyen:

 

Migración de datos: Los lagos de datos permiten importar cualquier cantidad de datos que puedan ingresar en tiempo real. Esa información se recopila de múltiples orígenes y se transfieren al lago de datos en su formato original. Ese proceso posibilita escalar hasta alcanzar que se alcance cualquier volumen de datos, a la vez que ahorra tiempo en la definición de estructuras de datos, esquemas y transformaciones.

 

Los lagos de datos permiten posibilitan el almacenamiento de almacenar datos relacionales, como los que surgen de bases de datos operativas y otros de aplicaciones, así como datos no relacionales, como pueden ser los provenientes de aplicaciones móviles, dispositivos de Internet de las Cosas, IoT y redes sociales digitales. También brindan la capacidad de comprender qué datos hay en el lago a través del rastreo, la catalogación y la indexación de datos. Se debe garantizar la seguridad de los activos.

 

Análisis: Los lagos de datos necesitan nuevos roles en la organización, como son los científicos de datos, desarrolladores de datos y analistas de negocios. Los lagos de datos posibilitan la ejecución de ejecutar análisis sin tener que se transfieran transferir sus datos a un sistema de análisis independiente.

 

Aprendizaje automático: Los lagos de datos permitirán a las organizaciones generar diferentes tipos de información, lo que incluye generar la creación de informes de datos históricos, la aplicación de aplicar aprendizaje automático, crear el establecimiento de modelos para la predicción de predecir posibles resultados y la sugerencia de sugerir un rango de acciones para lograr que consiga el mejor resultado posible.

 

El valor del lago de datos: La habilidad de aprovechar mayor cantidad de información, de más fuentes en menos tiempo, a la vez que se capacita a los usuarios para que colaboren y analicen los datos de diferentes maneras, garantiza que se tomen tomar mejores decisiones en menor tiempo.

 

Algunos ejemplos en los cuales los lagos de datos han aportado valor, son los siguientes:

 

·         Mejora de las opciones de innovación en investigación y desarrollo: Un lago de datos puede ayudar a los equipos de Investigación y Desarrollo a probar sus hipótesis, ajustar las suposiciones y evaluar los resultados, como puede ser elegir la elección de los materiales correctos en el diseño de productos, permitiendo lo cual permite un desempeño más rápido; realizar una investigación genómica que conduzca a una medicación más eficaz; o comprender la disposición de los clientes a pagar por diferentes atributos.

·         Mejora en la eficiencia operativa: Internet de las cosas (IoT) introduce formas de recopilar mayor cantidad de datos en procesos como la fabricación, esto con a partir de información en tiempo real proveniente de dispositivos conectados a Internet. Un lago de datos facilita el almacenamiento y la ejecución de análisis sobre datos de IoT generados por máquinas para descubrir maneras de que se reduzcan reducir los costos operativos e incrementar y se incremente la calidad.

El mundo altamente conectado y orientado a la información de hoy no será posible sin la incorporación de soluciones de lago de datos. Eso se debe a que las organizaciones disponen de mucha información en sus servidores sin procesar. Las herramientas de almacenamiento escalables pueden almacenar acopiar y proteger datos en un único lugar. Eso establece las bases para que los usuarios puedan procesar una amplia variedad de cargas de trabajo, como el procesamiento tratamiento de macrodatos, consultas SQL, minería de texto, análisis de streaming y aprendizaje automático. A continuación, la información se puede usar para la visualización de datos ascendentes y las necesidades de informes ad hoc.

Estos son algunos ejemplos de cómo se usan plataformas de lago de datos:

  • Transmisión de contenido multimedia. Las empresas de streaming basadas en suscripciones recopilan y procesan información sobre el comportamiento de los clientes, que pueden usar para mejorar el mejoramiento de su algoritmo de recomendación.
  • Finanzas. Las empresas de inversión usan los datos de mercado más actualizados, que se recopilan y almacenan en tiempo real, para administrar eficazmente los riesgos de cartera.
  • Atención sanitaria. Las organizaciones sanitarias confían en los macrodatos para mejorar la calidad de la atención a los pacientes. Los hospitales usan grandes cantidades de datos históricos para simplificar los caminos de los pacientes, lo que genera mejores resultados y un costo reducido de la atención.
  • Distribuidor omnicanal. Los minoristas usan emplean lagos de datos para capturar en la captura y consolidar consolidación de los datos que proceden de varios puntos de contacto, como el móvil, las redes sociales, el chat, el boca a boca y en persona.
  • Internet de las Cosas, IoT. Los sensores de hardware generan enormes cantidades de datos semiestructurados y no estructurados en el mundo físico adyacente. Los lagos de datos proporcionan un repositorio central para que esa información resida en él para de cara a un análisis futuro.
  • Cadena de suministro digital. Los Lagos de datos ayuda a los fabricantes a consolidar datos de almacenamiento diferentes, incluidos los sistemas EDI, XML y JSON.
  • Ventas. Los científicos de datos y los ingenieros de ventas suelen crear modelos predictivos para ayudar que ayuden a determinar el comportamiento de los clientes y reducir que se reduzca el abandono general.

El principal desafío de una arquitectura de lago de datos es que la información sin procesar se almacene sin supervisión de los contenidos. Para que un lago de datos habilite el uso de la información, debe contar con mecanismos definidos para catalogar y proteger los datos. Sin ellos, no se pueden encontrar los datos que se necesitan, ni se puede logra confiar en ellos, lo que resulta en un “pantano de datos”. Para satisfacer las necesidades de audiencias más amplias, los lagos de datos deben tener gobernanza, coherencia semántica y controles de acceso.

Para que se tenga Una idea de la importancia de este nuevo concepto, es el hecho de que se estima que el valor del mercado de los lagos de datos para el año 2026, será de 17 mil 600 millones de dólares. Las entidades cubanas tienen ante si el reto de utilizar de manera intensiva estas tecnologías.