Data lake o data warehouse, ¿Cuál es mejor para su empresa?

Las organizaciones de distintos sectores, desde la minería, los servicios públicos, las aerolíneas, el gobierno hasta los bienes de consumo rápido, acumulan grandes cantidades de datos cada día, y los departamentos operativos de las empresas deben encontrar el balance entre qué herramientas utilizar para aprovechar dichos datos y hacer que sus empresas sean más competitivas y eficientes.

Data lakes y data warehouses se utilizan frecuentemente para almacenar datos, pero no son lo mismo. Data lake es un almacenamiento para datos no estructurados, mientras que el data warehouses es para datos estructurados. Pero, ¿qué significan que sean estructurados y no estructurados, y cuáles son sus usos comerciales?

Primero, hay que distinguir qué son los datos estructurados y no estructurados:

Los datos estructurados son datos procesados con modelos de datos predefinidos. Por lo general, son solo texto y permiten una búsqueda fácil. Pueden ser generados de manera automatizada o por humanos. Algunos ejemplos de datos incluyen: fechas, números de teléfono, números de identificación personal, números de tarjetas de crédito, nombres de clientes, direcciones, nombres y números de productos, e información de transacciones. Se utilizan comúnmente en los sistemas de reservas de aerolíneas, control de inventario y sistemas CRM y ERP.

Los datos no estructurados incluyen todo lo demás. Utilizan un modelo indefinido y también pueden ser generados de manera automatizada o por humanos. Algunos ejemplos comunes de datos incluyen: archivos de texto, informes, mensajes de correo electrónico, archivos de audio y video, imágenes, imágenes de sistemas de vigilancia, e información del IdC. Los datos no estructurados se aplican en el procesamiento de textos, softwares de presentación, redes sociales, fotografía, ciencia, procesamiento de lenguajes naturales (NLP) aplicados a la medicina, y en herramientas para ver y editar videos.¹

Entonces, ¿por qué es importante que una empresa conozca y distinga la diferencia entre los dos y encuentre el balance entre data lakes y data warehouses?

Según los informes de la empresa IDC, para el 2025 habrá 163 zettabytes en el mundo, de los cuales el 80% no estará estructurado.² Dado que la mayor parte de los datos generados por las empresas son datos no estructurados, las empresas necesitan encontrar maneras de analizarlos para tomar importantes decisiones en entornos altamente competitivos. Por ejemplo, para una empresa que vende un producto o servicio, las herramientas de big data permiten escanear rápidamente el comportamiento del cliente y ajustar sus campañas de marketing acorde a los resultados. Por otro lado, en industrias fuertemente reguladas, los problemas de incumplimiento pueden costar dinero y la reputación de una empresa. Un problema de incumplimiento se puede detectar de manera más rápida y con mayor anticipación, ya sea mediante el análisis de correos electrónicos, conversaciones de chat bot, etc. Esto es posible gracias al uso del procesamiento de lenguaje natural, el análisis de sentimiento, el reconocimiento de patrones, la conversión de voz a texto a través del aprendizaje automático y algoritmos de inteligencia.

Eso no quiere decir que uno solo deba considerar los data lakes como la única opción para su organización. Data lakes y data warehouses se complementan entre sí en un flujo de trabajo. Supongamos que una gran cantidad de datos se debe procesar en el data lake de una empresa. Un analista de negocios plantea una pregunta. Una parte de los datos relevantes se extrae, condensa y procesa para que el data warehouse responda a esa pregunta. En una típica empresa, el 80% de los usuarios están operativos.³

Utilizan data warehouses para responder preguntas y ejecutar análisis para ayudarles a tomar decisiones empresariales. Estos usuarios no poseen un alto nivel de programación y ciencia de datos para acceder y procesar la información directamente de un data lake.

Por lo tanto, una organización debe encontrar un equilibrio entre el uso de las dos opciones de almacenamiento para su big data.³

 

New Stack puede ayudar a su empresa a analizar, evaluar, crear la infraestructura y llevarla al siguiente nivel de aprendizaje automático e inteligencia artificial para poner valor de su big data. Póngase en contacto con nosotros hoy y programe una reunión, ¡y demos el siguiente paso en la digitalización de su empresa!

Fuentes:

  1. Structured vs Unstructured Data, Christine Taylor, Marzo 28, 2018, datamation.com
  2. Unstructured data: A cheat sheet, Mary Shacklett, Julio 14, 2014, techrepublic.com
  3. Top 5 Differences between Data Lakes and Data Warehouses, Chris Campbell, Enero 26, 2015, bluegranite.com

Cada día mas empresas confian en New Stack

El éxito de nuestros clientes es nuestro éxito.