sábado, 8 de diciembre de 2018

Data Mining with Data Lake strategy



La configuración de un lago de datos (Data Lake) es una estrategia perfecta para almacenar el conjunto completo de datos independiente de su grado de estructuración, su configuración, su velocidad de cambio, su pertenencia, su procedencia abierta o cerrada y su nivel previo de procesamiento hasta incluir el reflejo del evento puro que puede ser captado, almacenado y etiquetado en un solo repositorio capaz de almacenar la data completa de manera independiente bajo una frontera especificada durante el diseño del lago por el arquitecto de datos.

La ventaja del Data Lake sobre los tradicionales y hasta obsoletos Data Warehouse es enorme porque su flexibilidad permite la incorporación de data no estructurada, data flotante de redes sociales, data de repositorios meta y data transaccional disponible en Internet para procesar con la ventaja adicional que una vez definidos los criterios de frontera (Data Lake boundary) se puede dotar al lago de una serie de componentes artificiales basados en algoritmos de analítica de datos, machine learning, deep learning, digital twins y componentes de Internet de las Cosas (IoT) o más precisamente de Internet de las Nanocosas (IoNT) para dotar a los Data Lakes de Inteligencia Artificial configurando Data Lakes Inteligentes capaces de preprocesar relaciones entre los datos sin el diseño del usuario, procesando relaciones en forma individual o agregada e independiente de la jerarquía previa para configurar potenciales Clústers que pueden eventualmente ser usados como información para la toma de decisiones en los negocios con la enorme ventaja que de manera particular y dada la Big Data disponible, el usuario no podría detectarlos con los métodos tradicionales que la analítica de datos ofrece actualmente.

La configuración de Data Lakes Inteligentes implica el desarrollo de los siguientes procesos:

1. Selección de frontera (Data Lake Boundary Design)
2. Preparación de mecanismos de absorción de datos (Algoritmos de absorción)
3. Preparación de componentes de preprocesamiento de clústers (IA, IoT, IoNT, DT, etc.)
4. Iniciación de pilotos espontáneos de explotación y voladura de datos para generar clústers
4. Preparación de algoritmos de cultivo de datos primarios (Nurturing Data Lake)
5. Selección de criterios de exportación potencial de clústers para eventual análisis de usuario
6. Identificación y reparación automática de debilidades y cubierta de potencial fuga de datos
7 Configuración de acceso para cultivadores, explotadores y usuarios autorizados.

Esta estrategia de 7 simples pasos permite la configuración y construcción de un Data Lake seguro más allá de las marcas proveedoras de infraestructura tecnológica que se nos ofrece para su configuración, lo importante sigue siendo el concepto tecnológico que sustenta el desarrollo de auténticos lagos de datos en la manera como estos nos sirvan para sustentar la toma de decisiones empresariales en un medio tecnológicamente tan dinámico y cambiante como el actual.

Max Schwarz (mschwarz@bygsac.com)