La
configuración de un lago de datos (Data Lake) es una estrategia
perfecta para almacenar el conjunto completo de datos independiente
de su grado de estructuración, su configuración, su velocidad de
cambio, su pertenencia, su procedencia abierta o cerrada y su nivel
previo de procesamiento hasta incluir el reflejo del evento puro que
puede ser captado, almacenado y etiquetado en un solo repositorio
capaz de almacenar la data completa de manera independiente bajo una
frontera especificada durante el diseño del lago por el arquitecto
de datos.
La
ventaja del Data Lake sobre los tradicionales y hasta obsoletos Data
Warehouse es enorme porque su flexibilidad permite la incorporación
de data no estructurada, data flotante de redes sociales, data de
repositorios meta y data transaccional disponible en Internet para
procesar con la ventaja adicional que una vez definidos los criterios
de frontera (Data Lake boundary) se puede dotar al lago de una serie
de componentes artificiales basados en algoritmos de analítica de
datos, machine learning, deep learning, digital twins y componentes
de Internet de las Cosas (IoT) o más precisamente de Internet de las
Nanocosas (IoNT) para dotar a los Data Lakes de Inteligencia
Artificial configurando Data Lakes Inteligentes capaces de
preprocesar relaciones entre los datos sin el diseño del usuario,
procesando relaciones en forma individual o agregada e independiente
de la jerarquía previa para configurar potenciales Clústers que
pueden eventualmente ser usados como información para la toma de
decisiones en los negocios con la enorme ventaja que de manera
particular y dada la Big Data disponible, el usuario no podría
detectarlos con los métodos tradicionales que la analítica de datos
ofrece actualmente.
La
configuración de Data Lakes Inteligentes implica el desarrollo de
los siguientes procesos:
1.
Selección de frontera (Data Lake Boundary Design)
2.
Preparación de mecanismos de absorción de datos (Algoritmos de
absorción)
3.
Preparación de componentes de preprocesamiento de clústers (IA,
IoT, IoNT, DT, etc.)
4.
Iniciación de pilotos espontáneos de explotación y voladura de
datos para generar clústers
4.
Preparación de algoritmos de cultivo de datos primarios (Nurturing
Data Lake)
5.
Selección de criterios de exportación potencial de clústers para
eventual análisis de usuario
6.
Identificación y reparación automática de debilidades y cubierta
de potencial fuga de datos
7
Configuración de acceso para cultivadores, explotadores y usuarios
autorizados.
Esta
estrategia de 7 simples pasos permite la configuración y
construcción de un Data Lake seguro más allá de las marcas
proveedoras de infraestructura tecnológica que se nos ofrece para su
configuración, lo importante sigue siendo el concepto tecnológico
que sustenta el desarrollo de auténticos lagos de datos en la manera
como estos nos sirvan para sustentar la toma de decisiones
empresariales en un medio tecnológicamente tan dinámico y cambiante
como el actual.
Max
Schwarz (mschwarz@bygsac.com)
No hay comentarios:
Publicar un comentario