sábado, 8 de diciembre de 2018

Data Mining with Data Lake strategy



La configuración de un lago de datos (Data Lake) es una estrategia perfecta para almacenar el conjunto completo de datos independiente de su grado de estructuración, su configuración, su velocidad de cambio, su pertenencia, su procedencia abierta o cerrada y su nivel previo de procesamiento hasta incluir el reflejo del evento puro que puede ser captado, almacenado y etiquetado en un solo repositorio capaz de almacenar la data completa de manera independiente bajo una frontera especificada durante el diseño del lago por el arquitecto de datos.

La ventaja del Data Lake sobre los tradicionales y hasta obsoletos Data Warehouse es enorme porque su flexibilidad permite la incorporación de data no estructurada, data flotante de redes sociales, data de repositorios meta y data transaccional disponible en Internet para procesar con la ventaja adicional que una vez definidos los criterios de frontera (Data Lake boundary) se puede dotar al lago de una serie de componentes artificiales basados en algoritmos de analítica de datos, machine learning, deep learning, digital twins y componentes de Internet de las Cosas (IoT) o más precisamente de Internet de las Nanocosas (IoNT) para dotar a los Data Lakes de Inteligencia Artificial configurando Data Lakes Inteligentes capaces de preprocesar relaciones entre los datos sin el diseño del usuario, procesando relaciones en forma individual o agregada e independiente de la jerarquía previa para configurar potenciales Clústers que pueden eventualmente ser usados como información para la toma de decisiones en los negocios con la enorme ventaja que de manera particular y dada la Big Data disponible, el usuario no podría detectarlos con los métodos tradicionales que la analítica de datos ofrece actualmente.

La configuración de Data Lakes Inteligentes implica el desarrollo de los siguientes procesos:

1. Selección de frontera (Data Lake Boundary Design)
2. Preparación de mecanismos de absorción de datos (Algoritmos de absorción)
3. Preparación de componentes de preprocesamiento de clústers (IA, IoT, IoNT, DT, etc.)
4. Iniciación de pilotos espontáneos de explotación y voladura de datos para generar clústers
4. Preparación de algoritmos de cultivo de datos primarios (Nurturing Data Lake)
5. Selección de criterios de exportación potencial de clústers para eventual análisis de usuario
6. Identificación y reparación automática de debilidades y cubierta de potencial fuga de datos
7 Configuración de acceso para cultivadores, explotadores y usuarios autorizados.

Esta estrategia de 7 simples pasos permite la configuración y construcción de un Data Lake seguro más allá de las marcas proveedoras de infraestructura tecnológica que se nos ofrece para su configuración, lo importante sigue siendo el concepto tecnológico que sustenta el desarrollo de auténticos lagos de datos en la manera como estos nos sirvan para sustentar la toma de decisiones empresariales en un medio tecnológicamente tan dinámico y cambiante como el actual.

Max Schwarz (mschwarz@bygsac.com)

lunes, 5 de noviembre de 2018

A brief history of management tools


Comparto mis notas sobre la evolución de las herramientas de gestión y la manera como la innovación en gestión va siendo momentáneamente desfasada respecto a la innovación en productos/servicios y nuevos mercados tecnológicos y de redes sociales como los que plantea el reto del presente. A brief history of management tools - Max Schwarz
http://repositorio.ulima.edu.pe/bitstream/handle/ulima/7100/Schwarz_Max_breve%20historia%20herramientas%20gestion.pdf?sequence=1&isAllowed=y

miércoles, 24 de octubre de 2018

Digital Twins con Inteligencia Artificial (IA) sobre Internet Industrial de las Cosas (IIoT)



La tecnología de gemelos digitales (digital twins) nos permite desarrollar modelos virtuales de procesos, productos y servicios reales que pueden ofrecerse en el mercado generando una correlación entre el mundo físico y el mundo virtual que permite enormes ventajas en el logro de experiencia de uso, confirmación de propiedades y características, así como pruebas de diseño en simulaciones cuasi reales que reducen el time-to-market hasta en un 50% con un considerable ahorro de costos.

La configuración de gemelos digitales es una realidad que actualmente opera en la industria con un impresionante grado de avance y aunque aún no está masificada como tecnología, sin embargo, es una poderosa herramienta disponible para la industria. Esta configuración permite obtener verdaderas replicas digitales de objetos funcionales, equipos, máquinas e instrumentos reales de la industria que pueden ser configurados con la mayor experiencia que la data de la realidad indica en la historia del uso del objeto en la realidad. Esto significa que el objeto sujeto de IIoT puede alimentarse de la Big Data de su experiencia con lo cual con pequeños algoritmos de aprendizaje pueden incluso aprender e interactuar de manera inteligente logrando un avance notable que puede incrementar la productividad industrial hasta en un 25% reduciendo los costos hasta en un 40% para la experiencia del proceso actual y hasta en un 65% para el caso de nuevas experiencias o la aplicación de prototipos de uso industrial y comercial.

El avance del internet de las cosas en combinación con inteligencia artificial mejorada con nuevas tecnologías como blockchain, EDGE Computing, Fog Computing y similares puede permitir una explosión de uso masificada actualmente vinculada a la IIoT, IoT y IoNT que puede transformar la manera como facilitamos la experiencia habitable en el mundo que nos rodea y lo mejor es que está literalmente disponible a la vuelta de la esquina. Las aplicaciones en la minería, petroleo, pesca, industria, comercio, finanzas, investigación y desarrollo de productos y servicios son infinitas y perfectamente sujetas de modelación bajo el nuevo concepto de gemelos digitales.  

Nota: EDGE Computing es el paradigma que permite explotar la información recolectada de dispositivos conectados a Internet de las Cosas (IoT) permitiendo que los datos no solo sean colectados en sitio sino también procesados en el lugar donde se generan dando paso a un sostenido concepto de “tiempo real” evitando así congestionar innecesariamente la nube. Esto puede ser promovido a través de tecnologías de tipo Fog Computing que permiten acercar la nube a los cúmulos de IoT donde se generan, colectan y procesan los datos para tomar decisiones y adoptar un comportamiento de respuesta inteligente.    

(mschwarz@bygsac.com)    - B&G Engineering SAC

viernes, 1 de junio de 2018

La técnica de la vectorización para la captura de datos en Inteligencia Artificial



A diferencia de los humanos que capturamos los datos de la realidad a través de los sentidos, las computadoras capturan los datos a través de números y arreglos de números llamados vectores. Los vectores son una forma poderosa de representar datos de la realidad por su inherente mutidimensionalidad espacial que representa mejor para las máquinas cualquier aspecto de la realidad sea a nivel de olor, sonido, texto, imagen o video.

El proceso de abstracción de la realidad a números y arreglos números para aprendizaje de máquina se denomina vectorización computacional y consiste en la descomposición del sonido, texto, imagen o video en pequeños sectores trazados con uno o varios vectores de referencia en forma de vectores, matrices, cubos de matrices o hipercubos matriciales dependiendo de la complejidad del objeto, proceso o transacción que requiera ser interpretado.

En el caso del olor, se hace una descomposición de componentes (principalmente gases, vapores y polvo) a manera de la cromatografía tradicional para codificar y procesar la información química de sus componentes y vectorizarla según la asignación de códigos a sus propiedades con lo cual se puede reproducir la manera como actúa el olfato humano.
En el caso del sonido que es una percepción de la vibración mecánica expresada en términos de variación de la presión atmosférica en el aire con ocurrencias normalmente periódicas y no periódicas o en combinaciones de las mismas tiene siempre una cierta frecuencia y período determinado que se traduce en una señal analógica continua que requiere transformarse en señal digital discreta que puede expresarse matemáticamente por un vector o una matriz vectorial con esas especificaciones que el ordenador puede fácilmente entender y procesar.  


En el caso del texto redactado sea manuscrito, en procesador de textos o ya como texto digitalizado, se puede sectorizar palabra por palabra en un vector que tenga tantas dimensiones como palabras tenga el lenguaje madre que lo origina. Este proceso palabra por palabra es bastante lógico pero ineficiente en términos de extensión de data, más si consideramos que el idioma español tiene más de 88 mil palabras puras y más de 150 mil si se incluye americanismos (el idioma ingles supera las 350 mil palabras). Eso lo hace poco práctico, por lo que para estos casos se procede mejor con una estrategia de vectorización semántica con lo cual se reconoce patrones de palabras relacionadas o conectadas como si fueran cúmulos de palabras donde el vector puede trazar el cúmulo directamente y así lograr que la computadora entienda semánticamente para el procesamiento de máquina. En ese contexto el “keyword” sería espacialmente el centroide del cúmulo de palabras.

En el caso de las imágenes dibujadas o en fotografía, se ha recurrido a la representación por medio de unidades mínimas de imagen digital denominadas comúnmente “pixel” por medio de vectores tipo RGB o HSV. En el caso de los vectores RGB (Red-Green-Blue) cada imagen es referida a un conjunto de vectores por cada pixel con su respectiva combinación numérica de intensidades RGB según los colores que proyecta ya que con la combinación de estos tres colores (rojo, verde y azul) salen todos los colores posibles que conocemos. Con esto se conforma una matriz y su tridimensionalidad da un cubo que representa directa y en forma única el conjunto vectorial o matricial que corresponde específicamente a la imagen que quiere procesarse para el entendimiento computacional de una máquina. De igual forma sucede en el caso de vectores tipo HSV (Hue-Saturation-Value/brightness) donde cada vector identificado señala la saturación, matiz y brillo de cada pixel como característica centrales que permiten identificarlo en lenguaje de la máquina.

En el caso del vídeo el tratamiento es similar puesto que un vídeo es esencialmente una superposición de imágenes en una secuencia de tiempo que puede ser vectorizada imagen a imagen conformando un hipercubo de matrices único para cada vídeo que puede ser perfectamente leído y entendido por la máquina para efectos de análisis.
El propósito de la vectorización de datos para IA es la transformación de la realidad objetiva en conjuntos de arreglos numéricos que permitan la entrada lógica para el procesamiento de datos que puedan generar información relevante para la toma de decisiones por parte de la máquina.

Una vez completada la captación de datos de la realidad por medio de la vectorización de entradas, se inicia la configuración de un patrón para el proceso de reconocimiento diferenciado de los patrones obtenidos entre grandes volúmenes de datos (BigData) con lo que puede detectarse personas y objetos en determinados lugares y espacios temporales, reconocer preferencias, identificar tendencias comerciales y patrones de consumo, prospectar experiencias y hacer análisis predictivo puro o combinado sobre casi cualquier aspecto de la realidad. ¡Una poderosa herramienta al alcance de nuestras manos!!