viernes, 1 de junio de 2018

La técnica de la vectorización para la captura de datos en Inteligencia Artificial



A diferencia de los humanos que capturamos los datos de la realidad a través de los sentidos, las computadoras capturan los datos a través de números y arreglos de números llamados vectores. Los vectores son una forma poderosa de representar datos de la realidad por su inherente mutidimensionalidad espacial que representa mejor para las máquinas cualquier aspecto de la realidad sea a nivel de olor, sonido, texto, imagen o video.

El proceso de abstracción de la realidad a números y arreglos números para aprendizaje de máquina se denomina vectorización computacional y consiste en la descomposición del sonido, texto, imagen o video en pequeños sectores trazados con uno o varios vectores de referencia en forma de vectores, matrices, cubos de matrices o hipercubos matriciales dependiendo de la complejidad del objeto, proceso o transacción que requiera ser interpretado.

En el caso del olor, se hace una descomposición de componentes (principalmente gases, vapores y polvo) a manera de la cromatografía tradicional para codificar y procesar la información química de sus componentes y vectorizarla según la asignación de códigos a sus propiedades con lo cual se puede reproducir la manera como actúa el olfato humano.
En el caso del sonido que es una percepción de la vibración mecánica expresada en términos de variación de la presión atmosférica en el aire con ocurrencias normalmente periódicas y no periódicas o en combinaciones de las mismas tiene siempre una cierta frecuencia y período determinado que se traduce en una señal analógica continua que requiere transformarse en señal digital discreta que puede expresarse matemáticamente por un vector o una matriz vectorial con esas especificaciones que el ordenador puede fácilmente entender y procesar.  


En el caso del texto redactado sea manuscrito, en procesador de textos o ya como texto digitalizado, se puede sectorizar palabra por palabra en un vector que tenga tantas dimensiones como palabras tenga el lenguaje madre que lo origina. Este proceso palabra por palabra es bastante lógico pero ineficiente en términos de extensión de data, más si consideramos que el idioma español tiene más de 88 mil palabras puras y más de 150 mil si se incluye americanismos (el idioma ingles supera las 350 mil palabras). Eso lo hace poco práctico, por lo que para estos casos se procede mejor con una estrategia de vectorización semántica con lo cual se reconoce patrones de palabras relacionadas o conectadas como si fueran cúmulos de palabras donde el vector puede trazar el cúmulo directamente y así lograr que la computadora entienda semánticamente para el procesamiento de máquina. En ese contexto el “keyword” sería espacialmente el centroide del cúmulo de palabras.

En el caso de las imágenes dibujadas o en fotografía, se ha recurrido a la representación por medio de unidades mínimas de imagen digital denominadas comúnmente “pixel” por medio de vectores tipo RGB o HSV. En el caso de los vectores RGB (Red-Green-Blue) cada imagen es referida a un conjunto de vectores por cada pixel con su respectiva combinación numérica de intensidades RGB según los colores que proyecta ya que con la combinación de estos tres colores (rojo, verde y azul) salen todos los colores posibles que conocemos. Con esto se conforma una matriz y su tridimensionalidad da un cubo que representa directa y en forma única el conjunto vectorial o matricial que corresponde específicamente a la imagen que quiere procesarse para el entendimiento computacional de una máquina. De igual forma sucede en el caso de vectores tipo HSV (Hue-Saturation-Value/brightness) donde cada vector identificado señala la saturación, matiz y brillo de cada pixel como característica centrales que permiten identificarlo en lenguaje de la máquina.

En el caso del vídeo el tratamiento es similar puesto que un vídeo es esencialmente una superposición de imágenes en una secuencia de tiempo que puede ser vectorizada imagen a imagen conformando un hipercubo de matrices único para cada vídeo que puede ser perfectamente leído y entendido por la máquina para efectos de análisis.
El propósito de la vectorización de datos para IA es la transformación de la realidad objetiva en conjuntos de arreglos numéricos que permitan la entrada lógica para el procesamiento de datos que puedan generar información relevante para la toma de decisiones por parte de la máquina.

Una vez completada la captación de datos de la realidad por medio de la vectorización de entradas, se inicia la configuración de un patrón para el proceso de reconocimiento diferenciado de los patrones obtenidos entre grandes volúmenes de datos (BigData) con lo que puede detectarse personas y objetos en determinados lugares y espacios temporales, reconocer preferencias, identificar tendencias comerciales y patrones de consumo, prospectar experiencias y hacer análisis predictivo puro o combinado sobre casi cualquier aspecto de la realidad. ¡Una poderosa herramienta al alcance de nuestras manos!!

jueves, 31 de mayo de 2018

El método de partículas y un problema millonario



Usted pagaría un millón de dólares por la solución de un problema matemático?


Las ecuaciones de los fluidos se modelan matemáticamente por un conjunto de ecuaciones popularmente conocidas como las ecuaciones de Navier-Stokes y el Clay Mathematics Institute está pagando un millón de dólares a quien consiga resolver ese problema.         

Poesía de números en forma matemática para algunos y una herramienta vital en nuestra sociedad para otros, estas ecuaciones tienen una importancia tan grande que no es sorpresa ser uno de los problemas del milenio por los que se paga tan grande suma de dinero. Estas ecuaciones pueden ser usadas para modelar el clima, todo tipo de flujos de agua, pronosticar corrientes marinas, proyectar hélices de navíos, hasta los movimientos de las estrellas dentro de las galaxias. Y como el aire también es un fluido… el flujo de aire alrededor de las alas de un avión, la propagación de humo en un incendio, los efectos de la polución en ciudades, etc. ¡Las aplicaciones podrían llegar a un millón!

Actualmente no sabemos cómo resolverlas. Entonces, ¿cómo es que tenemos tantas aplicaciones de ellas? Esto es gracias a los modelos matemáticos diseñados para computador o como los matemáticos llaman métodos numéricos. Hoy día hablaremos de uno de ellos que ha demostrado gran importancia para aplicaciones: el método de partículas.

Los métodos numéricos suelen ser complicados más este método traduce matemáticamente la física real del problema: ¡el fluido está formado por partículas de fluido!  Es verdad, el agua, el aire o cualquier fluido en realidad son moléculas del fluido manteniéndose próximas pero libres. La esencia de este método es intentar traducir este comportamiento a los modelos matemáticos. Así las ecuaciones arriba ya no se consideran en un ambiente continuo sino en una nube de partículas de fluido, lo que simplifica bastante la complejidad de esas ecuaciones difíciles.

Podemos corroborar el éxitos de este método al ver las impresionantes escenas con agua de la película de Disney Moana, en donde Disney creó su propio motor de simulación de agua basado en este método, el módulo splash. Como esta, muchas escenas super realistas de agua en la industria del entretenimiento se realizaron usando este método tan natural a la física de los fluidos y efectivo. Hasta que algún matemático nos sorprenda con la deseada solución explícita, los métodos numéricos y en particular el método de partículas seguirá nos sorprendiendo con las increíbles simulaciones que a pesar de ello podemos realizar con fluidos actualmente.


miércoles, 16 de mayo de 2018

Enfoque colaborativo Crowdthinking to Crowdworking

Protocolos de Innovación empresarial bajo el enfoque “Crowdthinking to Crowdworking”

http://repositorio.ulima.edu.pe/handle/ulima/6073

sábado, 12 de mayo de 2018

Técnicas y Métodos de medición del Capital Intelectual

Compartimos el articulo "Revisión de la literatura de las técnicas y métodos de medición del Capital Intelectual" publicado en UCSA  Vol 5 Nro 1, 2018 elaborado en la Facultad de Ciencias Empresariales y Económicas de la Universidad de Lima por los investigadores Elizabeth Otero y Max Schwarz