A diferencia de los
humanos que capturamos los datos de la realidad a través de los sentidos, las
computadoras capturan los datos a través de números y arreglos de números
llamados vectores. Los vectores son una forma poderosa de representar datos de
la realidad por su inherente mutidimensionalidad espacial que representa mejor para
las máquinas cualquier aspecto de la realidad sea a nivel de olor, sonido,
texto, imagen o video.
El proceso de
abstracción de la realidad a números y arreglos números para aprendizaje de
máquina se denomina vectorización computacional y consiste en la descomposición
del sonido, texto, imagen o video en pequeños sectores trazados con uno o
varios vectores de referencia en forma de vectores, matrices, cubos de matrices
o hipercubos matriciales dependiendo de la complejidad del objeto, proceso o transacción
que requiera ser interpretado.
En el caso del olor, se
hace una descomposición de componentes (principalmente gases, vapores y polvo)
a manera de la cromatografía tradicional para codificar y procesar la
información química de sus componentes y vectorizarla según la asignación de códigos
a sus propiedades con lo cual se puede reproducir la manera como actúa el olfato
humano.
En el caso del sonido que
es una percepción de la vibración mecánica expresada en términos de variación
de la presión atmosférica en el aire con ocurrencias normalmente periódicas y
no periódicas o en combinaciones de las mismas tiene siempre una cierta frecuencia
y período determinado que se traduce en una señal analógica continua que
requiere transformarse en señal digital discreta que puede expresarse
matemáticamente por un vector o una matriz vectorial con esas especificaciones
que el ordenador puede fácilmente entender y procesar.
En el caso del texto redactado
sea manuscrito, en procesador de textos o ya como texto digitalizado, se puede
sectorizar palabra por palabra en un vector que tenga tantas dimensiones como
palabras tenga el lenguaje madre que lo origina. Este proceso palabra por
palabra es bastante lógico pero ineficiente en términos de extensión de data,
más si consideramos que el idioma español tiene más de 88 mil palabras puras y más de 150 mil si se incluye americanismos (el idioma ingles supera las 350 mil palabras). Eso lo
hace poco práctico, por lo que para estos casos se procede mejor con una
estrategia de vectorización semántica con lo cual se reconoce patrones de
palabras relacionadas o conectadas como si fueran cúmulos de palabras donde el
vector puede trazar el cúmulo directamente y así lograr que la computadora
entienda semánticamente para el procesamiento de máquina. En ese contexto el
“keyword” sería espacialmente el centroide del cúmulo de palabras.
En el caso de las
imágenes dibujadas o en fotografía, se ha recurrido a la representación por
medio de unidades mínimas de imagen digital denominadas comúnmente “pixel” por
medio de vectores tipo RGB o HSV. En el caso de los vectores RGB (Red-Green-Blue)
cada imagen es referida a un conjunto de vectores por cada pixel con su
respectiva combinación numérica de intensidades RGB según los colores que
proyecta ya que con la combinación de estos tres colores (rojo, verde y azul) salen
todos los colores posibles que conocemos. Con esto se conforma una matriz y su
tridimensionalidad da un cubo que representa directa y en forma única el
conjunto vectorial o matricial que corresponde específicamente a la imagen que
quiere procesarse para el entendimiento computacional de una máquina. De igual forma
sucede en el caso de vectores tipo HSV (Hue-Saturation-Value/brightness) donde
cada vector identificado señala la saturación, matiz y brillo de cada pixel como
característica centrales que permiten identificarlo en lenguaje de la máquina.
En el caso del vídeo el
tratamiento es similar puesto que un vídeo es esencialmente una superposición
de imágenes en una secuencia de tiempo que puede ser vectorizada imagen a
imagen conformando un hipercubo de matrices único para cada vídeo que puede ser
perfectamente leído y entendido por la máquina para efectos de análisis.
El propósito de la
vectorización de datos para IA es la transformación de la realidad objetiva en
conjuntos de arreglos numéricos que permitan la entrada lógica para el
procesamiento de datos que puedan generar información relevante para la toma de
decisiones por parte de la máquina.
Una vez completada la
captación de datos de la realidad por medio de la vectorización de entradas, se
inicia la configuración de un patrón para el proceso de reconocimiento diferenciado
de los patrones obtenidos entre grandes volúmenes de datos (BigData) con lo que
puede detectarse personas y objetos en determinados lugares y espacios
temporales, reconocer preferencias, identificar tendencias comerciales y
patrones de consumo, prospectar experiencias y hacer análisis predictivo puro o
combinado sobre casi cualquier aspecto de la realidad. ¡Una poderosa
herramienta al alcance de nuestras manos!!
No hay comentarios:
Publicar un comentario