Analítica y Big Data: un par indisoluble
Forbes -
martes, 24 de febrero de 2015
Coleccionar datos por el simple placer de
hacerlo carece de un sentido práctico. De ahí que Big Data y Analítica son un
par indisoluble para generar valor en tu organización.
Cuando se aviene una nueva tecnología o un
nuevo paradigma de estrategia que promete revolucionar el mundo, es común que
se generen cuando menos dos corrientes de opinión: unos que en efecto
consideran que se trata de una innovación indiscutible y otros que piensan que
se trata de algo que ya existía tan sólo con un nombre nuevo. Podríamos decir
con justicia que cada novedad que aparece en el panorama tiene un componente de
innovación y otro de aprovechamiento de ideas o tecnologías ya existentes. En
la frase “Si he logrado ver más lejos, ha sido porque he subido a hombros de
gigantes”, Isaac Newton reconocía la contribución de otros científicos que le
permitieron llegar a sus propios hallazgos. Big Data y Analítica ejemplifican
muy bien la situación descrita.
Para comenzar a hablar del tema, buscaremos dar
respuesta a la pregunta ¿por qué el Big Data es clave en las organizaciones?
Coleccionar datos por el simple placer de hacerlo carece de un sentido
práctico. La adquisición y posterior almacenamiento de datos obedece a la
necesidad de tenerlos como una evidencia de lo que pasa a nuestro alrededor y
emplearlos para explicar los fenómenos que nos rodean, buscando así
reproducirlos o evitarlos, según sea su impacto para nuestras metas (aumentar
la ventas, disminuir las pérdidas, por ejemplo). La explicación de estos
fenómenos se logra analizándolos, ya sea interpretando gráficas o bien
alimentando fórmulas y modelos que describan su comportamiento. Dicho de otra
forma, haciendo análisis visual o análisis numérico, también conocido como
analítica. Es importante hacer notar que el análisis visual debe ser sustentado
por una forma de analítica, pues la más sencilla gráfica de barras, de pie o de
Pareto, es resultado de transformaciones matemáticas básicas como conteos o
clasificaciones. Podemos afirmar entonces que la forma en la que se obtiene
valor de los datos resulta de aplicar alguna forma de analítica, y en
contrapartida la analítica requiere de los datos como un vehículo precisa de
algún tipo de combustible que lo impulse.
Podemos afirmar, en forma intuitiva, que entre
más datos estén disponibles para hacer analítica, mejores o más precisos
resultados pueden ser generados, motivo por el cual podríamos decir que la
analítica y los grandes volúmenes de datos están asociados desde hace mucho
tiempo, entonces es justo preguntar: ¿porque hasta tiempos muy recientes es que
se ha agregado la etiqueta Big para generar este nuevo concepto?, o expresado
de otra forma, ¿desde cuándo el Big Data es “Big”? Una parte importante de la
respuesta a esta pregunta reside en la capacidad creciente de capturar y
registrar mediciones de fenómenos naturales (analógicos) en forma digital.
Durante mucho tiempo el proceso de captura y registro de información tenía una
elevada intervención humana: se hacía una lectura directa de un dispositivo de
medición, se registraba en un medio temporal y posteriormente se ingresaba en
una computadora. Este proceso estaba limitado por las capacidades humanas
involucradas en el proceso: el número de ocasiones que se podían visitar los
medidores, la precisión de las lecturas (se dependía de la agudeza visual para
determinar lo que marcaban agujas o manecillas) y la velocidad de escritura con
un teclado. Hoy en día existe un sinnúmero de eventos y fenómenos que se
capturan, digitalizan, se transmiten y se registran directamente en las
computadoras: sonido (música), imágenes (fotografías), desplazamientos de
vehículos, temperaturas, consumo de energía eléctrica, signos vitales, etc.
Este tipo de información tiene características que debemos considerar para su
tratamiento efectivo: su contenido no obedece a una estructura predeterminada;
cada lectura representa una cantidad considerable de espacio para almacenarse y
se generan en grandes cantidades, pues su producción está al alcance de muchos
individuos y dispositivos automatizados. Estas características dejan claro el
porqué Big es Big, pero entonces ¿por qué no resolvemos el problema tan sólo
aumentando la capacidad de almacenamiento? Porque si únicamente se incrementa
el espacio disponible, se puede perder de vista el propósito de obtener el
valor que representa su análisis y se entraría en un paradigma de coleccionar
datos sin un propósito práctico, con los efectos adicionales de elevar los
costos y mantener almacenados grandes de datos que no se sabe si se podrán
aprovechar en el futuro.
El paradigma actual de Big Data y Analítica
también aborda la forma en la que se puede resolver la paradoja de utilizar las
avalanchas de datos generados en la actualidad, para seguir generando valor en
forma práctica. El volumen y velocidad con la que se generan los datos demanda
un tratamiento análogo al del manejo de grandes cantidades de un líquido: se
hace pasar un flujo a través de un filtro o dispositivo que permite obtener un
beneficio inicial y posteriormente se almacena para otros usos. En el caso del
agua en una planta hidroeléctrica, el paso del agua en una turbina genera
energía eléctrica y posteriormente se destina al riego o al consumo humano. En
el caso de un flujo de datos, que además tienen la característica de que no
siempre son estructurados, se pueden filtrar y valorar utilizando analítica en
forma de diversas técnicas matemáticas y estadísticas para identificar
patrones, como el reconocimiento facial o hacer inferencias automatizadas de la
“intención” de un texto en leguaje natural (conocido como análisis de
sentimientos), para luego permitir que el grueso de los datos se coloque en un
almacenamiento secundario y se mantenga disponible la valoración de los datos
para su uso inmediato. Pero esto no es todo: en el Big Data se incluyen
técnicas que permiten aumentar la capacidad de procesamiento, distribuyendo el
flujo de información en múltiples procesadores para poder satisfacer la
demanda, como en una hidroeléctrica el flujo de agua se distribuye a más de una
turbina, con la característica adicional de que la valoración (o calificación)
de estos datos permite destinarlos a unidades especializadas de proceso o
almacenamiento según sus características, por ejemplo separar las imágenes en
fotos de personas, paisajes, etc. El esquema tecnológico que permite hacer esta
distribución entre múltiples procesadores se conoce como Map-Reduce y la versión
comercial más exitosa de este esquema se llama Hadoop. A todo el modelo de
manejar los datos como flujos de fluido se le describe abreviadamente como
Stream it, Score it, Store it (dejar que los datos fluyan, se califiquen y se
almacenen).
Podemos concluir que Big Data y Analítica son
un par indisoluble de un tratamiento innovador para manejar, analizar,
calificar y almacenar grandes cantidades de información de todo tipo en forma
efectiva y permitiendo la generación de valor del creciente volumen de
información relevante para las organizaciones.
No hay comentarios:
Publicar un comentario