https://www.facebook.com/wilber.carrion.1 - Twitter: @wilbercarrion  
  Su apoyo es bienvenido, cuenta: BBVA Continental- 0011 0175 0200256843  

lunes, 19 de octubre de 2015

big data

  Descifrando Enigma ayer, analítica y big data hoy


  FORBES- Lunes, 19 de Octubre de 2015 
Dos años les tomó a los aliados descifrar Enigma en medio de una lucha a vida o muerte. Hoy, en cambio, en el mercado existe un gran número de herramientas que podemos adquirir para implementar nuestros proyectos de analítica y big data.

  

En la película Descifrando Enigma, los pioneros de la computación Alan Turing (Benedict Cumberbatch) y Hugh Alexander (Matthew Goode) muestran la importancia del procesamiento oportuno de los datos y la existencia de big data antes que ese término se acuñara.

La cinta narra el objetivo ultrasecreto para romper el cifrado de la máquina Enigma de la Alemania nazi. La trama se desarrolla en el cuartel general de comunicaciones del gobierno británico, situado en la mansión de Bletchley Park.

Durante la Segunda Guerra Mundial, las comunicaciones alemanas eran encriptadas utilizando Enigma. Los aliados podían interceptar las comunicaciones que los alemanes transmitían en código morse. El problema era descifrarlas oportunamente. Los aliados se habían adueñado secretamente de una máquina Enigma, pero para descifrar los mensajes era necesario conocer la configuración de la máquina. Los alemanes cambiaban la configuración todos los días a la medianoche. Por lo general, el primer mensaje se interceptaba a las 6 a.m., lo que daba 18 horas para descifrar el código antes que cambiara y empezar de cero.

El número de posibles configuraciones de Enigma era de ciento cincuenta y nueve mil billones (159,000,000,000,000,000,000). Suponiendo que 10 personas pudieran verificar 10 configuraciones cada minuto las 24 horas y 7 días a la semana, el tiempo requerido para comprobar cada una de las configuraciones sería de 20 millones de años. Esto es, para descifrar los mensajes y detener un ataque alemán, los aliados tenían que realizar 20 millones de años de trabajo en minutos.



En la cotidianidad

Con la tecnología que poseemos, los analistas aún dedican entre 70 y 80% de su tiempo a la recopilación, exploración y adecuación de los datos. Equivalente a lo que las señoritas de la Marina Real Británica hacen en la película. En otras palabras, obtener los datos de diferentes fuentes (interceptar las comunicaciones en diferentes localidades) en su forma original (código morse), entender su estructura (puntos y rayas), transformarlos (de morse a texto encriptado), moverlos y cargarlos a un destino diferente (enviar el resultado a los criptoanalistas).

El proceso descrito en el párrafo anterior se conoce como extracción, transformación y carga (ETL). El ETL puede generar Analytical Base Tables (ABT). Una ABT es una tabla plana, como una hoja electrónica de cálculo, que se utiliza para la construcción de modelos analíticos y de “scoring” (una ecuación derivada estadísticamente que produce un número o calificación).

El reto se presenta cuando en las fuentes tenemos un gran volumen de datos, una frecuencia de actualización alta, o bien, datos en múltiples formatos. Los procesos ETL suelen ser complejos y costosos. Su desarrollo toma tiempo y pueden presentar graves problemas de desempeño.

Dos variantes del proceso ETL son:

Extracción, carga y transformación (ELT).
Extracción, transformación, carga y transformación (ETLT).
Ambas han encontrado un aliado natural en Hadoop. Es por eso que muchas empresas en diferentes industrias están reemplazando los procesos ETL por una combinación de Hadoop (bodega de datos analítica), bases de datos tradicionales (bodega de datos para Inteligencia de Negocios) y procesos ELT o ETLT.

Siguiendo con la analogía de la película, el proceso ETLT se vería de la siguiente manera:

La extracción (E) equivale a las señoritas de la Marina Real interceptando las comunicaciones alemanas en su forma analógica. La primera transformación (T) es convertir de señal analógica a digital. El resultado de la transformación se carga (L) en Hadoop. Una vez almacenadas las comunicaciones se pueden realizar transformaciones (T) adicionales; por ejemplo: mejorar la calidad de los datos, convertirlas en texto, aplicar el algoritmo para decodificar los mensajes, analizar frecuencias, complementar los datos con localidad, duración, hora y fecha. Y, si se desea, traducir el texto decodificado del alemán al inglés.

En la vida real, 20 o 30% del tiempo restante de los analistas se dedica a la creación y ejecución de modelos analíticos. En la película, una vez que se mecanizó el proceso para descifrar las comunicaciones. Alan Turing desarrolla un modelo estadístico para ayudar a determinar, con base en los mensajes descifrados y analizados (“scoring”), la cantidad de inteligencia que se puede utilizar, es decir, qué ataques se pueden detener y cuáles dejar pasar. En otras palabras, utilizar modelos matemáticos y análisis estadístico para definir el número mínimo de acciones necesarias para ganar la guerra, pero el máximo que se puede tomar antes que los alemanes sospechen que los aliados pueden descifrar los mensajes encriptados por Enigma.

Dos años les tomó a los aliados completar ese proyecto. Claro que ellos tuvieron que empezar de cero. Crear máquinas, dispositivos, algoritmos y modelos analíticos para vencer a su enemigo y ganar la guerra. Una lucha a vida o muerte. Por fortuna para nosotros, hoy en el mercado existe un gran número de herramientas que podemos adquirir para implementar nuestros proyectos de analítica y big data.



Alex Infanzon es Arquitecto de la Práctica de High Performance Analytics en SAS.
 

SAS es la compañía privada de software más grande del mundo. Con un crecimiento constante en sus ingresos y rentabilidad durante casi cuatro décadas, SAS es el líder en Business Analytics.

No hay comentarios: