Descifrando
Enigma ayer, analítica y big data hoy
FORBES-
Lunes, 19 de Octubre de 2015
Dos años les tomó a los aliados
descifrar Enigma en medio de una lucha a vida o muerte. Hoy, en cambio, en el
mercado existe un gran número de herramientas que podemos adquirir para
implementar nuestros proyectos de analítica y big data.
En la película Descifrando
Enigma, los pioneros de la computación Alan Turing (Benedict Cumberbatch) y
Hugh Alexander (Matthew Goode) muestran la importancia del procesamiento
oportuno de los datos y la existencia de big data antes que ese término se
acuñara.
La cinta narra el objetivo
ultrasecreto para romper el cifrado de la máquina Enigma de la Alemania nazi.
La trama se desarrolla en el cuartel general de comunicaciones del gobierno
británico, situado en la mansión de Bletchley Park.
Durante la Segunda Guerra
Mundial, las comunicaciones alemanas eran encriptadas utilizando Enigma. Los
aliados podían interceptar las comunicaciones que los alemanes transmitían en
código morse. El problema era descifrarlas oportunamente. Los aliados se habían
adueñado secretamente de una máquina Enigma, pero para descifrar los mensajes
era necesario conocer la configuración de la máquina. Los alemanes cambiaban la
configuración todos los días a la medianoche. Por lo general, el primer mensaje
se interceptaba a las 6 a.m., lo que daba 18 horas para descifrar el código
antes que cambiara y empezar de cero.
El número de posibles
configuraciones de Enigma era de ciento cincuenta y nueve mil billones
(159,000,000,000,000,000,000). Suponiendo que 10 personas pudieran verificar 10
configuraciones cada minuto las 24 horas y 7 días a la semana, el tiempo
requerido para comprobar cada una de las configuraciones sería de 20 millones
de años. Esto es, para descifrar los mensajes y detener un ataque alemán, los
aliados tenían que realizar 20 millones de años de trabajo en minutos.
En la cotidianidad
Con la tecnología que poseemos,
los analistas aún dedican entre 70 y 80% de su tiempo a la recopilación,
exploración y adecuación de los datos. Equivalente a lo que las señoritas de la
Marina Real Británica hacen en la película. En otras palabras, obtener los
datos de diferentes fuentes (interceptar las comunicaciones en diferentes
localidades) en su forma original (código morse), entender su estructura
(puntos y rayas), transformarlos (de morse a texto encriptado), moverlos y
cargarlos a un destino diferente (enviar el resultado a los criptoanalistas).
El proceso descrito en el párrafo
anterior se conoce como extracción, transformación y carga (ETL). El ETL puede
generar Analytical Base Tables (ABT). Una ABT es una tabla plana, como una hoja
electrónica de cálculo, que se utiliza para la construcción de modelos
analíticos y de “scoring” (una ecuación derivada estadísticamente que produce
un número o calificación).
El reto se presenta cuando en las
fuentes tenemos un gran volumen de datos, una frecuencia de actualización alta,
o bien, datos en múltiples formatos. Los procesos ETL suelen ser complejos y
costosos. Su desarrollo toma tiempo y pueden presentar graves problemas de
desempeño.
Dos variantes del proceso ETL
son:
Extracción, carga y
transformación (ELT).
Extracción, transformación, carga
y transformación (ETLT).
Ambas han encontrado un aliado
natural en Hadoop. Es por eso que muchas empresas en diferentes industrias
están reemplazando los procesos ETL por una combinación de Hadoop (bodega de
datos analítica), bases de datos tradicionales (bodega de datos para
Inteligencia de Negocios) y procesos ELT o ETLT.
Siguiendo con la analogía de la
película, el proceso ETLT se vería de la siguiente manera:
La extracción (E) equivale a las
señoritas de la Marina Real interceptando las comunicaciones alemanas en su
forma analógica. La primera transformación (T) es convertir de señal analógica
a digital. El resultado de la transformación se carga (L) en Hadoop. Una vez
almacenadas las comunicaciones se pueden realizar transformaciones (T)
adicionales; por ejemplo: mejorar la calidad de los datos, convertirlas en
texto, aplicar el algoritmo para decodificar los mensajes, analizar
frecuencias, complementar los datos con localidad, duración, hora y fecha. Y,
si se desea, traducir el texto decodificado del alemán al inglés.
En la vida real, 20 o 30% del
tiempo restante de los analistas se dedica a la creación y ejecución de modelos
analíticos. En la película, una vez que se mecanizó el proceso para descifrar
las comunicaciones. Alan Turing desarrolla un modelo estadístico para ayudar a
determinar, con base en los mensajes descifrados y analizados (“scoring”), la
cantidad de inteligencia que se puede utilizar, es decir, qué ataques se pueden
detener y cuáles dejar pasar. En otras palabras, utilizar modelos matemáticos y
análisis estadístico para definir el número mínimo de acciones necesarias para
ganar la guerra, pero el máximo que se puede tomar antes que los alemanes
sospechen que los aliados pueden descifrar los mensajes encriptados por Enigma.
Dos años les tomó a los aliados
completar ese proyecto. Claro que ellos tuvieron que empezar de cero. Crear
máquinas, dispositivos, algoritmos y modelos analíticos para vencer a su
enemigo y ganar la guerra. Una lucha a vida o muerte. Por fortuna para
nosotros, hoy en el mercado existe un gran número de herramientas que podemos
adquirir para implementar nuestros proyectos de analítica y big data.
Alex Infanzon es Arquitecto de la
Práctica de High Performance Analytics en SAS.
SAS es la compañía privada de
software más grande del mundo. Con un crecimiento constante en sus ingresos y rentabilidad
durante casi cuatro décadas, SAS es el líder en Business Analytics.
No hay comentarios:
Publicar un comentario