Ética y sesgos en los procesos de data
analytics
FORBES- 11 de diciembre de 2018
Entender los sesgos a través de
los datos de cómo se tomaban las decisiones en el pasado, es fundamental para
desarrollar productos basados en datos éticamente correctos.
Uno de los temas que más me
interesa actualmente en los procesos de desarrollo de modelos de machine
learning, son los relacionados con el fairness o sesgos de la muestra. Es
decir, mi objetivo como profesional que trabaja analizando, diseñando y
desarrollando productos basados en datos, es entender como reducimos los sesgos
que están implícitos en los procesos de toma de decisiones actuales.
Está claro que los sesgos no son
por el uso de algoritmos de machine learning, sino que éstos existen implícitos
en la toma de decisiones de las personas. Y se siguen sosteniendo en el tiempo
por no entender cómo se usan los datos para tomar decisiones. En nuestros
análisis y a través de varios años de experiencia, hemos encontrado que equipos
multidisciplinarios ayudan mucho a reducir sesgo. Es decir, es importante
trabajar con ingenieros, matemáticos, estadísticos, pero también sociólogos,
antropólogos y varios otros profesionales de las ciencias sociales que nos
ayuden a reducir al máximo los sesgos en el desarrollo de productos basados en
datos.
A continuación, presento un
pequeño esquema de cómo deberíamos actuar para poder reducir los sesgos en
nuestros modelos de análisis de datos, y cómo a través de ello, poder diseñar y
desarrollar productos sustentables.
En la fase de pre-procesamiento
de la información, la estrategia utilizada consiste en controlar la distorsión
del conjunto de datos. En la práctica, supone eliminar datos sensibles de
potenciar la discriminación como el código postal, el género o la raza para que
no se puedan extraer modelos de decisión que discriminen.
Una vez tenemos los datos, hay
que hacer una aproximación ética que integre la antidiscriminación por diseño.
Esto supone modificar los algoritmos de data mining para que no contengan
decisiones injustas. Para ello debemos procesar un conjunto de datos a través
del algoritmo y entender cuáles son las respuestas que arroja el modelo, y
contrastarla con cuales debería arrojar considerando la reducción al máximo de
los sesgos.
En la tercera fase, tareas de
postprocesamiento de los modelos de extracción de datos obtenidos en vez de
limpiar el conjunto de datos original o cambiar los algoritmos de minería de
datos.
Las empresas hoy están
conscientes que los datos son fuente de ventaja competitiva, y saben que los
ciudadanos cada vez más están atentos a cómo se comportan los agentes en sus
procesos de toma de decisiones informadas. Si un algoritmo arroja un sesgo, el
cual ha aprendido de los datos de cómo se tomaban las decisiones
históricamente, muy probablemente las personas no lo compartan esos valor, y la
empresa destruyera valor.
No hay comentarios:
Publicar un comentario