Quisiera hacer un resumen de pensamientos en torno a Data Ethics, en sintonía con el ultimo meetup que tuvimos en Buenos Aires, dentro del ciclo de meetups de Alphazetta.

Lo primero, como las nociones de ética y ley son distintas y la tecnología cambia rápido, nadie va a poder imponer ideas eficaces en el corto plazo. Me gustaría pensar que es un proceso “grassroots” de abajo para arriba, pero nada hay seguro en eso. Incluyo en esta categoría de intentos la excelente conferencia «The festival of AI and emerging technologies» (ver #CogX19 en Twitter, genial) y  las charlas algo apocalípticas de Cathy O’Neil y sus armas de destrucción matemática. Hay mucho debate y pocas certezas.

pic 1

Segundo, todos los «frameworks» parecen converger en cinco o seis lineamientos macro. Notemos que las tres primeras cuestiones son recientes y se originan en las zonas gris de los algoritmos. Pongo como ejemplo al bias y al efecto de «black box». La exigencia “be accountable” significa «hacerse cargo» e incumbe a todos; algunas empresas como IBM diferencian explicabilidad (describir qué hace el algoritmo) de interpretabilidad (qué ocurre minuciosamente en cada capa de una red neuronal).

En cambio, los últimos tres items de esta convergencia provienen del núcleo duro de la Seguridad Informatica de los 70s, que resulta un «padre castrador» para la Ética de Datos. En aquella vieja Seguridad debía existir un equilibrio entre la disponibilidad, la seguridad y la integridad del Dato. Notemos que este equilibrio, moneda corriente de cualquier Data Governance, aún no se cumple en muchos casos. El trecho que queda para llegar a cumplir Ética, entonces, es grande. A la derecha vemos un esbozo de un Juramento Hipocrático para un científico de Datos.

pic 2

Tercer cuestión, apuntada por Daniel Yankelevich (Practia) en su gran charla, todas las cuestiones de precio diferencial y “bias” encierran una gran contradicción. Si un sector de la población, por un buen motivo o por un exceso de corrección política, impulsa que tal o cual variable sea excluida del algoritmo, llega un momento en que no se puede aventurar hipótesis. Esto no es nuevo y ya ocurría en las variaciones de precio de Amazon en los 00s, pese a las desmentidas de Jeff Bezos. Si un CD tenía un precio mayor al ser enviado a tal barrio, esto podía ser incorrecto, experimental, o simplemente que ese barrio fuese más peligroso, y por lo tanto tener incidencia en el precio. Vuelta de rosca: todo algoritmo debe ser interpretable, si le vamos quitando «features» somos políticamente correctos pero nos vamos quedando sin entender nada.

En cuarto lugar, la movida ecológica sustentada por tantos “laburadores de datos” puede tener malas noticias si un modelo complicado exige un procesamiento pavoroso y absolutamente antiecológico. En otro ámbito, ejecutivos del primer mundo renuncian a los aviones y emprenden largos viajes en tren por motivos de principios ecológicos. Qué ocurre si esos mismos ejecutivos estuvieran a cargo del desarrollo de un algoritmo que contamina más que el mining de Bitcoin? Eso los pondría en una situación difícil. Una buena respuesta sería «nuestro algoritmo ayuda a resolver un tema crucial para la humanidad, vale la pena quemar un bosque pequeño». O sea, riesgo y recompensa. En el límite imaginemos la contradicción de un algoritmo cuyo objetivo sea buscar el mínimo de utilización de recursos naturales y que al hacerlo haga estallar al planeta. Como vemos, la cosa se pone difícil.

post data ethics fig3

Pero no esperemos a los grandes planteos globales. Dejo para el final dos cuestiones, algo muy sencillo y táctico usado por Fernando Poch en su startup “Estacionamiento Inteligente”. No tiene sentido pedir los datos de la persona cuando no hay un valor inmediato a ofrecer, y cuando el algoritmo puede identificar los “journeys” anónimos. La otra cuestión pequeña es el riesgo de ser muy sincero con el cliente. Usé como ejemplo lo que hace Volt Bank en Australia: siempre pide consentimiento y explica al cliente el beneficio de entregar sus datos (ejemplo de localización) y el riesgo de cada decisión financiera (ej un préstamo). Al hacerlo, el banco pone en riesgo algo de su rentabilidad para lograr mayor transparencia y una relación más larga y duradera.

Los tips que enumera Volt son terrenales: explicar de manera fraccionada los términos de uso, a cada momento blanquear para qué se piden ciertos datos, ofrecer recompensas a cambio, etc. Logran un win-win total que me recuerdan dos lecturas. En términos de Cordwainer Smith, el dragón (la transparencia, el largo plazo) le gana a la rata (la necesaria rentabilidad). Y como bien dice Nabokov, la flecha que vuela para siempre es aquella que da en el blanco. Meterse en cuestiones de Data Ethics distingue los proyectos de datos de corto plazo de aquellos que buscan el «extra mile», son proyectos que apuntan más lejos y merecen ser recordados.

pic 4

La enseñanza que me dejó el meetup es alentar a quienes trabajamos en datos a que volemos un poco más en estos temas, nosotros mismos. Hay que adelantarse, hacernos las preguntas, intentar respuestas. Ninguna empresa, NGO o institución logrará hacer converger estas cuestiones de Ética de Datos más que nosotros mismos. Y quién sabe, tal vez en breve tendremos la posibilidad de un Juramento Hipocrático para Científicos de Datos entre nosotros.