analytics vs data governance

Hace unos cuantos meses acepté el ofrecimiento de diseñar y dictar cursos sobre Data Science y Analytics para una gran consultora global. La audiencia no estaba definida -desde técnicos informáticos hasta gerentes de negocios, pasando por data scientists-. Esta amplitud me provocó dudas sobre el contenido. Tenía mucha información recopilada en varias vidas pasadas como Físico, profesional de Telcos, Consultor y Presales para varias empresas del exterior, Director de Ventas, y “generador de trainings” en los últimos tiempos. Tras alguna reflexión y consultas me decidí por no codear en “R”, contar algo de historia (Bayes, Hollerith, Galileo, Turing, Vonnegut, etc), explicar los algoritmos y modelos más usados, abrir el juego y estimular la capacidad de dar respuestas basadas en data con los Problemas de Fermi. Sobre todo incluí muchos casos de uso de unas diez industrias: contar qué es lo que funciona y qué no. La vuelta de tuerca es que diseñar estos cursos me hizo pensar acerca de lo que realmente funciona en la transformación digital de las empresas.

Tomé la decisión de incluir en el curso de Analytics los seis pilares del Data Governance (DG). Explicación de un renglón: con DG la empresa se hace cargo de poner en caja los datos. Establezco el contrapunto: Data Science y Analytics gozan del glamour de una carrera de 100 metros, mientras que el DG es como una marathon entrenada durante meses, dura y sacrificada. Todos conocen a Usain Bolt, la prensa lo adora, pero nadie a Kipchoge o a Kipsang, destinados a romper el record de las dos horas en los 42K. Volvamos al ejemplo, Data Science y Analytics usan el dato, buscan el insight, construyen el modelo. Por supuesto hay diferencias: Data Science modela, codea, mira el futuro y vive en la incerteza, mientras que Analytics es el músculo, la ingeniería, la construcción de la forma de trabajar. Qué tienen en común? Ambos dan por descontado que el dato está bien… pero nadie parece detenerse este hecho.

DG, en cambio, asegura la corrección del dato: asigna custodios de la información, elimina fuentes duplicadas, integra sistemas para lograr una visión única del cliente, hace de la Metadata una herramienta útil, acuerda arquitecturas con IT. Aún suponiendo que el estado último de las cosas en el futuro sea “dejar que Machine Learning resuelva todo en la Nube”, esto no elimina la necesidad de chequear los datos y de fomentar una cultura en torno a esto. No tiene sentido gastar fortunas solo en Data Science o Analytics, si antes no se ha comprobado que los datos de la empresa son los adecuados. Una de las funciones del “vendor” debería ser aconsejar al cliente embarcado en la transformación digital: “ordene sus datos”.

Por qué las empresas no velan por que los datos vitales (de sus activos o de sus clientes) sean correctos? En el corto plazo, puede decirse que las empresas -como las personas- se mienten a sí mismas. Pero en el largo plazo parece incomprensible mantener el desorden de datos duplicados o desactualizados, inexistencia de custodios o responsables de info, metada ausente o master data sin definir. Todo esto genera una disminución de la rentabilidad de cada proyecto centrado en los datos.

Qué necesita un Gobierno de Datos de la empresa? Cambiar las prioridades. Ejemplo, la visualización no es lo más importante. Hay que asegurar el programa de DG con alto patrocinio de la dirección, acordar recursos con todas las áreas, relevar sector por sector y descubrir los problemas. Hay que evitar las fuentes de datos duplicadas. Se debe promover una cultura de respeto a los datos. Todo esto implica asumir errores anteriores, por supuesto. Pero en cambio, las ventajas adicionales de tomar este camino de la corrección del dato son muchas:

  • Confiabilidad de los datos para todo lo que se haga en el futuro en Data Science o Analytics. Se evita el gasto extra de recursos de doble chequear la info y el desgaste ante cada pregunta.
  • Menores tiempos y costos de nuevos proyectos, sobre todo al involucrar en procesos de Agile a terceras partes. La data ya se sabe cuál es y dónde está en la primera semana, se conocen sus fluctuaciones y su responsable.
  • Cultural: los empleados en la organización aprenderán a respetar el valor de los datos y advertirán las anomalías. Dudarán mucho antes de sumarse alegremente a la onírica ilusión del dato perfecto.
  • La información no es oro ni petróleo. Es mucho más que eso. No se gasta cuando se usa, si está correcta se la puede reciclar mil veces. Razón de más para tenerla perfecta!

Mientras tanto, veremos muchas empresas supuestamente “data driven” que caen en esta fantástica ilusión de ser modernas solo por utilizar técnicas de ML o AI mientras dejan que se acumule el error en los datos, como polvo que va cayendo sobre el hardware. Contra estos ejemplos siempre se puede señalar el éxito de unas pocas empresas verdaderamente “data céntricas” que hacen foco en el trabajo duro de velar por los datos, igual que un atleta que entrena duro y en soledad para su marathon.