La falacia de las tecnologías sencillas

alphazetta wein picture

Hace unos diez días asistí en Viena a una reunión con el board de Alphazetta. El corolario de la reunión fue el Global Analytics Summer Camp, con una decena de oradores muy importantes. Fue un evento-boutique con solo unos 60 asistentes,  puro contenido y reflexiones, absolutamente desprovisto de humo marketinero o intenciones comerciales demasiado directas. Hago un resumen de las mejores 4 ó 5 charlas.

Stephen Brobst (CTO de Teradata y advisor de Alphazetta): en su habitual línea de standup-no-corporativo (camisas naranjas, tono Seinfeld y mucho humor) Stephen cargó contra los errores habituales en estadística: campañas de marketing falsamente exitosas (mailing a seguros compradores), malas decisiones antes del Katrina (incerteza en precipitaciones) y falsas correlaciones (Premios Nobel y consumo de chocolate). En cada ejemplo Stephen explicaba por qué hubiera despedido al CMO o al CTO (You´re fired!”, un poco a lo Trump) atado a su método de contratar gente: preguntar por tools que usa, no por lenguajes de programación, o tirarle un problema de estimación y juzgar cómo lo resuelve el candidato… muy parecido al ingreso al Balseiro donde me preguntaron cuántos afinadores de piano había en Bariloche. El bonus track fue explicar (y hacer énfasis) en Bayes, algo que parece ser el leit-motiv de Statistical Rethinking Argentina. Bottom line, el peor error es estar demasiado seguro de las propias convicciones, y esto excede el Analytics. Stephen finalizó con todos los errores cometidos en visualizaciones, donde cargó contra los coloridos gráficos de torta  (hay algo peor, los gráficos de torta en 3D). La charla atravesó el clásico de preguntarnos si a) es posible tener toda la info y b) no hay alguna asimetría? Para eso citó el caso de Boston y los baches, donde parecía haber más baches en los barrios ricos… simplemente porque sus habitantes tenían más smartphones o tiempo para reportarlos. Este caso está bien descripto en en este artículo de Kate Crawford en HBR. Finalmente estableció el contrapunto Data Scientist vs IT, que deben convivir “como padres e hijos”, pues no se puede innovar todo el tiempo, como tampoco es posible congelar los sistemas para siempre.

wien brobst number 2

Mark Lynass (Senior Scientists de GE Aviation) contó las historias digitales de GE, en particular en la construcción de “digital twins” o modelos que permiten reproducir con mucha exactitud lo que ocurre en un generador eólico o en la turbina de un avión. Esta transformación digital comenzó hace diez años y está centrada en cuatro pilares: gente (el más importante, dado que el talento estaba muy tabicado), los procesos (Agile), las nuevas tecnologías (Cloud sobre todo) y centrarse en la necesidad del Cliente. Mark citó como ejemplo que un avión tiene unos 6 mil sensores, que en un día significan 1 Tera de datos, lo cual en un año es 6 exas. No se estaba usando esa información, ni se estaba correlacionando con fotos de las aeronaves que o bien eran asignadas a nuevas rutas en ambientes más corrosivos, o bien extendían en una hora su vuelo habitual. Sucedieron cosas inesperadas, se lograron conectar algunos puntos dispersos y evitar accidentes o parar un avión por falta de mantenimiento. En cuanto a los generadores eólicos lo interesante fue conectar esto con poblaciones de murciélagos que a) pudieran verse afectadas o b) por cambios de presión se vieran atraídos hacia los molinos (ver paper, muy bueno!).  Mark aclaró que en algunos casos la Física toma un rol fundamental como en el caso de los Digital Twins, pero en otros es puro MachineLearning, como por ejemplo en la inspección de fotos de aeronaves. Ahi la secuencia es el drone que toma la foto en partes preestablecidas del avión antes y después del vuelo, se arma el ML y se detectan patrones de corrosión para ciertos vuelos, e inmediatamente (aquí esta la parte “preemptive” se detona la alarma al personal humano o a pequeños robots en tierra que corrigen el daño. En un gráfico pueden verse los “outliers”, puntos que corresponden a vuelos que se acercan a niveles de corrosión donde puede aparecer falla. Finalmente,  GE usa Predix como plataforma para todos estos avances.

wien lynass

Michael Beck-Hansen (VP Digital Marketing & Analytics, DTAG Thailand) refirió la historia exitosa del reemplazo de un equipo de IBM por Knowesis https://www.knowesis.com/ y planteó de qué manera puede una Telco tratar bien a sus clientes aún con las nuevas reglamentaciones (GDPR) ya que la diferenciación y acercar la oferta justa exige hacer uso de los datos personales. Desde el vamos una Telco conoce el grupo familiar, sabe por sus llamadas que son un grupo, conoce por el sitio donde “duermen” los celulares de noche que comparten una casa, y conectando esto con redes sociales es posible hacer más afinada la oferta (apalancando en, por ejemplo, un club de fútbol). Aquí cobra capital importancia el rol de Producto en la Telco, una especie de organizador y utilizador de la info para armar ofertas que tengan sentido. No obstante en regiones como APAC la gente tiene dos o tres chips y hay que ofrecer algo a cambio para alentar al uso de un chip específico. Finalmente Michael cargó contra algunas consultoras o agencias grandes, que dice no necesitar, por una cuestión de tiempos muy largos para analizar un mercado (los apuntados fueron McKinsey y BCG) o de datos que las Telcos ya tienen y no necesitan pagar para obtener (en el caso de AC Nielsen). “Las Telcos tienen que animarse a realizar in-house la mayoría de los cambios, si quieren sobrevivir”.

Michael Platzer (CEO Mostly.AI):  contó su historia personal post Microsoft post Nokia, plena de falencias (risas) y cierto escepticismo con el nuevo hype de la privacidad, que vuelve cada 2 ó 3 años. Contexto: Hay una solución de compromiso entre hacer la información anónima y su utilidad real. Si es una imagen se la puede enmascarar… pero se la termina reconociendo. Si son transacciones, lo mismo, es más sencillo aún. Hay papers que señalan que con solo dos puntos espacio-temporales se puede identificar el 55% de una población de 1,5m de personas. Con saber dónde viven y dónde trabajan, se conoce casi todo. Todos vamos dejando huellas digitales. En NYC con las cámaras de la ciudad se supo en 2014 qué gente frecuentaba los night-clubs, con lo cual toda privacidad estaba perdida. Entonces, qué alternativas hay? Michael sugiere usar “Data Sintética” donde a partir de cierta información inicial dos redes neuronales en competencia van generando nueva información sin supervisión. De nuevo, esto puede ser o bien un rostro de una celebridad asociado a una cara cualquier inicial, o bien transacciones financieras. De esta forma se mantiene el anclaje a partir de la data original y se puede usar con algún fin (el trade-off mencionado al principio). Se puede generar y vender esta información y los Bancos, Telcos o Retail realizar modelos con ella.

wien plaetzer 2

wien plaetzerNiels Axel Berthelsen (Nagra Kudelski): se refirió a nuevos conceptos de seguridad, que con IoT van más allá de los conocido (la parte “IT”) y que tienen que ver con el costado operacional (“OT”) ampliando la superficie de ataque. Ya no es la oficina que está en riesgo (y mostró aquí unas cifras bastante contundentes) sino todo lo relativo a los sensores. Niels identificó unos seis tipos de ciber- criminales en este ámbito, desde un hacker hasta un empleado descontento, y ofreció ejemplos de diversas plantas químicas o de energía en Estados Unidos que estuvieron por ser atacadas. Cualquier esquema que pretenda mitigar el riesgo debe abordar unos 10 puntos, desde las políticas de seguridad, el chequeo de la gente, la validación de la información de 3eras partes, y recién ahí cuestiones referidas a la información.

wien axel niels 2

Finalmente Tony Ohlsson (CEO Alphazetta / member of Volt) habló de Volt, el neo-bank de Australia (pues ya no se habla de fintech), primer licencia bancaria emitida a un banco en este país tras treinta años. Lecciones aprendidas: rapidez en conformar el equipo, absoluto foco en el cliente, En cuanto al banco todo se hace en Agile y el 25% del staff es de Analytics, todo se hace en “R”, la nube de Azure y una combinación de Tensor Flow y Hadoop para el storage, cosas en tiempo casi real con Kafka y PowerBi para la visualización . En cuanto al cliente, el digital onboarding se hace con reconocimiento facial,  una cuenta se debe abrir en 60 segundos, y todo el tiempo se ofrecen predicciones y tips.

Mi resumen es que no hay nuevas tecnologías sencillas. Cada individuo y cada organización deben poseer la capacidad de abstraer y entender si necesita un digital twins en su modelo, data sintética para cumplir GDPR o acercarse a un neo-banco para advertir las ventajas y diferencias de velocidad en el mercado.  A la vez el enfoque agnóstico es el más liberador pues permite responder si tal o cual tecnología sigue de cerca las “iniciativas top” del negocio sin atarse a un dado proveedor. Finalmente solo si tenemos la capacidad de hacernos la pregunta correcta (y admitir que no sabemos, y abrir la mente al aprendizaje) nos libraremos de un Stephen Brobst que venga a despedirnos con una voz nasal, un poco a lo Seinfeld (:D).

6 Comments

  1. Muy interesante! Muchos de estos temas los estoy viendo en “organización de datos”, aunque lamento que sea todo muy a nivel teórico.

Deja un comentario

Your email address will not be published.

*

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>