Lado Oscuro de la Analítica en los Negocios
Los modelos estadísticos en los negocios son micro gestores de la economía, en que si científico del dato no se preocupa del sesgo producirá desigualdades en que el rico sea más rico y el pobre más pobre.
Cuando oímos la frase estadística en acción, se nos viene a la mente la película “El juego de la fortuna”; en lo que se utilizaron datos para crear un equipo de bajo costo pero altamente eficiente– Como diría un matemático “el óptimo”. Luego se definió como el SaberMetrics (Estadística + Béisbol).
“Machine Learning intenta mejorar el poder predictivo de los modelos de métodos clasicos”
Hoy en día el Machine Learning no es solo una herramienta que entrega inteligencia a los sistema de inteligencia artificial (IA), sino también lo están usando las empresas para mejorar el poder predictivo de sus modelos estadísticos clásicos, el apoyo a la gestión, mejorar el criterio experto, o simplemente como un indicador de reputación (te agrega reputación decir que estás modelando tus datos que generas día a día).
Pero ¿cuál es el daño colateral de estos modelos cuando el científico de datos no considera que la contraparte son personas o derechamente tus clientes?.
Recuerda que estás modelando los datos para mejorar o apoyar tu gestión pero no necesariamente el bienestar de la persona que le vas aplicar el modelo — dependerá del caso de negocio.
En la actualidad es fácil llamarse un científico del dato, sobre todo si se desconoce los daños colaterales; realmente el científico de dato tiene una tarea mucha más ardua que solo comprobar una hipótesis de negocio usando la estadística, para luego modelar los datos. Tiene que verificar si realmente su modelo está libre de sesgo, que en ocasiones sus datos intrínsecamente vienen sesgados. El sesgo siempre estará presente pero lo ideal es que siempre sea el menor posible. Por ejemplo, un modelo de riesgo no realizado de la forma correcta puede asignar baja calidad crediticia persistente a personas de bajos recursos, conllevando a que esas personas que deseaban emprender sigan estando en estratos bajos. Optando por otros tipos de lugares para financiarse a tasas mucho mas altas. Son por estas razones que los modelos estadísticos en los negocios se les denominan micro gestores de la economía.
Hace un tiempo se verificó un modelo penitenciario de Estados Unidos en que se clasificaba para saber si una persona puede estar en libertad condicional o pagar una fianza. Encontrando que los falsos positivos era casi el doble para personas afroamericanas (44.9%) que blancos (23.5%), pero lo interesante que en modelo no se encontraban variables de color de piel ni género, pero esas variables estaban “codificadas” en otras variables como: lugar de nacimiento, colegio, etc. Produciendo de igual manera una proporción de sesgo en el modelo. Unos podrían decir que dejémoslo así porque representa la realidad, pero detrás existe la ética del científico del dato. Y la otra razón es que el sesgo exacerba el sesgo.
Esto es algo tan importante, porque a pequeños detalles acumulados puede tener un efecto macro, que en la gran parte de las ocasiones se echa la culpa al riesgo modelo que a la “expertise” del científico de datos. Incluso, no me extrañaría que en un futuro los modelos estadísticos generaran micro burbujas sectoriales en la economía, si es que no existen estándares de regularización que continuamente se estén actualizando.
Los científicos de datos tienen responsabilidad detrás, y sobre todo los que son científicos de datos que podrían generar un bienestar a un tercero. Es importante que los científicos de datos verifiquen si los modelos que están implementando están generando sesgo que a su vez podría fomentar una mayor desigualdad haciendo que los ricos sean más ricos y que los pobres sean más pobres.
Gracias.